当前位置: 首页 > article >正文

关于GPT5训练失败的思考

作者:姚广

https://zhuanlan.zhihu.com/p/718513570

1. 大模型:AI仍是硅谷的热门话题,但不如去年狂热

硅谷对AI的关注依然持续,但热度有所降低,主要原因是大模型扩展速度的放缓,尤其是训练算力需求的下降。大约3-4周前,谷歌内部在训练Gemini下一代模型(比上一代大10倍,类似GPT-5)时,两次尝试都失败了。这也解释了GPT-5的发布延迟。

目前,硅谷普遍认为,在LLM层面,进一步扩大模型规模变得更加困难,主要是因为:

  • MOE(混合专家模型)后的后期训练效果不佳,模型难以收敛

  • 数据瓶颈:合成数据的质量远不如互联网搜集的数据

因此,不排除GPT-5继续延期的可能性。

思考一:

在日常使用GPT-4的过程中,我发现其输出在许多场景下已经非常接近“完美”。这里的“完美”并不意味着通用人工智能(AGI)已经实现,而是在现有系统形态下,基于有限的信息给出的回复,已接近理论上应该有的最佳回答。

许多问题之所以没有得到满意的答复,主要是因为输入的信息不足。

思考二:

虽然模型拥有强大的上下文处理能力,在搜索和总结类场景中表现出色,但在复杂推理场景中,我们不能期望现有技术能实现长上下文的复杂推理。

现有模型更像是一种“快速思考”系统,对于涉及多阶推理、前后信息对比、路径探索和经验积累等复杂任务,不应期望其能在内部完成。COT(思维链)的应用实际上表明推理是外部化的,而“慢思考”应通过Agent架构来实现。

思考三:

对于一些问题,比如精确的数学计算,不应期望现有模型直接解决。对人类来说,简单的计算依赖记忆,而稍复杂的计算(如心算)则是一种逻辑推理与记忆的结合过程。因此,大模型使用工具进行计算是合理的解决方案。

思考四:

“压缩即智能”是一个有趣的观点,但人类最高层次的智能,比如物理理论,并不是通过简单的归纳和压缩得出的。压缩是一种归纳方法,例如,如果给大模型提供各种物体自由落体的视频,它可能得出“重的物体下落更快”的错误结论。

真正的智能需要推理、假设和实验支持,而不仅仅依赖于数据压缩和归纳。

总结:

如果现有的大模型无法解决你手头的问题,问题真的是因为模型不够智能吗?还是我们需要的是更好地理解如何利用工具和方法来解决问题,而不是一味追求更大参数的模型?


http://www.kler.cn/news/302341.html

相关文章:

  • CRM客户关系管理系统开发源码小程序
  • 【机器学习】参数学习的基本概念以及贝叶斯网络的参数学习和马尔可夫随机场的参数学习
  • FEDERATED引擎
  • 更改flutter 应用的应用名称和图标
  • PHP一键约课高效健身智能健身管理系统小程序源码
  • vue3打包 error in node_modules/@types/node/stream/web.d.ts 错误解决办法
  • Centos7安装MySql(特详细)
  • 栈的内容..
  • Python Flask简介
  • 【2023年】云计算金砖牛刀小试6
  • 用于大数据分析的数据存储格式:Parquet、Avro 和 ORC 的性能和成本影响
  • 配网行波故障预警与定位装置:行波定位技术原理的详细分析
  • 网页时装购物:Spring Boot框架的创新应用
  • 国产游戏的机遇和挑战
  • git 笔记记录
  • SAP 公司间采购配置简介
  • selenium中键盘操作:Keys类
  • JDBC笔记
  • Leetcode Hot 100刷题记录 -Day14(矩阵置0)
  • MySQL事物原理
  • Python知识点:如何使用Python进行邮件自动化(smtplib、email)
  • el-table使用合计和固定列时,滚动条被覆盖区域无法拖拽问题
  • SDL 2.0视频数据渲染到窗口上播放流程
  • 20240909软考架构-------软考136-140答案解析
  • vba发邮件:如何设置自动化发送电子邮件?
  • Transformer、RNN和SSM的相似性探究:揭示看似不相关的LLM架构之间的联系
  • 最大时间
  • 免费SSL证书正在逐渐被淘汰,证书部署自动化的发展趋势即将到来!
  • 富格林:警醒欺诈消除遭遇暗箱欺诈
  • 光伏监控系统在新材料公司的应用