当前位置: 首页 > article >正文

OpenAI o1真的那么强吗

一、Openal o1技术原理

在技术博客《Learning to Reason with LLMs》中,OpenAI 对 o1 系列语言模型做了详细的技术介绍。

OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链

也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。

在 OpenAI 的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。

在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。

模型的编码能力也在比赛中得到了评估,在 Codeforces 比赛中排名 89%。

OpenAI 表示,作为早期模型,它还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。

但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,OpenAI 将计数器重置为 1,并将该系列模型命名为 OpenAI o1。

重点在于,OpenAI 的大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。换言之,类似于强化学习的 Scaling Law。

二、一些清醒认识

DeepWisdom公司CEO吴承霖深夜发出了自己的想法:(裸推理极限)

 

1.self-play 可行,设计空间也不大

2.OpenAI 只做了最简单的 self-play

3.记忆模块仍然没有任何突破

4.思维模式仍然难以琢磨,很难说 o1 是好的思维模式

5.没有其他秘密,这就是现在的裸推理极限,所以 OpenAI 核心成员都去了其他公司

self-play是一种强化学习手段,可以理解为:智能体通过与自身副本或历史版本进行自我博弈而进行演化的方法。

不过,当人们实际上手o1时,巨大的落差感可能在所难免。

在OpenAI官方的演示视频中,o1已经在玩量子物理、奥赛数学了,但在实际的测评中,面对9.11和9.8哪个大的“经典老题”时,o1依然自顾自的重复着“wait,9.8 is 9.80”……。不由得让人长叹,“理想很丰满,现实很骨感”。

三、写在最后

在看到o1的命名法则时,有人调侃说,“原来GPT-5永远不会来了”。但是,由o1生成数据进行训练的下一代模型“猎户座”,终将会与人们见面,不是吗? 也许,科技最有魅力的地方,也许不是当下的成果有多么惊艳。而是告诉我们:边界尚未抵达,这里仍有无限期待。


http://www.kler.cn/news/307823.html

相关文章:

  • 天地一体化物联网:挑战与机遇
  • 移动订货小程序哪个好 批发订货系统源码哪个好
  • 【Elasticsearch系列八】高阶使用
  • 您的计算机已被.lcrypt勒索病毒感染?恢复您的数据的方法在这里!
  • 春秋云境靶场之CVE-2022-29464
  • element-plus弹窗内分页表格保留勾选项
  • 大数据-134 - ClickHouse 集群三节点 安装配置启动
  • 【2023年】云计算金砖牛刀小试4
  • 机器学习文献|基于循环细胞因子特征,通过机器学习算法预测NSCLC免疫治疗结局
  • 24.9.16数据结构|平衡二叉树
  • 如何切换淘宝最新镜像源npm
  • C++菜鸟教程 - 从入门到精通 第二节
  • Bxbshsbsh
  • 联合条件概率 以及在语言模型中的应用
  • 2、vectorCast集成测试常用功能
  • Flask中的蓝图如何进行模块化
  • ELK在Linux服务器下使用docker快速部署(超详细)
  • 苍穹外卖 修改nginx的端口后websocket连接失败解决
  • Datawhale------Tiny-universe学习笔记——Qwen(1)
  • C#:强大编程语言的多面魅力
  • 如何写数学建模竞赛论文
  • 实用调试技巧
  • golang学习笔记20——golang微服务负载均衡的问题与解决方案
  • MyBatis系统学习(四)——MyBatis的关联映射和缓存机制
  • Redis面试---缓存问题
  • 7------MTK芯片专用工具NZO 解锁 修复红米9A 10A双串 NV损坏故障 工具预览与操作解析
  • 华为大获全胜 老美正在颤抖
  • 智能硬件从零开始的设计生产流程
  • 学习笔记(一)
  • sicp每日一题[2.12]