OpenAI o1真的那么强吗
一、Openal o1技术原理
在技术博客《Learning to Reason with LLMs》中,OpenAI 对 o1 系列语言模型做了详细的技术介绍。
OpenAI o1 是经过强化学习训练来执行复杂推理任务的新型语言模型。特点就是,o1 在回答之前会思考 —— 它可以在响应用户之前产生一个很长的内部思维链。
也就是该模型在作出反应之前,需要像人类一样,花更多时间思考问题。通过训练,它们学会完善自己的思维过程,尝试不同的策略,并认识到自己的错误。
在 OpenAI 的测试中,该系列后续更新的模型在物理、化学和生物学这些具有挑战性的基准任务上的表现与博士生相似。OpenAI 还发现它在数学和编码方面表现出色。
在国际数学奥林匹克(IMO)资格考试中,GPT-4o 仅正确解答了 13% 的问题,而 o1 模型正确解答了 83% 的问题。
模型的编码能力也在比赛中得到了评估,在 Codeforces 比赛中排名 89%。
OpenAI 表示,作为早期模型,它还不具备 ChatGPT 的许多实用功能,例如浏览网页获取信息以及上传文件和图片。
但对于复杂的推理任务来说,这是一个重大进步,代表了人工智能能力的新水平。鉴于此,OpenAI 将计数器重置为 1,并将该系列模型命名为 OpenAI o1。
重点在于,OpenAI 的大规模强化学习算法,教会模型如何在数据高度有效的训练过程中利用其思想链进行高效思考。换言之,类似于强化学习的 Scaling Law。
二、一些清醒认识
DeepWisdom公司CEO吴承霖深夜发出了自己的想法:(裸推理极限)
1.self-play 可行,设计空间也不大
2.OpenAI 只做了最简单的 self-play
3.记忆模块仍然没有任何突破
4.思维模式仍然难以琢磨,很难说 o1 是好的思维模式
5.没有其他秘密,这就是现在的裸推理极限,所以 OpenAI 核心成员都去了其他公司
self-play是一种强化学习手段,可以理解为:智能体通过与自身副本或历史版本进行自我博弈而进行演化的方法。
不过,当人们实际上手o1时,巨大的落差感可能在所难免。
在OpenAI官方的演示视频中,o1已经在玩量子物理、奥赛数学了,但在实际的测评中,面对9.11和9.8哪个大的“经典老题”时,o1依然自顾自的重复着“wait,9.8 is 9.80”……。不由得让人长叹,“理想很丰满,现实很骨感”。
三、写在最后
在看到o1的命名法则时,有人调侃说,“原来GPT-5永远不会来了”。但是,由o1生成数据进行训练的下一代模型“猎户座”,终将会与人们见面,不是吗? 也许,科技最有魅力的地方,也许不是当下的成果有多么惊艳。而是告诉我们:边界尚未抵达,这里仍有无限期待。