当前位置：首页 > article >正文

OpenAI GPT o1技术报告阅读（5）-安全性对齐以及思维链等的综合评估与思考

article 2025/3/6 21:18:52

✨继续阅读报告：使用大模型来学习推理(Reason)

原文链接：https://openai.com/index/learning-to-reason-with-llms/

编码

我们训练了一个模型，在2024年国际信息学奥林匹克竞赛（IOI）中得分213分，排名在第49百分位，通过从o1初始化并进一步训练以提高编程技能。这个模型在2024年IOI中与人类参赛者在相同条件下竞争。它有十个小时的时间来解决六个具有挑战性的算法问题，并允许每个问题提交50次。

对于每个问题，我们的系统采样了许多候选提交，并基于测试时的选拔策略提交了其中的50个。提交是基于在IOI公开测试用例、模型生成的测试用例以及学习到的评分函数上的表现来选择的。如果我们随机提交，平均得分将只有156分，这表明在竞赛限制下，这种策略值得近60分。

在放宽提交限制的情况下，我们发现模型性能显著提高。当允许每个问题提交10,000次时，模型得分为362.14分——超过了金牌阈值——甚至没有使用任何测试时的选拔策略。

最后，我们模拟了由Codeforces主办的竞技编程比赛，以展示这个模型的编码技能。我们的评估与比赛规则紧密匹配，并允许10次提交。GPT-4o获得了808的Elo评分，这在人类参赛者中排在11百分位。这个模型远远超过了GPT-4o和o1——它获得了1807的Elo评分，表现优于93%的参赛者。

在编程竞赛上的进一步微调，提高了o1的性能。改进后的模型在2024年国际信息学奥林匹克竞赛中，在竞赛规则下排名在第49百分位。

人类偏好评估

除了考试和学术基准测试，我们还评估了在广泛的领域中，对于具有挑战性的开放式提示，人类对o1预览版和GPT-4o的偏好。在这次评估中，人类训练师被展示了来自o1预览版和GPT-4o的匿名回应，并投票选择他们更喜欢的回应。在数据分析、编码和数学等需要大量推理的类别中，o1预览版以较大的优势被偏好于GPT-4o。然而，在一些自然语言任务上，o1预览版并不被偏好，这表明它并不适用于所有用例。

安全性

思维链推理为对齐（小梦备注：与人类意志对齐）和安全性提供了新的机会。

我们发现，将我们的模型行为政策整合到推理模型的思维链中，是一种有效的方法，可以稳健地教授人类价值观和原则。通过教授模型我们的安全规则以及如何在上下文中推理它们，我们发现推理能力直接有益于模型的鲁棒性：o1预览版在关键的越狱评估和我们评估模型安全拒绝边界的最困难的内部基准测试上取得了显著提高的性能。（小梦备注：这一点也可以参考OpenAI GPT o1技术报告阅读（2）- 关于模型安全性的测试案例_openai o1大模型中文技术报告-CSDN博客）

我们相信，使用思维链推理为安全性和对齐提供了重大进步，因为:

（1）它使我们能够以可读的方式观察模型的思考；

（2）模型对安全规则的推理更能抵御各种外部干扰场景的鲁棒性挑战；

为了对我们的改进进行压力测试，我们在部署前进行了一系列的安全测试和红队攻击，这符合我们的准备框架。

我们发现，思维链推理有助于我们评估中的能力提升。特别值得注意的是，我们观察到了一些有趣的奖励黑客行为实例。这些评估的详细结果可以在随附的系统卡片中找到。

隐藏思维链

我们认为，隐藏的思维链为监控模型提供了一个独特的机会。

假设它是忠实和清晰的，隐藏的思维链允许我们“读懂”模型的思维并理解其思考过程。

例如，在未来我们可能希望监控思维链，以寻找操纵用户的征兆。然而，为了使这行之有效，模型必须有自由以未修改的形式表达其思想，因此我们不能将任何政策合规性或用户偏好训练到思维链上。我们也不想让用户直接看到未对齐的思维链。

因此，在权衡了包括用户体验、竞争优势和追求思维链监控的选项在内的多个因素之后，我们决定不向用户展示原始的思维链。我们承认这个决定有其缺点。我们努力通过教授模型在答案中复制思维链中的任何有用想法来部分弥补这一点。对于o1模型系列，我们展示了模型生成的思维链摘要。

【小梦备注：哈，或许官方公布的这几个例子是唯一有完整思维链展示的，所以如果想要理解这个模型，还是满建议大家详细读读前边翻译的这几个案例的。当然，官网对于代码、化学和数学的案例也可以看看。】

结论

o1在人工智能推理方面显著推进了现有技术。

我们计划在我们继续迭代的过程中发布这个模型的改进版本。我们预计这些新的推理能力将提高我们使模型与人类价值观和原则对齐的能力。我们相信o1及其后续版本将为科学、编码、数学和相关领域的人工智能解锁许多新的用例。我们对用户和API开发者发现它如何改善他们的日常工作感到兴奋。

✨写在最后

如果对comfyui还不熟悉的话，最近面向ComfyUI的新手，写了一门系统性入门图文课程，现在已经更新完成了，内容主要包括如何下载软件、如何搭建自己的工作流、关键基础节点讲解、遇到报错怎么解决等等，如果大家在学习过程中遇到什么问题，也可以直接对应的文章下留言，会持续更新相关答疑内容哈。欢迎订阅哦~

https://blog.csdn.net/jumengxiaoketang/category_12683612.html