当前位置：首页 > article >正文

LLM（十五）| Kimi k1.5：解锁语言模型强化学习新高度

article 2025/2/21 23:13:22

最近，人工智能领域又迎来了一个重磅消息 ——Kimi k1.5 大模型横空出世！它在技术上的创新突破，引起了不少 AI 爱好者和专业人士的关注。今天，咱们就一起来深入了解一下这个 Kimi k1.5 到底厉害在哪。

以往的语言模型靠预测下一个词来进行预训练，虽然在一定程度上有效，但会受到训练数据量的限制。而强化学习为人工智能的发展开辟了新方向，Kimi k1.5 就是基于强化学习训练的多模态大模型，它能通过奖励机制探索学习，不再局限于固定的数据集。

在设计和训练 Kimi k1.5 的过程中，研究团队做了不少创新：

长上下文扩展
团队把强化学习的上下文窗口扩展到了 128k。简单来说，就是模型在处理信息时能 “看” 到更长的文本内容。而且，他们还使用了部分滚动（partial rollouts）技术，避免从头生成新轨迹的高成本，提升了训练效率。研究发现，上下文长度是强化学习与大语言模型结合发展的关键因素。
改进策略优化
研究人员推导出了基于长思维链（long-CoT）的强化学习公式，并采用了在线镜像下降的变体进行稳健的策略优化。同时，通过有效的采样策略、长度惩罚和数据配方优化，进一步提升了算法性能。
简单有效的框架
长上下文扩展和改进的策略优化方法相结合，形成了一个简单而有效的强化学习框架。这个框架不需要依赖复杂的技术，比如蒙特卡罗树搜索、价值函数和过程奖励模型，就能取得很好的效果。
多模态融合
Kimi k1.5 在文本和视觉数据上进行联合训练，具备了对两种模态进行联合推理的能力。

Kimi k1.5 的训练过程也很有讲究，它分为几个阶段：预训练、普通监督微调、长 CoT 监督微调以及强化学习。这里面的强化学习部分最为关键。

强化学习提示集整理
研究人员精心挑选强化学习的提示集，确保其具备多样覆盖、难度平衡和准确可评估的特点。通过自动筛选和基于模型的难度评估方法，构建出高质量的提示集，同时避免奖励劫持和过拟合问题。
长 CoT 监督微调
利用精心设计的提示工程，构建高质量的长 CoT 热身数据集，让模型学习人类的推理策略，如规划、评估、反思和探索。通过对这个数据集进行轻量级监督微调，提升模型在各种推理任务中的表现。
强化学习优化
- 问题设定
  给定训练数据集，模型要学习生成思维链和最终答案。通过奖励模型来判断答案的正确性，优化策略以最大化奖励。
- 策略优化
  采用在线策略镜像下降的变体进行训练，通过迭代优化模型参数。同时，引入长度惩罚机制，避免模型生成过长的推理过程，还提出了课程采样和优先采样两种策略，提高训练效率。
- 训练细节
  针对编码任务，设计自动生成测试用例的方法；对于数学任务，采用两种方法改进奖励模型的评分准确性；在视觉数据方面，从真实世界、合成视觉推理和文本渲染数据三个类别获取数据，提升模型的视觉推理能力。

为了让短 CoT 模型也能有更好的表现，Kimi k1.5 提出了几种方法，比如模型合并，直接平均长 CoT 和短 CoT 模型的权重；最短拒绝采样，多次采样选最短正确响应；DPO，利用长 CoT 模型生成正负样本训练；还有长 2 短 RL，在标准 RL 训练后，进行专门的长 2 短 RL 训练阶段，同时应用长度惩罚。

Kimi k1.5 在多个基准测试和模态上都取得了非常不错的成绩。它的长 CoT 版本在 AIME、MATH 500、Codeforces、MathVista 等测试中达到了最先进的推理性能，和 OpenAI 的 o1 相当；短 CoT 版本也表现出色，在多个任务上超越了 GPT-4o 和 Claude Sonnet 3.5 等现有模型。

可以看出，Kimi k1.5 在技术上的创新和突破为大模型的发展提供了新的思路和方向。未来，相信会有更多基于这些创新的应用出现，给我们的生活和工作带来更多便利和惊喜。说不定在不久的将来，Kimi k1.5 就能成为我们学习、工作和生活中的得力助手！让我们一起期待吧～

在 short-CoT 模式下，Kimi k1.5 的数学、代码、视觉多模态和通用能力，大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平，领先达到 550%。