当前位置：首页 > article >正文

Kimi k1.5：基于大语言模型的多模态强化学习训练技术报告

article 2025/3/4 1:46:22

1. 背景与目标

近年来，基于下一个词预测的语言模型预训练在扩展计算能力方面取得了显著成效，但其发展受限于高质量训练数据的数量。为了突破这一瓶颈，Kimi团队提出了基于强化学习（RL）的大语言模型（LLM）训练方法，旨在通过奖励机制引导模型探索学习，从而实现训练数据的持续扩展。

2. Kimi k1.5 的核心创新点

Kimi k1.5 的训练方法融合了多种创新技术，旨在提升模型的多模态推理能力和效率：

（1）长上下文扩展

上下文窗口扩展至 128k： 通过扩展上下文窗口，模型能够处理更长的输入序列，从而提升其在复杂推理任务中的表现。
部分回溯技术： 为了提高训练效率，Kimi k1.5 采用部分回溯技术，即在生成新轨迹时重用之前轨迹的大部分内容，避免从头开始重新生成，从而降低计算成本。

（2）改进的策略优化方法

长链式思维（CoT）强化学习： Kimi k1.5 采用了一种基于长链式思维（CoT）的强化学习算法，通过在线镜像下降的变体进行鲁棒的策略优化。
高效采样策略： 结合难度标签和成功率跟踪，Kimi k1.5 采用课程采样和优先采样策略：
- 课程采样： 从简单任务开始，逐步过渡到更复杂的任务，提高训练效率。
- 优先采样： 优先选择模型表现较差的样本进行训练，帮助模型更快地学习并提升整体性能。
长度惩罚机制： 为了防止模型过度思考导致响应长度过长，Kimi k1.5 引入了长度惩罚机制，鼓励生成更简洁的答案，同时对错误的长答案进行惩罚。
去价值网络设计： Kimi k1.5 摒弃了传统的价值网络设计，转而使用最终答案作为奖励信号，鼓励模型探索多样化的推理路径，从而提升其解决复杂问题的能力。

（3）简洁高效的框架

无需复杂技术： 通过长上下文扩展和改进的策略优化方法，Kimi k1.5 实现了强大的推理性能，而无需依赖蒙特卡洛树搜索、价值函数和过程奖励模型等复杂技术。
多模态联合训练： Kimi k1.5 在文本和视觉数据上进行联合训练，使其能够对两种模态进行联合推理。

（4）长链式思维到短链式思维的迁移

为了在有限的测试时间计算预算下提升短链式思维模型（短-CoT）的性能，Kimi k1.5 提出了以下长链式思维到短链式思维（长2短）的方法：

模型融合： 将长-CoT 模型与短-CoT 模型进行融合，通过平均权重的方式获得新模型，提升短模型的推理能力。
最短拒绝采样： 对同一问题进行多次采样，选择最短的正确回答进行监督微调。
直接偏好优化（DPO）： 利用长-CoT 模型生成多个回答样本，选择最短的正确回答作为正样本，将更长的回答（无论是正确还是错误）作为负样本进行训练。
长2短强化学习： 在标准 RL 训练阶段之后，选择一个在性能和 token 效率之间取得最佳平衡的模型作为基础模型，并进行单独的长2短 RL 训练阶段，进一步减少最大回溯长度。

3. 实验结果

（1）长-CoT 模型性能

在多个基准测试中，Kimi k1.5 长-CoT 模型均取得了最先进的推理性能，例如：
- AIME 2024：77.5
- MATH-500：96.2
- Codeforces：94 百分位
- MathVista：74.9

（2）短-CoT 模型性能

Kimi k1.5 短-CoT 模型在多个任务中表现出与领先的开源和专有模型相当或更优的性能，尤其是在自然语言理解、数学、编码和逻辑推理方面表现出色，例如：
- AIME 2024：60.8（Pass@1）
- MATH-500：94.6（Pass@1）
- LiveCodeBench：47.3（Pass@1）

（3）长上下文扩展效果

随着训练迭代次数的增加，模型的响应长度和性能准确性均呈现同步增长的趋势，表明长上下文扩展对模型推理能力的提升至关重要。

（4）长2短方法比较

与 DPO、最短拒绝采样和模型融合方法相比，Kimi k1.5 提出的长2短 RL 算法在 token 效率方面表现最佳。例如，k1.5-short w/ rl 在 AIME 2024 上实现了 60.8 的 Pass@1 分数，而平均仅使用 3,272 个 token。

4. 结论与未来展望

长上下文扩展是提升 LLM 性能的关键因素。 通过优化学习算法和基础设施（如部分回溯），Kimi k1.5 实现了高效的长上下文 RL 训练。
改进的策略优化方法至关重要。 融合长-CoT RL 公式、在线镜像下降变体、采样策略、长度惩罚和数据配方优化，Kimi k1.5 实现了强大的 RL 性能。
长2短方法具有巨大潜力。 这些方法可以显著提升短-CoT 模型的性能，并且可以与长-CoT RL 迭代结合使用，以进一步提高 token 效率并充分利用给定的上下文长度预算。

未来，Kimi 团队将继续探索提高长上下文 RL 训练效率和可扩展性的方法，并研究在不损害模型探索能力的情况下改进信用分配和减少过度思考的方法。

http://www.kler.cn/a/518311.html

相关文章：

Base64编码解密：解码下载邀请

使用 Tauri 开发桌面应用程序：新一代的轻量解决方案

编写python 后端 vscode 安装插件大全

DDD架构实战第七讲总结：分层模型和代码组织

Redis内存面试与分析

如何在 Windows 上安装 MySQL（保姆级教程2024版）

RocketMQ底层哪里用了Netty

51单片机(四）定时器

AI News(1/21/2025):OpenAI 安全疏忽：ChatGPT漏洞引发DDoS风险/OpenAI 代理工具即将发布

25美赛ABCDEF题详细建模过程＋可视化图表＋参考论文＋写作模版＋数据预处理

「全网最细 + 实战源码案例」设计模式——抽象工厂模式

利用大语言模型（LLM）增强软件测试自动化的最佳实践

【韩顺平Java笔记】第8章：面向对象编程（中级部分）【354-358】

AI模型提示词（prompt）优化-实战（一）

css遇到的一些问题

Kafka生产者ACK参数与同步复制

简洁明了：介绍大模型的基本概念（大模型和小模型、模型分类、发展历程、泛化和微调）

人工智能丨视觉识别在自动化测试中的应用

npm link 作用

如何理解 Web3 背后的技术：区块链与去中心化存储