当前位置：首页 > article >正文

Kimi k1.5：月之暗面再突破，多模态推理能力比肩 OpenAI o1

article 2025/4/2 8:31:43

还在为选择哪个AI模型而烦恼吗？chatTools 整合了o1、GPT4o、Claude和Gemini等多种顶尖AI模型，只需一个平台，即可满足您不同的AI需求。立即体验，开启您的AI探索之旅！

在人工智能领域，多模态模型的研发一直是备受瞩目的焦点。近日，国内AI公司月之暗面发布了其最新的多模态思考模型Kimi k1.5，再次引发业界广泛关注。这款模型不仅在数学、代码和多模态推理能力上全面对标OpenAI的满血版o1模型，更以其独特的技术创新，为多模态AI的发展注入了新的活力。
Kimi k1.5：多模态推理能力比肩 OpenAI o1

Kimi k1.5：多模态推理能力比肩 OpenAI o1

Kimi k1.5的发布，无疑给多模态模型领域带来了一场震撼。这款模型在Long CoT（长思维链）模式下，其数学、代码、多模态推理能力，达到了长思考SOTA模型OpenAI o1满血版的水平。这是全球范围内，首次有OpenAI之外的公司达到这一高度。而在Short CoT（短思维链）模式下，Kimi k1.5也大幅领先GPT-4o和Claude 3.5的水平。

Kimi k1.5的成功，并非偶然。其背后是月之暗面团队在强化学习（RL）技术上的创新探索。他们没有依赖大量的人工标注数据，而是通过强化学习，让模型自主扩展训练数据，从而实现计算规模的有效扩展。

技术创新：long2short 思维链

Kimi k1.5最大的技术创新在于其提出的long2short思维链方法。该方法的核心思想是将长CoT模型的推理先验转移到短CoT模型中，从而即使在有限的测试Token预算下也能提高性能。

具体而言，Kimi团队通过以下几个步骤实现了long2short：

模型合并： 将长CoT模型和短CoT模型进行合并，除了可以在泛化性上起到积极的作用，还可以提高Token的使用效率。这种方法通过简单地平均两个模型的权重，将一个长CoT模型与一个短模型结合，得到一个新的模型，而无需进行训练。
最短筛选采样： 由于模型对于同一问题生成的响应长度变化很大，因此团队设计了一种最短筛选采样方法。也就是，先对同一问题采样n次，然后选择最短的正确响应进行监督微调。
DPO (Direct Preference Optimization)： 利用长CoT模型生成多个响应样本，然后选择最短的正确解作为正样本，并将较长的响应视为负样本，包括正确但长度是选定正样本1.5倍的较长响应。这些正负样本对数据集形成了用于DPO训练的成对偏好数据。
long2short 强化学习： 在标准强化学习训练阶段之后，团队选择了一个在性能与Token使用效率之间提供最佳平衡的模型作为基础模型，并进行单独的long2short强化学习训练阶段。在第二阶段中，他们应用了“长度惩罚”，并显著减少了最大展开长度，以进一步惩罚可能正确但超出期望长度的响应。

强化学习基础设施：部分回滚技术

为了高效处理长CoT特性，Kimi团队还设计了一种迭代同步的RL框架，并引入了部分回滚（Partial Rollout）技术。部分回滚技术设定了一个固定的输出Token预算，对每个回滚轨迹的长度进行限制。如果某个轨迹在回滚阶段超过了Token限制，其未完成部分被保存到重放缓冲区，并在后续迭代中继续处理。此外，由于回滚工作节点是异步运行的，当某些节点处理长轨迹时，其他节点可以独立地处理新的短回滚任务。这种技术能够显著降低计算开销，同时保持快速迭代时间。

训练与推理的混合部署

Kimi团队还提出了一种用于训练和推理任务的混合部署策略，该策略利用Kubernetes的Sidecar容器共享所有可用GPU，将两种任务协同部署在同一个Pod中。这一策略的主要优势包括：促进了资源的高效共享与管理，避免了训练节点因等待推理节点而处于空闲状态；通过使用不同的部署镜像，训练和推理可以独立迭代，从而实现更好的性能。

实验结果：多模态能力全面提升

多模态能力全面提升

Kimi k1.5经过多模态的各种基准测试，性能得到了充分验证，基准测试主要包括以下三类：

Text Benchmark： MMLU, IF-Eval, CLUEWSC, C-EVAL
Reasoning Benchmark： HumanEval-Mul, LiveCodeBench, Codeforces, AIME 2024, MATH500
Vision Benchmark： MMMU, MATH-Vision, MathVista

评估结果显示，Kimi k1.5长CoT模型在长距离推理上获得了显著增强，模型在长上下文中的推理、理解和信息综合能力方面有了显著提升。而Kimi k1.5短CoT模型在多个领域的多项任务中表现出与领先的开源和专有模型相当或更优的性能。