当前位置: 首页 > article >正文

LLM(十五)| Kimi k1.5:解锁语言模型强化学习新高度

       最近,人工智能领域又迎来了一个重磅消息 ——Kimi k1.5 大模型横空出世!它在技术上的创新突破,引起了不少 AI 爱好者和专业人士的关注。今天,咱们就一起来深入了解一下这个 Kimi k1.5 到底厉害在哪。

     以往的语言模型靠预测下一个词来进行预训练,虽然在一定程度上有效,但会受到训练数据量的限制。而强化学习为人工智能的发展开辟了新方向,Kimi k1.5 就是基于强化学习训练的多模态大模型,它能通过奖励机制探索学习,不再局限于固定的数据集。

在设计和训练 Kimi k1.5 的过程中,研究团队做了不少创新:

  1. 长上下文扩展

    团队把强化学习的上下文窗口扩展到了 128k。简单来说,就是模型在处理信息时能 “看” 到更长的文本内容。而且,他们还使用了部分滚动(partial rollouts)技术,避免从头生成新轨迹的高成本,提升了训练效率。研究发现,上下文长度是强化学习与大语言模型结合发展的关键因素。

  2. 改进策略优化

    研究人员推导出了基于长思维链(long-CoT)的强化学习公式,并采用了在线镜像下降的变体进行稳健的策略优化。同时,通过有效的采样策略、长度惩罚和数据配方优化,进一步提升了算法性能。

  3. 简单有效的框架

    长上下文扩展和改进的策略优化方法相结合,形成了一个简单而有效的强化学习框架。这个框架不需要依赖复杂的技术,比如蒙特卡罗树搜索、价值函数和过程奖励模型,就能取得很好的效果。

  4. 多模态融合

    Kimi k1.5 在文本和视觉数据上进行联合训练,具备了对两种模态进行联合推理的能力。

        Kimi k1.5 的训练过程也很有讲究,它分为几个阶段:预训练、普通监督微调、长 CoT 监督微调以及强化学习。这里面的强化学习部分最为关键。

  1. 强化学习提示集整理

    研究人员精心挑选强化学习的提示集,确保其具备多样覆盖、难度平衡和准确可评估的特点。通过自动筛选和基于模型的难度评估方法,构建出高质量的提示集,同时避免奖励劫持和过拟合问题。

  2. 长 CoT 监督微调

    利用精心设计的提示工程,构建高质量的长 CoT 热身数据集,让模型学习人类的推理策略,如规划、评估、反思和探索。通过对这个数据集进行轻量级监督微调,提升模型在各种推理任务中的表现。

  3. 强化学习优化
    • 问题设定

      给定训练数据集,模型要学习生成思维链和最终答案。通过奖励模型来判断答案的正确性,优化策略以最大化奖励。

    • 策略优化

      采用在线策略镜像下降的变体进行训练,通过迭代优化模型参数。同时,引入长度惩罚机制,避免模型生成过长的推理过程,还提出了课程采样和优先采样两种策略,提高训练效率。

    • 训练细节

      针对编码任务,设计自动生成测试用例的方法;对于数学任务,采用两种方法改进奖励模型的评分准确性;在视觉数据方面,从真实世界、合成视觉推理和文本渲染数据三个类别获取数据,提升模型的视觉推理能力。

        为了让短 CoT 模型也能有更好的表现,Kimi k1.5 提出了几种方法,比如模型合并,直接平均长 CoT 和短 CoT 模型的权重;最短拒绝采样,多次采样选最短正确响应;DPO,利用长 CoT 模型生成正负样本训练;还有长 2 短 RL,在标准 RL 训练后,进行专门的长 2 短 RL 训练阶段,同时应用长度惩罚。

        Kimi k1.5 在多个基准测试和模态上都取得了非常不错的成绩。它的长 CoT 版本在 AIME、MATH 500、Codeforces、MathVista 等测试中达到了最先进的推理性能,和 OpenAI 的 o1 相当;短 CoT 版本也表现出色,在多个任务上超越了 GPT-4o 和 Claude Sonnet 3.5 等现有模型。

        可以看出,Kimi k1.5 在技术上的创新和突破为大模型的发展提供了新的思路和方向。未来,相信会有更多基于这些创新的应用出现,给我们的生活和工作带来更多便利和惊喜。说不定在不久的将来,Kimi k1.5 就能成为我们学习、工作和生活中的得力助手!让我们一起期待吧~

      在 short-CoT 模式下,Kimi k1.5 的数学、代码、视觉多模态和通用能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%。

图片

      在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 正式版的水平。这应该是全球范围内,OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能。

图片

     以上就是今天关于 Kimi k1.5 的全部内容啦,你对这个大模型有什么看法呢?欢迎在评论区留言讨论!


http://www.kler.cn/a/555297.html

相关文章:

  • 2月17日c语言框架
  • 最新扣子(Coze)案例教程:全自动DeepSeek 写影评+批量生成 + 发布飞书,提效10 倍!手把手教学,完全免费教程
  • MySQL误删控制文件导致系统无法正常启动
  • 标量化rknn的输入输出向量转换处理
  • Go日期时间处理工具Carbon
  • 深入解析:在Spring Boot中集成MyBatis Plus实现高效数据库操作
  • 基于WebGIS技术的校园地图导航系统架构与核心功能设计
  • 快手大数据开发平台:实践与演进之路
  • 设计模式教程:责任链模式(Chain of Responsibility Pattern)
  • 【Linux】 关于配置linux系统的环境变量
  • 后端开发-分页游标设计(解决大数据量分页查询时的性能问题)
  • 深入理解 Uber 漏桶与 Go 令牌桶限流器
  • 边缘安全加速平台 EO 套餐
  • 【deepseek之我学】如何理解golang的gmp模型
  • 【GESP】C++二级练习 luogu-b2067, 药房管理
  • 【鸿蒙笔记-基础篇_状态管理】
  • 【C++】:奇异递归模板模式
  • 可编辑35页PPT | DeepSeek如何赋能职场应用
  • 利用AI优化可再生能源管理:Python让绿色能源更高效
  • 如何将Docker运行的镜像写入数据后导出为新的镜像