当前位置: 首页 > article >正文

【论文分享】推理大模型Post-Training技术的全面综述

论文题目:LLM Post-Training: A Deep Dive into Reasoning Large Language Models

论文链接:https://arxiv.org/abs/2502.21321

项目地址:https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

这篇论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》试图系统地探讨大型语言模型(LLMs)的后训练(post-training)方法,非常好好的一篇综述,系统性梳理了LLM-Post-Training相关技术,值得好好阅读!

大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。

下面是论文一些比较漂亮的总结

LLM Post-Training技术分类

大型语言模型(LLMs)后训练方法的分类,分为微调、强化学习和测试时扩展方法。论文总结了最近的LLM模型中使用的关键技术,如GPT-4 、LLaMA 3.3 和Deepseek R1 。

基于强化学习增强的大模型变体

下图为增强型强化学习大型语言模型(LLMs)概述,其中符号“141B-A39B”表示一种专家混合(MoE)架构,该模型总参数量为1410亿,其中在推理过程中实际使用的参数为390亿。

大模型推理方法概述

大型语言模型(LLMs)推理方法概述,展示了通过链式思维(CoT)提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术,包括GRPO、RLHF、DPO和RLAIF,用于通过奖励机制和基于偏好的学习来微调推理模型。

Test-time Scaling方法概述

测试时扩展(Test-time Scaling)方法概述:并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。

LLMs中的推理策略

这张图比较了LLMs中的推理策略,从直接提示(Direct Prompting)开始,它将输入直接映射到输出,未涉及推理过程,到更结构化的方法。链式思维(CoT)引入了逐步推理,而自一致性(CoT-SC)生成多个CoT路径并选择最常见的答案。多个CoT独立地探索多样化的推理路径。思维树(ToT)将推理结构化为树形,支持回溯和优化,而思维图(GoT)通过动态汇聚和连接思维来扩展这一方法。图例解释了关键机制,如评分、回溯和自我优化,这些机制对于优化推理效率至关重要。


http://www.kler.cn/a/574177.html

相关文章:

  • Java数组详解/从JVM理解数组/数组反转/随机排名/数组在计算机如何存储
  • Unity Shader 学习15:可交互式雪地流程
  • Codepen和tailwindcss 进行UI布局展示
  • VBA第十八期 如何获得WPS中已经安装字体的列表
  • 在vue2项目中el-table表格的表头和内容错位问题
  • 责任链模式:让请求在链条中流动
  • 基于GeoTools的GIS专题图自适应边界及高宽等比例生成实践
  • pytorch3d学习(二)——安装与纹理显示demo测试
  • 2025年中职大数据应用与服务竞赛培训方案分享
  • 介绍一个能支持高带宽的EDID编辑软件
  • 23种设计模式之《状态模式(State)》在c#中的应用及理解
  • Spring Boot整合Resilience4j教程
  • 大模型基础-深度解析-什么是语言模型及大模型相关历史回顾
  • Unity帧同步与状态同步混合架构开发指南
  • python之爬虫入门实例
  • 永恒之塔鼠标卡顿移动鼠标卡屏的问题
  • 高考數學。。。
  • 0.QT概述|下载|配置环境
  • dify 工作流 迭代
  • Anolis服务器Arm64架构服务器配置(其他版本服务器解决方式思路一质)