【论文分享】推理大模型Post-Training技术的全面综述
论文题目:LLM Post-Training: A Deep Dive into Reasoning Large Language Models
论文链接:https://arxiv.org/abs/2502.21321
项目地址:https://github.com/mbzuai-oryx/Awesome-LLM-Post-training
这篇论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》试图系统地探讨大型语言模型(LLMs)的后训练(post-training)方法,非常好好的一篇综述,系统性梳理了LLM-Post-Training相关技术,值得好好阅读!
大规模语言模型(LLMs)已经彻底改变了自然语言处理领域,并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础,但研究界现在越来越多地将焦点转向后续训练技术,以实现进一步的突破。虽然预训练提供了广泛的语言基础,但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性,并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法,系统地分析了它们在进一步完善LLMs方面的作用,讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向,并概述了未来的研究方向。
下面是论文一些比较漂亮的总结
LLM Post-Training技术分类
大型语言模型(LLMs)后训练方法的分类,分为微调、强化学习和测试时扩展方法。论文总结了最近的LLM模型中使用的关键技术,如GPT-4 、LLaMA 3.3 和Deepseek R1 。
基于强化学习增强的大模型变体
下图为增强型强化学习大型语言模型(LLMs)概述,其中符号“141B-A39B”表示一种专家混合(MoE)架构,该模型总参数量为1410亿,其中在推理过程中实际使用的参数为390亿。
大模型推理方法概述
大型语言模型(LLMs)推理方法概述,展示了通过链式思维(CoT)提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术,包括GRPO、RLHF、DPO和RLAIF,用于通过奖励机制和基于偏好的学习来微调推理模型。
Test-time Scaling方法概述
测试时扩展(Test-time Scaling)方法概述:并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。
LLMs中的推理策略
这张图比较了LLMs中的推理策略,从直接提示(Direct Prompting)开始,它将输入直接映射到输出,未涉及推理过程,到更结构化的方法。链式思维(CoT)引入了逐步推理,而自一致性(CoT-SC)生成多个CoT路径并选择最常见的答案。多个CoT独立地探索多样化的推理路径。思维树(ToT)将推理结构化为树形,支持回溯和优化,而思维图(GoT)通过动态汇聚和连接思维来扩展这一方法。图例解释了关键机制,如评分、回溯和自我优化,这些机制对于优化推理效率至关重要。