当前位置：首页 > article >正文

【论文分享】推理大模型Post-Training技术的全面综述

article 2025/3/9 22:52:01

论文题目：LLM Post-Training: A Deep Dive into Reasoning Large Language Models

论文链接：https://arxiv.org/abs/2502.21321

项目地址：https://github.com/mbzuai-oryx/Awesome-LLM-Post-training

这篇论文《LLM Post-Training: A Deep Dive into Reasoning Large Language Models》试图系统地探讨大型语言模型（LLMs）的后训练（post-training）方法,非常好好的一篇综述，系统性梳理了LLM-Post-Training相关技术，值得好好阅读！

大规模语言模型（LLMs）已经彻底改变了自然语言处理领域，并催生了多种应用。尽管在大规模网络数据上的预训练为这些模型奠定了基础，但研究界现在越来越多地将焦点转向后续训练技术，以实现进一步的突破。虽然预训练提供了广泛的语言基础，但后续训练方法使得LLMs能够精炼其知识、改善推理能力、提升事实准确性，并在更好地与用户意图和伦理考虑保持一致方面发挥重要作用。微调、强化学习和测试时扩展等策略已经成为优化LLMs性能、确保鲁棒性和提高适应性在各种现实任务中的关键方法。本文综述了后续训练方法，系统地分析了它们在进一步完善LLMs方面的作用，讨论了如灾难性遗忘、奖励劫持和推理时的权衡等关键挑战。论文还强调了模型对齐、可扩展适应性和推理时推理能力等新兴方向，并概述了未来的研究方向。

下面是论文一些比较漂亮的总结

LLM Post-Training技术分类

大型语言模型（LLMs）后训练方法的分类，分为微调、强化学习和测试时扩展方法。论文总结了最近的LLM模型中使用的关键技术，如GPT-4 、LLaMA 3.3 和Deepseek R1 。

基于强化学习增强的大模型变体

下图为增强型强化学习大型语言模型（LLMs）概述，其中符号“141B-A39B”表示一种专家混合（MoE）架构，该模型总参数量为1410亿，其中在推理过程中实际使用的参数为390亿。

大模型推理方法概述

大型语言模型（LLMs）推理方法概述，展示了通过链式思维（CoT）提示、自我反馈和情节记忆等方法提升推理能力的路径。该图强调了多种基于强化学习的优化技术，包括GRPO、RLHF、DPO和RLAIF，用于通过奖励机制和基于偏好的学习来微调推理模型。

Test-time Scaling方法概述

测试时扩展(Test-time Scaling)方法概述：并行扩展、顺序扩展和基于搜索的方法。图中还展示了它们如何整合到计算最优策略中。

LLMs中的推理策略

这张图比较了LLMs中的推理策略，从直接提示（Direct Prompting）开始，它将输入直接映射到输出，未涉及推理过程，到更结构化的方法。链式思维（CoT）引入了逐步推理，而自一致性（CoT-SC）生成多个CoT路径并选择最常见的答案。多个CoT独立地探索多样化的推理路径。思维树（ToT）将推理结构化为树形，支持回溯和优化，而思维图（GoT）通过动态汇聚和连接思维来扩展这一方法。图例解释了关键机制，如评分、回溯和自我优化，这些机制对于优化推理效率至关重要。