当前位置：首页 > article >正文

推理LLMs发展综述：从GPT到DeepSeek

article 2025/3/13 3:29:55

实现人类水平的智能需要优化从快速、直观的系统1推理到更慢、更审慎的系统2推理的转变。系统1擅长快速、基于启发式的决策，而系统2则依赖逻辑推理来做出更准确的判断并减少偏差。基础大语言模型（LLMs）在快速决策方面表现出色，但缺乏复杂推理的深度，因为它们尚未完全具备真正系统2思维的逐步分析特征。最近，像OpenAI的o1/o3和DeepSeek的R1等推理大语言模型在数学和编码等领域展现出专家级的表现，紧密模仿系统2的审慎推理，展示出类似人类的认知能力。本综述首先简要概述基础大语言模型的进展以及系统2技术的早期发展，探究它们的结合如何为推理大语言模型奠定基础。接下来，综述讨论如何构建推理大语言模型，分析其特征、实现高级推理的核心方法以及各种推理大语言模型的演进。此外，综述还概述了推理基准测试，对代表性推理大语言模型的性能进行深入比较。最后，综述探索推进推理大语言模型发展的有前景的方向，并维护一个实时的GitHub代码库来跟踪最新进展。

来自：From System 1 to System 2: A Survey of Reasoning Large Language Models

背景概述

实现人类水平的智能需要完善从系统1推理到系统2推理的转变。双系统理论认为，人类认知通过两种模式运作：系统1快速、自动且直观，能让人不费太多力气就快速做出决策；而系统2则较为缓慢，更具分析性和审慎性。虽然系统1在处理常规任务时效率较高，但它容易产生认知偏差，在复杂或不确定的情况下尤其如此，进而导致判断失误。相比之下，系统2依赖逻辑推理和系统性思维，能做出更准确、更理性的决策。通过减少系统1的偏差，系统2为解决问题提供了更完善的方法。

基础大语言模型（LLMs）的发展是 AI 领域的一个重要里程碑。像 GPT-4o 和 DeepSeek-v3 等模型，在文本生成、语言翻译以及各种感知任务中展现出了令人瞩目的能力。这些模型在大量数据集上进行训练，并运用先进算法，在理解和生成类似人类的回复方面表现出色。虽然它们在快速给出回复方面表现卓越，但在需要深度逻辑分析和复杂推理任务精度的场景中，往往有所欠缺。在涉及复杂问题解决、逻辑分析或精细理解的情况下，这种局限性尤为明显，在这些场景中，这些模型的认知能力仍无法与人类相媲美。

“推理” 指的是回答涉及复杂、多步骤过程且需要中间步骤的问题。基础大语言模型：具备基本推理能力，能够处理简单或单步骤任务的大语言模型。推理大语言模型：擅长诸如编码和数学证明等复杂任务的大语言模型，这类模型融入了 “思考” 过程，而这些任务是基础大语言模型难以应对的。

像OpenAI的o1/o3和DeepSeek的R1这样的模型，旨在模拟与系统2思维相关的更慢、更审慎的推理过程。与基础大语言模型不同，推理大语言模型配备了逐步处理信息的机制，这使它们能够做出更准确、更合理的决策。从快速思考、直观的过程转变为更有条理、由推理驱动的模型，使得推理大语言模型能够以专家级的表现处理复杂任务，如高等数学、逻辑推理和多模态推理，展现出类似人类的认知能力。因此，推理大语言模型越来越被视为能够实现曾经被认为超出人工智能能力范围的任务所需的深度逻辑思考。图1展示了推理大语言模型的近期发展时间线。
fig1

图1. 推理大语言模型近期发展时间线，涵盖核心方法以及开源和闭源复现项目（Reproduction Projects）的发布情况。

该综述全面概述了推理大语言模型发展过程中涉及的关键概念、方法和挑战。综述的结构如下：

简要概述基础大语言模型的进展以及关键的系统2技术的早期发展，包括符号逻辑系统、蒙特卡洛树搜索（MCTS）和强化学习（RL），重点阐述了它们的结合如何为推理大语言模型奠定基础。
介绍推理大语言模型并概述其构建过程。具体而言，从两个角度阐述推理大语言模型的特征：输出行为和训练动态，强调它们与基础大语言模型的差异。明确实现高级推理能力所需的核心方法，重点聚焦五个方面（图1）：结构搜索（StructureSearch）、奖励建模（RewardModeling）、自我提升（Self Improvement）、宏观动作（Macro Action）以及强化微调（Reinforcement Fine-Tuning）。
对具有代表性的推理大语言模型进行评估。
着重指出了现有推理大语言模型的局限性，并概述了这些模型未来几个有前景的发展方向。

推理大语言模型的基础

在本节中，将简要概述基础大语言模型的进展以及关键系统2技术的早期发展，重点介绍这些技术与基础大语言模型相结合，为推理大语言模型的发展所奠定的重要基础。这些技术进步包括符号逻辑系统、蒙特卡洛树搜索和强化学习。

基础LLMs

2018 - 2019年，预训练Transformer的引入使基础大语言模型取得了重大进展，其中以BERT和GPT最为突出。这些模型在海量文本语料库上进行无监督预训练，然后针对特定任务进行微调。这种方法使它们在专注于情感分析、实体识别和问答等任务之前，能够建立起广泛的语言理解能力。BERT的双向上下文处理提升了对单词的理解，而GPT凭借其单向设计在文本生成方面表现出色。

2019年，拥有15亿参数的GPT-2发布，这标志着生成性能实现了重大飞跃，尽管它也引发了伦理方面的担忧。拥有1750亿参数的GPT-3进一步展示了无监督预训练的强大力量，它在少样本学习方面表现卓越，并且在广泛的自然语言处理任务中都表现出色。在随后的几年里，像CLIP和DALL-E这样的多模态模型出现了，它们整合了文本和视觉输入。这些模型开启了新的任务，比如根据文本生成图像，并且增强了人机交互。

到2023 - 2024年，诸如GPT-4/4o、LLaMA和LLaVA等模型在推理、上下文理解和多模态推理方面展现出先进的能力，能够处理文本和图像。DeepSeek-V3采用了6710亿参数的混合专家架构，在关键基准测试中优于其他多个大语言模型，同时在效率和处理速度方面有显著提升。基础大语言模型的发展彻底改变了人工智能，使其在语言理解、问题解决和人机协作等方面有了更复杂的应用。

总结：基础大语言模型的发展已从像BERT这样的预训练Transformer模型，演进到如GPT-4这样的多模态模型，提升了语言理解、文本生成和图像处理能力。这一进步在人工智能领域带来了重大突破，改善了语言理解、问题解决以及人机交互。基于深度学习的进展，基础大语言模型能够从海量文本或多模态数据中学习广泛的世界知识和语义关系。这使它们展现出诸如上下文学习（ICL）、提示工程和思维链（CoT）推理等涌现能力。

尽管取得了这些进展，但基础大语言模型的运作方式与系统1推理类似，依赖快速的、基于启发式的决策，缺乏系统2那种逐步分析的特征。然而，它们的发展为未来的推理大语言模型奠定了坚实的基础。

符号逻辑系统

符号逻辑系统标志着人工智能的最初阶段，它利用规则和逻辑原理来表示知识并得出结论。它们在结构化领域特别有效，在这些领域中，形式逻辑确保了精确性。

Prolog是一种基于一阶逻辑的逻辑编程语言，它允许用户定义事实、规则，并通过查询进行推理。它在符号推理系统中至关重要，尤其是在自然语言处理和专家系统领域。像Prolog这样基于逻辑的系统运用命题逻辑和谓词逻辑来进行形式推理。从20世纪60年代到80年代初，这种方法在人工智能领域占据主导地位，当时出现了用于符号计算的IBM的LISP系统以及用于自动推理的归结定理证明器。20世纪70年代，马文·明斯基引入了“框架”的概念，即将知识组织成结构化的框架，这对专家系统和认知科学都产生了影响。

总结：符号逻辑系统是早期人工智能发展中的关键里程碑。基于形式逻辑，它们在定义明确的问题上表现出色，尤其是在结构化的环境中。然而，它们也暴露出了基于规则的僵化系统的局限性。尽管存在这些限制，符号逻辑仍是人工智能发展的基础。

推理大语言模型的最新进展通过被称为宏观动作框架（Macro Action）的复杂思维架构，极大地增强了对类似人类系统2认知过程的模拟。通过将符号模板或规则与基础大语言模型相结合，Macro Action显著提升了模型的推理能力。将Macro Action集成到基础大语言模型中，已经改变了这些模型处理复杂推理任务的能力，因为分层规划使得模型能够在深入研究具体问题细节之前做出高层次的决策，这反映了符号逻辑的结构化方法。

蒙特卡洛树搜索（MCTS）

蒙特卡洛树搜索（MCTS-Monte Carlo Tree Search）是一种基于模拟的用于决策和规划的搜索算法。它通过四个步骤构建一棵搜索树：Selection，即使用上置信界1（UCB1）公式选择优先级最高的子节点：
$1=\frac{w_{i}}{n_{i}}+c \sqrt{\frac{\ln N}{n_{i}}}$
其中 $w_{i}$ 是节点 $i$ 的总奖励值， $n_{i}$ 是该节点的访问次数， $N$ 是父节点的访问次数， $c$ 用于平衡探索和利用。Expansion步骤会添加新的节点，Simulation 步骤会进行随机展开以评估这些新节点，而 Backpropagation 步骤则会更新节点的统计信息。蒙特卡洛树搜索已被广泛应用于诸如围棋等棋盘游戏的策略优化以及机器人路径规划等任务中，在这些任务里，它能帮助机器人有效地在动态环境中导航。

总结：蒙特卡洛树搜索（MCTS）在推理大语言模型的发展中发挥了关键作用，尤其是在结构搜索（Structure Search）方面。通过模拟未来潜在的推理路径，并反向传播估计的奖励值，蒙特卡洛树搜索帮助基础大语言模型有效地识别出最有前景、高回报的路径。这一过程类似于人类的规划方式，即在采取行动之前会考虑决策可能带来的未来后果。通过动态地探索多种推理轨迹，蒙特卡洛树搜索使模型能够避免陷入次优路径，从而更轻松地在复杂的决策空间中进行探索。这种融合显著增强了大语言模型处理复杂且动态的推理问题的能力，比如那些需要长期规划或多步骤逻辑推理的问题。它使大语言模型能够做出更具战略性且基于充分信息的决策，提升了它们在涉及精细推理和策略性探索任务中的整体表现。

强化学习

强化学习（RL）是机器学习的一种类型，在这种学习方式中，agent 通过与环境交互并以奖励的形式接收反馈来学习做出决策，其目标是随着时间推移使累积奖励最大化。强化学习领域早期的突破，比如Q learning 和深度Q网络（DQNs），通过使用深度神经网络（DNNs）来处理复杂的状态空间，彻底革新了这一领域。这些方法为将强化学习应用于现实世界的任务铺平了道路，因为在处理现实任务时，传统的表格法往往力有不逮。深度强化学习的出现标志着向前迈出了重要的一步，它将深度学习的强大能力与强化学习相结合，从而能够处理高维输入，如图像和非结构化数据。

强化学习的核心是学习从状态到动作的函数，即策略。强化学习通过agent与环境交互来学习策略。适合需要泛化性的任务。

蒙特卡洛树搜索通过模拟多步结果评估搜索路径，蒙特卡洛树搜索不会学习一个通用的策略。适合状态空间大且需要实时决策的任务。

深度强化学习领域的一项里程碑式成就当属 AlphaGo，它通过自我对弈在复杂的围棋游戏中击败了一位世界冠军，展示了强化学习的潜力。这一成功突显了深度强化学习在具有大量连续动作空间和不确定性的环境中表现出色的能力。在此基础之上，AlphaZero 进一步改进了这种方法，它运用自我对弈、蒙特卡洛树搜索（MCTS）和深度神经网络（DNNs）掌握了多种棋类游戏，包括国际象棋、围棋和将棋，能够在没有任何人类先验知识的情况下完全从零开始学习。

事实证明，深度强化学习在解决复杂决策任务方面非常有效。“AlphaGo” 就是一个很好的例证，它通过自我对弈学习策略，并在围棋比赛中击败了世界冠军。这种自我对弈的概念为推理大语言模型中的自我提升技术（Self Improving）奠定了基础，二者都依赖于持续的反馈和调整来优化策略。

在强化学习中，奖励塑造至关重要，尤其是对于多步骤推理任务而言。通过调整奖励信号，以便在中间步骤中提供更细致的反馈，它能帮助 agent 在复杂的决策路径中找到方向。这一概念启发了推理大语言模型中奖励建模（Reward Modeling）的发展，特别是过程奖励模型的发展。该模型提供逐步的监督，以识别和纠正推理过程中的错误。通过模拟人类推理，过程奖励模型确保得出更可靠且可解释的结果，尤其是在像数学问题求解和代码生成这类任务中，在这些任务里，逐步评估至关重要。

此外，强化学习本身是推理大语言模型的一个强大工具。借助奖励机制，强化学习引导基础大语言模型找到最优解决方案，尤其是在动态推理问题中。强化学习的简洁性和高效性使其在训练和优化推理大语言模型方面具有极高的价值，提升了人工智能模型的智能水平和自我进化能力。强化学习的融入已促使推理大语言模型取得了重大进展，如DeepSeek-R1。

建立推理LLMs

本节首先从输出行为和训练动态两个角度分析推理大语言模型的特点。然后，详细概述赋予它们先进推理能力的核心方法。最后，总结推理大语言模型的发展历程。传统推理模型与推理大语言模型的全面比较如图3所示。
fig3

图3. 传统推理模型与推理大语言模型的全面比较。推理大语言模型在训练方法、适应性与学习能力、问题解决策略以及通用性和可扩展性等方面，相较于传统模型具有显著优势。

推理LLMs的特点

输出行为

探索与规划结构
最近的研究表明，推理大语言模型在其输出结构中表现出强烈的探索倾向，尤其是与主要依赖传统思维链（CoT）推理方法的模型（如WizardMath和DeepSeekMath）相比时。这种探索行为在提出新颖假设以及寻求其他解决方案路径方面表现得十分明显。研究表明，慢思考模型会参与到一种潜在的生成过程中，这在预测后续词元时尤为显著。并且研究观察到在强化学习的大规模训练过程中自然会出现类似的行为。此外，Quiet-STaR框架引入了一个专注于下一词元预测的辅助预训练阶段，突出了在内容生成之前内部思考和探索机制的关键作用。总体而言，这些发现强调了先进大语言模型中推理过程的复杂性和动态性，突出了在其运行框架内探索与结构化推理之间的相互作用。

验证与检查结构
对OpenAI的o1和o3模型的分析表明，推理框架既包含用于长期战略规划的宏观层面操作，也包含微观层面的操作，如“等待”“稍等”“或者”以及“让我们暂停一下”。这些微观操作有助于进行细致的验证和迭代检查过程，确保任务执行的精确性。这种双层方法突显了这些模型在平衡总体目标与注重细节的精细操作方面的能力，从而增强了它们的整体功能和可靠性。为了模仿这一特性，Marco-o1在构建长思维链（Long-CoT）的蒙特卡洛树搜索（MCTS）过程中，为每个树节点赋予“等等！也许我犯了一些错误！我需要从头重新思考”的状态，从而促进了长思维链的反思特性。华佗-o1采用了多智能体框架来解决在验证过程中产生错误思维链（CoT）的问题。这是通过融入具有“回溯”和“纠正”功能的提示来实现的，这些功能使得纠正过程得以进行。

更长的推理长度和时间
最近的研究表明，推理大语言模型常常会生成超过2000个词元的输出，以处理编码和数学领域中的复杂问题。然而，这种较长的输出长度有时可能会导致过度思考，即模型在一个问题上花费过多时间，却不一定能改进解决方案。虽然自回归生成和经典思维链（Classic CoT）能够有效地解决较为简单的问题，但在处理更复杂的任务时却会遇到困难。而在多模态领域中，许多问题需要仔细的观察、比较和思考。总结而言，更长的推理长度和时间有好处也有坏处，适合解决复杂问题，但也有可能导致过度思考。

过度谨慎与简单问题陷阱-Overly Cautious & Simple Problem Trap
目前，推理大语言模型在诸如竞赛级别的数学、coding、医学问答以及多语言翻译等领域中展现出了强大的性能。这些场景要求模型对问题进行细致入微的分析，并根据给定条件执行严谨的逻辑推理。有趣的是，即使对于像 “2 + 3 =?” 这样简单直接的问题，推理大语言模型也可能表现出过度自信或不确定性。最近的研究指出，类似o1的模型在处理较为简单的数学问题时，往往会生成多轮解决方案，常常探索一些不必要的路径。这表明该模型的推理过程可能存在效率低下的问题。

训练动态

惊人的数据效率
研究表明，构建专注于难题样本的慢思考思维链（CoT）数据集，能在医学和数学等领域实现更好的泛化能力。这种方法与收集多样化且分布均匀的指令数据集的传统做法有所不同。（在困难样本上微调）

稀疏训练方法
与传统观念相悖的是，开发有效的推理大语言模型并不需要海量的数据集或密集的奖励信号。例如，STILL2仅使用5000个提炼后的样本就展现出了令人瞩目的性能，而Sky-T1仅仅依靠17000个长思维链（LongCoT）样本就达到了与QwQ相当的性能水平。同样，红星（RedStar）仅凭借4000个核心长思维链样本，就在文本和多模态任务中都取得了优异的成绩。与简单的思维链（CoT）相比，慢思考监督微调（SFT）数据展现出了惊人的样本效率，通常仅用1%的样本量就能取得相当的效果。此外，还有研究强调了在线强化学习扩展算法巨大的训练潜力。

参数特性
采用长思维链（LongCoT）方法所体现的那种针对慢思考的大语言模型训练方式，会使不同层的梯度范数相对均匀。相比之下，以简化思维链（CoT）方法为代表的快思考方式，会在较靠前的层中产生更大的梯度幅度，而且各层之间的梯度范数差异显著。实证表明，更大规模的模型，尤其是那些参数超过300亿的模型，因其具备更强的复杂推理能力，更适合用于推理大语言模型的训练。此外，红星（RedStar）所进行的实验也表明，在更大规模的模型中，规模扩大的效果更为明显且有效。这一发现得到了深度求索-R1（Deepseek-R1）的研究支持，该研究表明，一个拥有6700亿参数的模型所达到的性能指标与o1基准测试的指标非常接近，这凸显了在高级推理任务中，更大规模架构在可扩展性方面的优势。

核心方法

结构搜索

推理大语言模型旨在通过模拟人类推理的审慎特性，在解决复杂问题时实现高度的准确性和深度。然而，尽管近期取得了一些进展，当前的基础大语言模型在处理复杂推理任务时仍面临着一些固有局限。这些局限源于它们缺乏用于模拟环境状态的内部世界模型，无法预测推理路径的长期结果，并且不能根据未来状态或奖励对推理步骤进行迭代优化。因此，这些缺陷阻碍了基础大语言模型在广阔的推理空间中有效地平衡探索与利用，给那些需要多步骤推理的任务带来了挑战，比如复杂数学问题、逻辑推理或战略决策等任务。

蒙特卡洛树搜索（MCTS）是一种强大的搜索和优化算法，它通过提供一个结构化的框架来系统地探索和评估推理路径。它的运作方式是构建一棵推理树，其中每个节点都代表一种推理状态，而通过考虑潜在的下一步行动来扩展这棵树。通过对未来状态的模拟以及对估计奖励的迭代反向传播，蒙特卡洛树搜索使基础大语言模型能够高效地识别出高回报的推理路径，这与人类的规划过程类似。这种方法与推理大语言模型的核心原则相一致，在推理大语言模型中，全面的分析和审慎的探索对于生成经过充分推理的输出至关重要。最近的一些方法，如推理自适应规划（RAP），通过将蒙特卡洛树搜索与一个世界模型相结合来增强基础大语言模型，使系统能够迭代优化中间推理步骤并改进对未来的预测。同样，思维森林（Forest-of-Thought）利用蒙特卡洛树搜索来动态探索多种推理轨迹，重新审视存在缺陷的路径并优化结果。

蒙特卡洛树搜索（MCTS）在推理任务中的应用，已从传统的问题解决领域扩展到高度专业化的领域。在指令对齐等领域，诸如SPaR和Marco-o1这样的框架利用蒙特卡洛树搜索来优化回复，并使推理轨迹与人类偏好或预期结果保持一致。此外，像华佗GPT-o1这样针对特定任务的应用，突显了蒙特卡洛树搜索在处理高度专业化领域（如医学推理）时的关键作用，在医学推理领域，准确性和稳健性至关重要。

尽管基于结构搜索（即蒙特卡洛树搜索，MCTS）的推理大语言模型有其优势，但由于需要进行大量的模拟运算，它们常常面临巨大的计算开销。这使得它们不太适合那些需要实时决策，或者在资源受限条件下运行的任务。此外，蒙特卡洛树搜索的有效性在很大程度上依赖于精心设计的奖励机制和动作定义，而这些在不同领域可能会有显著差异，因此对其通用性构成了挑战。

奖励模型

有两种主要的训练范式用于处理多步骤推理任务：结果监督和过程监督。结果监督在更宏观的层面上强调最终答案的正确性，由此产生的模型被称为结果奖励模型（ORM-Outcome Reward Model）。相比之下，过程监督为解题轨迹提供逐步的标签，对每一个推理步骤的质量进行评估。由此产生的模型被称为过程奖励模型（PRM-Process Reward Model）。结果奖励模型和过程奖励模型之间的主要区别如图5所示。
fig5

图5. 结果奖励模型（ORM）与过程奖励模型（PRM）在评估完整解题轨迹方面的比较。结果奖励模型仅根据最终答案的正确性给出单一奖励，而过程奖励模型则会评估整个过程中每一个推理步骤的质量。

过程奖励模型（PRM）在复杂推理任务中具有显著优势，原因主要有以下几个关键方面。首先，它提供了细粒度的、逐步骤的监督，能够识别出解题路径中具体的错误。这一特性对于强化学习（RL）和自动纠错来说尤其有价值。其次，过程奖励模型紧密地反映了人类的推理行为，人类推理依赖于准确的中间步骤来得出正确的结论。与结果奖励模型（ORM）不同，过程奖励模型避免了那种错误推理仍可能得出正确最终答案的情况，从而确保了推理更加可靠且可解释。虽然过程奖励模型主要应用于复杂的数学问题，但最近其优势也推动了它在其他领域的应用。

尽管过程奖励模型（PRM）具有诸多优势，但它们也带来了一些挑战。最主要的困难在于获取带有过程监督标注的数据，这通常既耗费成本又耗时。

Self Improvement

推理大语言模型体现了从弱监督到强监督的发展过程，而传统的思维链（CoT）微调在有效扩展方面面临着挑战。自我提升，即利用模型自身的探索能力进行自监督，在翻译、数学以及多模态感知等任务中逐步提升了大语言模型的性能。这种方法促进了推理大语言模型内部的探索与应用。

Macro Action

大语言模型（LLMs）的最新进展，通过复杂的思维架构（通常被称为宏观动作框架），推动了在模拟类似人类系统2的认知过程方面的发展。这些结构化的推理系统超越了传统的基于词元的自回归生成方式，引入了分层的认知阶段，例如战略规划、内省验证和迭代优化。这种方法不仅增强了推理的深度，还拓宽了解决方案的空间，从而能够实现更可靠、更多样化的问题解决路径。

宏观动作的进展分为两个方面：

1）通过宏观动作的实际应用实现测试阶段的扩展：最近的研究确定了两种用于在推理过程中提高推理性能以及实现测试阶段扩展的关键方法。层次化交互式对比学习与蒙特卡洛树搜索（HiICL-MCTS）对种子数据进行审慎搜索，以生成由宏观动作组成的动作链模板，从而促成了一种由动作链引导的测试阶段推理方法。ReasonFlux 利用一种迭代式的测试阶段扩展框架，借助外部的高级思维模板来迭代优化和更新当前的思维链（CoT）。Test-time Scaling through Macro Action Operationalization 主要用于推理阶段的动态优化，适合实时决策或问题求解任务。
2）宏观动作增强的数据合成范式：宏观动作在复杂推理中的一个关键应用是在推理数据的合成方面。在数据合成和训练框架中，宏观动作架构提高了推理的多样性和泛化能力。最近的研究表明，在推理序列中，将思维链（CoT）过程与宏观动作进行整合或合成，可以显著提升推理链的数据效率。原子思维（AtomThink）使用结构化的g1提示词生成了AMATH-SFT数据集，与传统的思维链方法相比，在长期推理任务中取得了更出色的性能。Macro Action-Enhanced Data Synthesis Paradigms 主要用于数据合成阶段的生成，适合训练大语言模型。

这两种方法的核心思想都是通过宏动作（Macro Action）来增强思维链（Chain of Thought, CoT）的生成和推理能力。宏动作可以理解为高层次的动作或步骤，它们能够将复杂的推理任务分解为更小、更易管理的子任务，从而提高推理的效率和效果。

推理时的Macro Action举例：
Test-time Scaling through Macro Action Operationalization 是一种在推理阶段（Test-time）通过宏动作（Macro Action）动态优化思维链（Chain of Thought, CoT）的方法。它的核心思想是利用宏动作模板或高层次思维模板，在推理过程中动态生成或优化思维链，从而提高推理性能。以下是一个详细的例子，说明这种方法的应用场景和实现过程：

应用场景：复杂数学问题求解

假设我们需要解决一个复杂的数学问题，例如：
问题：已知函数 $f(x) = x^3 - 6x^2 + 11x - 6$ ，求 $f (x) = 0$ 的实数根。

传统的思维链（CoT）可能会直接尝试求解方程，但这种方法在复杂问题中可能效率低下或容易出错。通过 Test-time Scaling through Macro Action Operationalization，我们可以动态优化推理过程。

详细步骤

1. 定义宏动作模板
首先，我们定义一组宏动作模板，这些模板将复杂问题分解为更小的子任务。例如：

宏动作 1：因式分解多项式。
宏动作 2：使用有理根定理寻找可能的根。
宏动作 3：使用综合除法验证根。
宏动作 4：求解剩余二次方程。

2. 推理过程动态优化
在推理阶段，模型根据问题动态选择和应用宏动作模板。以下是具体过程：

(1) 应用宏动作 1：因式分解多项式

思维链：尝试将 $f(x) = x^3 - 6x^2 + 11x - 6$ 因式分解。
结果：发现 $f (x)$ 可以写成 $(x - 1) (x - 2) (x - 3)$ 。

(2) 应用宏动作 2：使用有理根定理寻找可能的根

思维链：根据有理根定理，可能的根为 $\pm1, \pm2, \pm3, \pm6$ 。
结果：验证这些值是否满足 $f (x) = 0$ 。

(3) 应用宏动作 3：使用综合除法验证根

思维链：使用综合除法验证 $x = 1$ 是否为根。
结果： $x = 1$ 是根，剩余多项式为 $x^2 - 5x + 6$ 。

(4) 应用宏动作 4：求解剩余二次方程

思维链：求解 $x^2 - 5x + 6 = 0$ 。
结果：得到 $x = 2$ 和 $x = 3$ 。

3. 最终结果
通过动态应用宏动作模板，模型高效地求解了方程，得到实数根为 $x = 1, x = 2, x = 3$ 。

总结
Test-time Scaling through Macro Action Operationalization 是一种在推理阶段动态优化思维链的方法，通过宏动作模板将复杂问题分解为更小的子任务，从而提高推理效率和性能。它在复杂数学问题求解、逻辑推理等任务中具有广泛的应用前景。

强化微调

强化微调（RFT）是OpenAI最近推出的一项创新技术（OpenAI, “Reinforcement fine-tuning,” 2024），旨在让开发人员和工程师能够针对特定领域或复杂任务对现有模型进行微调。与一般的监督微调（SFT）不同，强化微调专注于通过使用奖励机制来引导模型的演变，从而优化模型的推理过程，进而增强其推理能力和准确性。强化微调的核心在于，利用最少的高质量训练数据、合适的奖励模型以及在长文本上下文环境中稳定的优化过程，来提升模型在特定领域的性能。强化微调方法的总结见表5。

采用基于验证器奖励策略的深度求索-R1（DeepSeek-R1），已显示出显著的性能提升。其主要优势包括：

1）简化的训练流程：强化学习监督简化了数据构建和训练过程，无需复杂的逐步搜索机制。
2）增强的可扩展性：在线强化学习训练有助于在大型数据集上实现高效扩展，尤其适用于复杂的推理任务。
3）涌现特性：深度求索-R1（DeepSeek-R1）展现出了独特的涌现能力，比如长思维链（Long-CoT）推理，这是仅通过监督微调（SFT）难以实现的。

尽管强化微调（RFT）有其优势，但它也面临着以下挑战：

推理背后的机制不清楚：虽然深度求索-R1（DeepSeek-R1）展现出了涌现特性（例如，“涌现式长度增加”、“顿悟时刻”），但有研究表明，诸如长思维链（Long-CoT）之类的能力可能在基础模型中就已经存在，并非仅仅源自强化学习训练。此外，在较小的模型（例如，通义数学2B/7B模型（Qwen-Math2B/7B））中观察到性能提升的同时，并没有明显的“顿悟时刻”，这使得对其因果关系的解释变得复杂。
奖励模型饱和：许多现有的强化学习算法面临着奖励模型饱和的问题，通常表现为在大约100个训练步骤后探索行为出现崩溃。深度求索-R1（DeepSeek-R1）通过专门的奖励格式化方式缓解了这一问题，但这个问题还需要进一步解决。
长思维链生成不稳定：强化微调（RFT）生成的长推理链容易出现不稳定的情况，包括上下文溢出、无法得出最终答案，以及对奖励设定敏感。

查看全文

http://www.kler.cn/a/580658.html