斯坦福:通过认知行为改进LLM推理
📖标题:Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs
🌐来源:arXiv, 2503.01307
🌟摘要
🔸测试时推理已经成为一种强大的范式,使语言模型能够像熟练的人类专家一样,对复杂的挑战进行更长时间、更仔细的“思考”。虽然强化学习(RL)可以推动语言模型在可验证任务上的自我改进,但一些模型表现出了实质性的进步,而另一些模型则很快停滞不前。例如,我们发现在倒计时游戏的相同RL训练下,Qwen-2.5-3B远远超过了Llama-3.2-3B。这种差异提出了一个关键问题:哪些内在属性能够实现有效的自我提升?
🔸我们通过分析专家人类问题解决者和成功的语言模型所采用的四种关键认知行为——验证、回溯、子目标设置和反向链接,引入了一个框架来研究这个问题。我们的研究表明,Qwen自然表现出这些推理行为,而Llama最初缺乏这些行为。在受控行为数据集的系统实验中,我们发现用包含这些推理行为的示例启动Llama可以在RL过程中实现实质性的改进,与Qwen的表现相匹配或超越。重要的是,推理行为的存在,而不是答案的正确性,被证明是关键因素——用包含正确推理模式的错误解决方案启动的模型,其性能与用正确解决方案训练的模型相当。
🔸最后,利用OpenWebPath数据的持续预训练,过滤以放大推理行为,使Llama模型能够与Qwen的自我改进轨迹相匹配。我们的研究结果建立了初始推理行为与改进能力之间的基本关系,解释了为什么一些语言模型有效地利用了额外的计算,而另一些则停滞不前。
🛎️文章简介
🔸研究问题:如何通过初始推理行为的强化,提高语言模型在自我改进中的表现能力。
🔸主要贡献:论文揭示了特定的认知行为(如验证和回溯)对模型自我改进能力的重要性,并通过实验验证了这些行为的引导作用。
📝重点思路
🔸模型比较:选取了Qwen-2.5-3B和Llama-3.2-3B作为基础模型,分析它们在强化学习训练中的表现差异。
🔸行为分析:定义了四种关键的认知行为(验证、回溯、子目标设定和反向推理),并建立了框架来识别和分析这些行为在模型输出中的表现。
🔸数据干预:通过创建不同的预训练数据集(如专注于回溯的回溯数据集),来诱导模型展示特定的认知行为,并进行强化学习训练。
🔸实验设计:使用合成的推理轨迹对模型进行预训练,以评估特定行为对模型自我改进能力的影响,并与控制条件进行对比。
🔎分析总结
🔸初始推理行为与模型的自我改进能力之间存在强烈的关系,具备良好推理行为的模型(如Qwen)在强化学习中表现出显著的性能提升,而缺乏这些行为的模型(如Llama)则表现有限。
🔸即使在训练时提供错误的解决方案,只要这些方案展示了正确的推理模式,模型依然可以实现显著的性能提升,表明认知行为比解决方案的正确性更为重要。
🔸通过对预训练数据的有针对性修改,可以有效地诱导模型的认知行为,从而提升其在强化学习过程中的自我改进能力。
💡个人观点
论文的核心在于识别和模型推理相关的认知能力,并针对性构建训练数据强化这些能力。
🧩附录