来自谷歌新作:SFT负责记忆遵循,RL驱动泛化迁移?
继DeepSeek-R1刚刚发布不久,当大伙还沉浸在这股“东方神秘力量”给业界带来的震撼同时,在过完假期后打算后续针对DeepSeek这波浪潮所涉及的底层工程及算法甚至背后更深的内涵思想结合自己之前的思考洞察做一下逐步的回顾、探索与展望。
在DeepSeek-R1的这篇技术报告中个人认为最大的亮点之一在于R1-zero在没有采用sft的情况下即直接应用rl进行训练并取得了令人惊艳的复杂推理性能(当然从最终的orm上来看,基于template的reward某种程度上也可以看作一种sft过程性遵循),因此在探索其中SFT与RL两种范式用于RLM(推理模型)训练过程中所采取的不同策略与阶段对复杂推理类任务test-time在多步空间的探索与模式遵循上的平衡时,谷歌于甲辰年的除夕夜打了个前站,对sft与rl尝试性的进行了小规模实验性研究:《SFT Memorizes,RL Generalizes:A Comparative Study of Foundation Model Post-training》
研究通过对比研究监督微调(SFT)和强化学习(RL)在基础模型后训练中的作用,探讨了它们对模型泛化能力的影响。研究聚焦于文本和视觉环境中的泛化和记忆能力,并通过设计的GeneralPoints算术推理卡牌游戏和V-IRL真实世界导航环境进行实验验证。结果表明,RL在规则和视觉领域均展现出优越的泛化能力,而SFT则倾向于记忆训练数据,难以泛化到未见变体。
我们知道,基础模型(如大型语言模型和视觉语言模型)在经过预训练后,通常需要通过后训练技术(如SFT或RL)来适应特定任务。SFT通过在任务特定数据集上进行训练来调整模型,而RL则通过与环境的交互来优化模型的行为。然而,由于我们受限于当前人工智能基础理论的瓶颈,在受限于采用更有效的工具去探究模型内部这个黑盒时,使得我们很难清晰判断这两种训练范式对模型泛化能力的影响,尤其在区分记忆遵循和泛化学习可迁移方面。
谷歌研究者们设计了两个任务来评估SFT和RL的泛化能力:GeneralPoints和V-IRL:
GeneralPoints是一个基于文本描述或图像的算术推理任务,要求模型使用四张牌的数值计算出目标数字(默认为24);
V-IRL是一个视觉导航任务,要求模型根据文本指令在真实世界的视觉环境中导航;
这两个任务都包含了规则变化和视觉变化,用于测试模型在不同条件下的泛化能力。
实验采用多步RL框架,先对基础模型进行SFT,再进行RL训练。研究者观察了SFT和RL在两种任务中的表现,并分析了它们在规则变化和视觉变化下的泛化能力。
实验结果
1. 规则泛化:在GeneralPoints和V-IRL任务中,RL在规则变化下的泛化能力显著优于SFT。例如,在GeneralPoints的文本版本(GP-L)中,RL的泛化性能提升了3.5%,而SFT则下降了8.1%。在V-IRL的文本版本(V-IRL-L)中,RL的泛化性能提升了11.0%,而SFT下降了79.5%。这表明RL能够学习到可泛化的规则,而SFT则倾向于记忆训练数据。
2. 视觉泛化:在视觉领域,RL同样展现出优越的泛化能力。在GeneralPoints的视觉语言版本(GP-VL)中,RL在视觉变化下的泛化性能提升了17.6%,而SFT下降了9.9%。在V-IRL的视觉语言版本(V-IRL-VL)中,RL的泛化性能提升了61.1%,而SFT下降了5.6%。此外,RL还改善了模型的视觉识别能力,这可能是其在视觉领域泛化能力提升的原因之一。
3. SFT的作用:尽管RL在泛化方面表现更好,但研究发现SFT对于有效的RL训练是必要的。SFT能够稳定模型的输出格式,为后续的RL训练提供支持。实验表明,如果没有SFT初始化,直接对基础模型进行RL训练会导致失败,因为基础模型在指令遵循方面表现不佳。
4. 验证迭代的作用:研究还发现,增加验证迭代次数可以显著提升RL的泛化能力。例如,在GeneralPoints的文本版本中,随着验证迭代次数从1增加到10,RL的泛化性能逐步提升。
关键结论
本文通过对比SFT和RL在基础模型后训练中的作用,得出以下结论:
• RL在规则和视觉领域的泛化能力优于SFT,能够学习到可迁移的原则,而SFT则倾向于记忆训练数据。
• RL能够提升视觉语言模型的视觉识别能力,从而增强其在视觉领域的泛化能力。
• SFT对于有效的RL训练是必要的,它能够稳定模型的输出格式,为RL训练提供支持。
• 增加验证迭代次数可以显著提升RL的泛化能力。
这些发现为理解和改进基础模型的后训练方法提供了重要的见解,并指出了RL在复杂多模态任务中获取泛化知识的优势。