卡内基梅隆大学研究人员推出 PAPRIKA:一种微调方法,使语言模型能够发展出不局限于特定环境的通用决策能力
在当今快速发展的 AI 领域,一个长期存在的挑战是为语言模型配备能够超越单轮交互的稳健决策能力。传统的大语言模型(LLMs)在生成连贯响应方面表现出色,但在多步骤问题解决或与动态环境交互方面常常力不从心。这种不足在很大程度上源于训练数据的性质,这些数据很少反映现实世界场景所需的结构化、交互式体验。此外,直接部署模型以收集现实世界交互数据既昂贵又冒险。因此,迫切需要开发出能够教授 LLMs 在安全、受控方式下探索、收集相关信息并做出深思熟虑的顺序决策的方法。
为应对这些挑战,卡内基梅隆大学的研究人员开发了一种名为 PAPRIKA 的方法。这种方法旨在赋予语言模型不局限于任何单一环境的通用决策能力。与依赖传统训练数据不同,PAPRIKA 利用在多样任务集中生成的合成交互数据。这些任务从经典的猜谜游戏(如二十问)到解谜游戏(如 Mastermind),甚至包括模拟客户服务交互的场景。通过在这些多样化轨迹上进行训练,模型学会了根据环境的上下文反馈调整其行为,而无需额外的梯度更新。这种方法鼓励模型采用更灵活的、基于上下文的学习策略,可以应用于一系列新任务。
PAPRIKA 的方法基于一个两阶段的微调过程。第一阶段是让 LLM 接触使用一种称为 Min-p 采样的方法生成的大量合成轨迹,这确保了训练数据的多样性和连贯性。这一步骤使模型能够体验广泛的交互策略,包括成功和不太成功的决策行为。第二阶段则使用监督微调(SFT)和直接偏好优化(DPO)目标的混合来细化模型。在这种设置中,轨迹对进行比较,模型逐渐学会偏好那些更直接导致任务成功的轨迹。
认识到并非所有任务都具有相同的挑战性,PAPRIKA 还整合了一种课程学习策略。这一组件根据任务提供有意义学习体验的潜力动态选择任务。通过优先考虑提供更丰富学习信号的任务,这种方法提高了数据效率,并帮助模型更好地泛化其决策策略。这些方法的结合产生了一个在各种情境下擅长顺序决策的精细化模型。
PAPRIKA 方法的实际益处在其经验结果中显而易见。在一个说明性的例子中,该方法被应用于一个 bandit 最佳臂选择任务,这是一个需要谨慎分配有限采样预算以识别最有前途选项的场景。在这里,PAPRIKA 显著提高了平均成功率,展示了战略决策的重大改进。更广泛地,当模型在来自十个不同任务组的轨迹上进行训练时,其总体性能相比基线模型提高了约 47%,使用了大约 22,500 个训练轨迹。
进一步的留一法评估实验表明,通过 PAPRIKA 学习的决策策略可以泛化到以前未见过的任务。例如,当模型在除了一个任务组之外的所有任务组上进行训练时,它在被排除的任务组上仍然表现具有竞争力。这一发现表明,通过这种微调方法发展的策略并非狭隘地针对特定任务,而是可以跨不同的决策场景转移。此外,一项涉及课程学习的研究表明,根据任务难度有选择地采样训练任务可以带来额外的改进,进一步证明了量身定制、数据驱动的任务选择方法的价值。
总之,PAPRIKA 代表了一种深思熟虑且有分寸的方法,旨在弥合静态语言理解和动态、顺序决策之间的差距。通过利用合成交互数据,并采用精心设计的两阶段微调过程以及课程学习,CMU 研究人员已经证明 LLMs 可以被细化为更适应的决策者。这种方法并非诉诸于特定任务的微调,而是使模型能够以最小的额外训练应对新挑战。
与外部环境交互、收集相关信息并根据反馈调整决策的能力对于任何旨在自主运行的系统都至关重要。尽管仍存在挑战,例如确保一个坚实的起始模型以及管理合成数据生成的计算成本,PAPRIKA 为开发更通用的 AI 系统提供了一条充满希望的途径。最终,随着我们的模型不断进步,像 PAPRIKA 这样的方法对于创建不仅在语言理解方面 proficient,而且能够以微妙和谨慎的方式处理复杂现实世界决策任务的工具将非常重要。
详见论文:https://arxiv.org/abs/2502.17543