当前位置：首页 > article >正文

NLP论文速读（ICLR 2025）|在实时机器翻译中对齐人类偏好

article 2025/2/10 15:18:15

论文速读|Simulpl: Aligning Human Preferences In Simultaneous Machine Translation

论文信息：

简介：

本文聚焦于实时机器翻译（Simultaneous Machine Translation, SiMT）任务。SiMT 是一种在接收源语言输入流的同时生成目标语言翻译的技术。与传统的离线机器翻译（Offline Machine Translation, OMT）不同，SiMT 需要模型在训练过程中学习一种读写策略，即决定何时等待更多源输入（READ），何时生成目标语言的输出（WRITE）。尽管已有研究提出了多种 SiMT 方法和读写策略，但这些方法主要基于 OMT 数据集进行训练和验证，没有充分考虑真实的 SiMT 场景中人类用户的偏好。此外，现有的偏好对齐方法主要关注生成内容的优化，忽略了 SiMT 中与延迟相关的人类偏好以及对读写策略的优化。

论文方法：

本文提出了一个名为 Simultaneous Preference Learning（SimulPL）的偏好学习框架，专门针对 SiMT 任务设计。主要分为以下几部分工作：

1）人类偏好的分类

基于现有的语言学和计算语言学研究，将 SiMT 场景中的人类偏好分为五个方面：翻译质量偏好、单调性偏好、关键点偏好、简单性偏好和延迟偏好。

2）数据构建

利用前四个偏好构建人类偏好提示（prompts），引导 GPT-4/4o 生成符合人类偏好的翻译数据。同时，从现有的 WMT15 De→En、WMT22 Zh→En 和 MUST-C En→Zh 数据集中选择子集进行标注，构建训练数据集。此外，还从标注的句子对中提取前缀对，用于训练 SiMT 模型基于源前缀进行翻译的能力。

3）多任务监督微调（Multi-task Supervised Fine-tuning, MSFT）

在预训练语言模型的基础上，通过 MSFT 阶段联合学习翻译能力和读写策略，实现初始的偏好对齐。具体来说，模型在给定源前缀的情况下学习生成目标前缀，并通过额外的置信度层来预测读写决策。训练损失函数同时考虑了翻译准确性和读写决策的准确性。

4）实时直接偏好优化（Simultaneous Direct Preference Optimization, SimulDPO）

在 MSFT 阶段之后，引入 SimulDPO 阶段进一步对齐人类偏好。SimulDPO 将延迟偏好整合到优化目标中，并允许 SiMT 模型在偏好优化过程中进一步改进其读写策略。通过修改优化目标，添加输出长度约束，鼓励模型在接收到的源前缀基础上尽可能多地生成翻译内容，以减少不必要的延迟。同时，基于 Bradley-Terry 模型推导出训练目标，使模型在训练过程中能够根据预测结果与人类偏好的匹配程度调整读写决策的置信度。