当前位置: 首页 > article >正文

NLP论文速读(ICLR 2025)|在实时机器翻译中对齐人类偏好

论文速读|Simulpl: Aligning Human Preferences In Simultaneous Machine Translation

论文信息:

简介:

      本文聚焦于实时机器翻译(Simultaneous Machine Translation, SiMT)任务。SiMT 是一种在接收源语言输入流的同时生成目标语言翻译的技术。与传统的离线机器翻译(Offline Machine Translation, OMT)不同,SiMT 需要模型在训练过程中学习一种读写策略,即决定何时等待更多源输入(READ),何时生成目标语言的输出(WRITE)。尽管已有研究提出了多种 SiMT 方法和读写策略,但这些方法主要基于 OMT 数据集进行训练和验证,没有充分考虑真实的 SiMT 场景中人类用户的偏好。此外,现有的偏好对齐方法主要关注生成内容的优化,忽略了 SiMT 中与延迟相关的人类偏好以及对读写策略的优化。

论文方法:

      本文提出了一个名为 Simultaneous Preference Learning(SimulPL)的偏好学习框架,专门针对 SiMT 任务设计。主要分为以下几部分工作:

      1)人类偏好的分类

基于现有的语言学和计算语言学研究,将 SiMT 场景中的人类偏好分为五个方面:翻译质量偏好、单调性偏好、关键点偏好、简单性偏好和延迟偏好。

      2)数据构建

利用前四个偏好构建人类偏好提示(prompts),引导 GPT-4/4o 生成符合人类偏好的翻译数据。同时,从现有的 WMT15 De→En、WMT22 Zh→En 和 MUST-C En→Zh 数据集中选择子集进行标注,构建训练数据集。此外,还从标注的句子对中提取前缀对,用于训练 SiMT 模型基于源前缀进行翻译的能力。

      3)多任务监督微调(Multi-task Supervised Fine-tuning, MSFT)

在预训练语言模型的基础上,通过 MSFT 阶段联合学习翻译能力和读写策略,实现初始的偏好对齐。具体来说,模型在给定源前缀的情况下学习生成目标前缀,并通过额外的置信度层来预测读写决策。训练损失函数同时考虑了翻译准确性和读写决策的准确性。

      4)实时直接偏好优化(Simultaneous Direct Preference Optimization, SimulDPO)

在 MSFT 阶段之后,引入 SimulDPO 阶段进一步对齐人类偏好。SimulDPO 将延迟偏好整合到优化目标中,并允许 SiMT 模型在偏好优化过程中进一步改进其读写策略。通过修改优化目标,添加输出长度约束,鼓励模型在接收到的源前缀基础上尽可能多地生成翻译内容,以减少不必要的延迟。同时,基于 Bradley-Terry 模型推导出训练目标,使模型在训练过程中能够根据预测结果与人类偏好的匹配程度调整读写决策的置信度。

论文实验:

      在论文的实验部分,作者通过Table 1和Figure 2展示了他们构建的数据集的统计信息以及与原始数据的对比结果。

      具体如下:

      Table 1在使用无参考的COMET分数评估标注的参考翻译与GPT-4/4o生成的翻译以及原始参考翻译的质量方面,所得到的结果显示:标注的参考翻译在所有语言对上都与原始参考翻译具有相似的COMET分数,这表明标注的参考翻译在质量上与原始参考翻译相当。

      Figure 2展示了标注的参考翻译与原始参考翻译的胜率、平局率和败率。结果显示,标注的参考翻译在所有语言对上都取得了较高的胜率。这表明标注的参考翻译更符合人类偏好。

论文链接:https://arxiv.org/pdf/2502.00634


http://www.kler.cn/a/539410.html

相关文章:

  • 大模型中设计的精度(FP8,FP16,FP32,混合精度训练,精度量化)相关总结
  • 打家劫舍3
  • 使用 POI-TL 和 JFreeChart 动态生成 Word 报告
  • deepseek+kimi自动生成ppt
  • 信息科技伦理与道德3-2:智能决策
  • XILINX硬件设计-(1)LVDS接口总结
  • 基于spring boot的餐厅点餐管理系统设计与实现(LW+源码+讲解)
  • 设计模式
  • 所以尼!什么是边缘计算?这和云计算有什么关系?
  • 移动电视盒MGV2000刷安卓及Armbian笔记
  • vue 中 props 的使用,保姆教程
  • 火语言RPA--网址/图片地址获取
  • 生成式聊天机器人 -- 基于Pytorch + Global Attention + 双向 GRU 实现的SeqToSeq模型 -- 上
  • CodeReview-checkList-Java版
  • GOland的context的使用
  • MYSQL 创建索引
  • 集成学习(二):从理论到实战(附代码)
  • CSGHub高效管理|解锁DeepSeek R1蒸馏模型 :高效推理的新选择
  • 【stm32学习】STM32F103实操primary2(FlyMCU)
  • 【图像处理】- 基本图像操作
  • Linux网络之http协议
  • Docker安装pypiserver私服
  • Jupyter Notebook 6/7 设置代码补全
  • Windows图形界面(GUI)-QT-C/C++ - QT 文本编辑控件详解
  • 旋转位置编码(RoPE)讲解和代码实现
  • < OS 有关 > Ubuntu 版本升级 实践 24.04 -> 24.10, 安装 .NET