当前位置：首页 > article >正文

【论文笔记】Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation

article 2025/2/28 15:22:42

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: Leveraging the Power of MLLMs for Gloss-Free Sign Language Translation
作者: Jungeun Kim, Hyeongwoo Jeon, Jongseong Bae, Ha Young Kim
arXiv: https://arxiv.org/abs/2411.16789

基本信息

摘要

手语翻译（SLT）是一项具有挑战性的任务，涉及将手语图像翻译成口语。

为了使SLT模型成功完成这项任务，它们必须弥合模态差距，并识别手语组件的细微变化，以准确理解其含义。

为了解决这些挑战，我们提出了一种新颖的gloss-free SLT框架，称为Multimodal Sign Language Translation（MMSLT），该框架利用了现成多模态大型语言模型（MLLMs）的表征能力。

具体来说，我们使用MLLMs生成手语组件的详细文本描述。

然后，通过我们提出的多模态语言预训练模块，我们将这些描述特征与手语视频特征相结合，使它们在口语句子空间内对齐。

我们的方法在基准数据集PHOENIX14T和CSL-Daily上实现了最先进的性能，突显了MLLMs在SLT中有效利用的潜力。

Comparison of the proposed MMSLT with GFSLTVLP

主要贡献

我们提出了一种gloss-free的SLT框架MMSLT，首次利用现成的MLLM。为了实现高效的推理而不需要使用MLLM，我们设计了一个描述映射模块。
通过分析各种MLLM和提示，我们提出了GSD-MLLM模块，该模块可以从手语图像生成详细的SL描述。
我们引入了MMLP模块，该模块有效地整合了两种模态，即SL描述和手语图像，并将它们与目标句子空间对齐以减少模态差距。
我们通过广泛的实验证明了MMSLT的有效性，在两个基准数据集上实现了SOTA的gloss-free SLT性能。MMSLT显著提高了BLEU-4和ROUGE分数，表明在复杂句法和长上下文中翻译的有效性。

MLLMs and Prompts: Preliminary Analysis

Video-based MLLM vs Image-based MLLM

首先，我们通过评估其描述SL组件的能力来探讨基于视频和基于图像的MLLM在SLT中的潜力。

Comparison of SL descriptions based on the type of MLLM and prompt

如图2a所示，基于视频的MLLM，如Video-LLaMA和Video-LLaVA，在捕捉SL组件方面表现出有限的能力。相反，它们提供简单的总结，如“用手势”，或重复相同的内容，并包含与手语无关的一般性描述，如“穿着西装”或错误信息。

另一方面，基于图像的MLLM，如LLaVa-Next、InternVL、QwenVL2、Pixtral和LLaVA-OneVision，生成SL组件的详细描述，如“手指略微张开”或“眼睛专注并指向”。值得注意的是，如图2c所示，LLaVA-OneVision提供的描述仅关注SL组件，不包括无关信息。

在本实验中，由于生成SL描述的处理时间和资源限制，排除了大型模型，如LLaVA-OneVision 72B。

Prompt Engineering

为了有效地利用MLLM，选择合适的模型并制定明确的提示，以明确提取信息或为内容提供上下文清晰度至关重要。

为此，我们使用六个不同的提示进行推理，如图3所示。

List of prompts

这些提示可以分为简单（1、2）、详细（3、4）和情境（5、6）类型。

提示（1）、（2）和（4）引发的响应主要关注无关信息，如图2b所示，而提示（3）、（5）和（6）生成的响应则更集中于SL组件。

然而，提示（6）的响应包含不准确之处，而提示（5）的响应则更准确，并提供了更详细的信息。

尽管如此，它们往往重复使用示例句子，并在连续的帧中产生重复的答案。

相比之下，如图2c所示，提示（3）提供了SL组件的详细描述，例如手部形状、手势者的目光和嘴型，有效地传达了手势者的手势和面部表情的含义。

此外，它避免了引用与理解手语无关的外部信息，并成功捕捉了连续手势之间的细微差别。

方法

MMSLT overview

Generating SL Descriptions via MLLM

根据前面的分析，我们利用基于图像的MLLM和提示符 $p$ 来生成第 $i$ 个手语视频 $SV_i \in \mathbb{R}^{T \times H \times W}$ 的一系列SL描述 $d_i = \{d_{i,t}\}_{t=1}^T$ ，如图4所示。在这个上下文中，手语视频的总数是 $N$ ，帧的高度和宽度分别是 $H$ 和 $W$ 。帧的总数是 $T$ 。

然而，我们观察到MLLM在准确捕捉手语者面部表情方面存在局限性，经常产生唇形的碎片化描述，如“微笑”，或错误地将闭眼描述为“睁眼”。

这表明，尽管SL描述捕捉了SL组件，但它们有时是不准确的，缺乏细节。

Multimodal-Language Pre-training

为了促进两种模态之间的协同作用，我们将手语图像集成到SL描述中。

显然，手语视频和口语句子之间存在模态差距。

为了弥合这一差距，我们提出了MMLP，一个预训练模块，它有效地融合手语视频及其对应的SL描述，并学习将它们与口语句子对齐，如图4所示。

Description Mapper

首先，我们从第 $j$ -个手语视频 $SV_j$ 中提取视觉特征 $V_j \in \mathbb{R}^{T \times C}$ ，使用图像编码器 $\psi_{vis}$ ，这是一个在 ImageNet 上预训练的 ResNet18，其中 $C$ 表示 $V_j$ 的维度。

同时，我们从每个帧 $d_{j,t}$ 的 SL 描述中获得描述嵌入特征 $D_{j,t} \in \mathbb{R}^{1 \times \bar{C}}$ ，使用描述编码器 $\psi_{de}$ ，这是一个预训练的、冻结的 12 层 BERT。

在此上下文中，我们将 [CLS] token的嵌入特征定义为 $D_{j,t}$ ，编码句子级信息，其中 $\bar{C}$ 表示 $D_{j,t}$ 的维度。这些描述嵌入特征共同形成描述特征 $D_j = \{D_{j,t}\}_{t=1}^T$ 。

然而，如果直接利用 $D_j$ 来整合手语视频和 SL 描述，通过 MLLM 生成 SL 描述在推理过程中变得必要。这导致计算成本增加和推理时间延长。

为了解决这个问题，我们提出了一种描述映射器 $\psi_{dm}$ ，其特征是一个简单的两层 MLP 结构，用于从 $V_j$ 预测 $D_j$ 。

这也有助于弥合输入数据源之间的模态差距，并允许我们获得近似描述特征 $\hat{D}_j$ ：

$\hat{D}_j = \psi_{dm}(V_j), \quad V_j = \psi_{vis}(SV_j)$

为了最小化 (\hat{D}_j) 和 (D_j)，我们定义损失函数如下：

$\mathcal{L}_{\mathrm{DM}} = \frac{1}{B} \frac{1}{T} \sum_{j=1}^{B} \sum_{t=1}^{T} \left\| \hat{D}_{j,t} - D_{j,t} \right\|_2^2$

Modality Adapter

为了结合视觉特征和近似的SL描述特征，我们提出了一种Modality Adapter $\psi_{ma}$ ，它由一个一维卷积层、一个最大池化层和一个两层的MLP组成。

由于手语通常由多个帧组成，且 $V_j$ 和 $\hat{D}_j$ 是从连续的手语帧中得出的，我们采用了一维卷积进行时间建模。

此外，MLP层用于整合来自两种模态的信息。

捕获到的 $V_j$ 和 $\hat{D}_j$ 被连接起来，然后输入到Modality Adapter中，从而提取出手势元素特征 $SE_j \in \mathbb{R}^{T' \times C'}$ ，其中 $T^{'}$ 是减少的序列长度， $C^{'}$ 是嵌入维度。这一过程可以表示如下：

$SE_j = \psi_{ma}(V_j \oplus \hat{D}_j)$

其中 $\oplus$ 表示连接操作。

Multimodal Encoder with LoRA

为了提取 $SE_i$ 的表示，我们引入了一个Multimodal Encoder $\psi_{enc}$ 。

为此，我们利用了mBART编码器，它由12层组成，并使用在大规模语料库上预训练的参数进行初始化。

为了在保留预训练知识的同时，便于适应手语数据集，我们应用了LoRA技术，该技术通过向LLM的权重矩阵中添加低秩矩阵来实现参数高效的微调。

所得输出称为多模态视觉-文本特征（多模态特征），表示为 $M_j \in \mathbb{R}^{T' \times C'}$ ，可以表示如下：

$M_j = \psi_{enc}(SE_j)$

Multimodal-Language Alignment

$M_j$ 包含了视觉和文本信息，然而其与目标口语句子之间仍然存在模态差距。

为了解决这一挑战并将 $M_j$ 与目标口语句子对齐，我们提出了一种多模态语言对齐方法。

令 $SL_j$ 为与 $SV_j$ 对应的目标口语句子。

我们使用文本编码器 $\psi_{te}$ 将 $SL_j$ 嵌入到文本特征 $L_j \in \mathbb{R}^{\bar{T} \times C'}$ 中，其中 $\bar{T}$ 表示口语句子中的token数量，使用一个冻结的12层mBART编码器，该编码器在大规模语料库上进行了预训练，类似于 $\psi_{enc}$ 。

由于我们的目标是对齐 ${M_j, L_j\}_{j=1}^B$ ，我们应用对比学习。

具体来说，我们在帧序列 $T^{'}$ 和token序列 $\bar{T}$ 上执行平均池化，以获得全局多模态特征 $\tilde{M}_j \in \mathbb{R}^{C'}$ 和全局口语句子特征 $\tilde{L}_j \in \mathbb{R}^{C'}$ 。

最后，我们使用损失函数对齐对 $\{\tilde{M}_j, \tilde{L}_j\}_{j=1}^N$ ，如下所示：

$\begin{aligned} \mathcal{L}_{\text{ALIGN}} = &-\frac{1}{2B} (\sum_{j=1}^B \log \frac{\exp(sim(\tilde{M}_j, \tilde{L}_j) / \tau)}{\sum_{k=1}^B \exp(sim(\tilde{M}_j, \tilde{L}_k) / \tau)} \\ &+ \sum_{j=1}^B \log \frac{\exp(sim(\tilde{L}_j, \tilde{M}_j) / \tau)}{\sum_{k=1}^B \exp(sim(\tilde{L}_j, \tilde{M}_k) / \tau)}) \end{aligned}$