当前位置：首页 > article >正文

【论文笔记】SCOPE: Sign Language Contextual Processing with Embedding from LLMs

article 2024/11/19 9:55:50

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: SCOPE: Sign Language Contextual Processing with Embedding from LLMs
作者: Yuqi Liu, Wenqian Zhang, Sihan Ren, Chengyu Huang, Jingyi Yu, Lan Xu
arXiv: https://arxiv.org/abs/2409.01073

基本信息

摘要

手语，全球约7000万聋人使用，是一种视觉语言，传达视觉和语境信息。

基于视觉的手语识别（SLR）和翻译（SLT）的当前方法由于数据集多样性有限和忽略语境相关信息，在对话场景中存在困难。

为了解决这些挑战，我们引入了SCOPE（基于LLM嵌入的手语语境处理），这是一种新颖的语境感知视觉SLR和SLT框架。

对于SLR，我们通过多模态编码器利用对话语境来增强Gloss级识别。

对于随后的SLT，我们通过结合先前的对话语境进一步微调大型语言模型（LLM）。

我们还贡献了一个新的手语数据集，其中包含72小时的中国手语视频，涉及各种场景的语境对话。

实验结果表明，我们的SCOPE框架在多个数据集上实现了最先进的性能，包括Phoenix-2014T、CSL-Daily和我们的SCOPE数据集。

此外，对聋人社区参与者的调查进一步验证了我们的方法在实际应用中的鲁棒性和有效性。

我们的数据集和代码将开源，以促进进一步的研究。

(a) Our SCOPE dataset contains rich contextual information and sign language videos. (b) Our SCOPE framework is a robust context-aware sign language recognition/translation model capable of recognizing dialogue-based sign language gestures, predicting glosses, and generating spoken sentences with the aid of LLMs.

(a) 我们的SCOPE数据集包含丰富的上下文信息和手语视频。
(b) 我们的SCOPE框架是一个强大的基于上下文的手语识别/翻译模型，能够识别基于对话的手语手势，预测词素，并在LLMs的帮助下生成口语句子。

方法

SCOPE框架

SCOPE框架

我们的嵌入对齐编码器将运动特征转换为嵌入，该嵌入能够捕捉整个运动序列的语言信息。将嵌入空间与冻结的LLM对齐，可以实现整合先前句子的上下文信息以识别gloss。最后，Q-LoRA微调通过辅助上下文信息，将预测的gloss翻译成口语。

SCOPE数据集

SCOPE数据集收集流程

给定对话文本，经验丰富的手语者会制作相应的手语视频，并附上自我标注的词汇表。对于每个视频，其他手语者根据词汇表和文本复制数据。

Dataset comparisons

数据集比较。广泛使用的手语数据集的关键统计数据。我们的数据集是目前包含对话上下文信息的中国手语（CSL）数据集中最大的数据集。

实验

主实验

Quantitative evaluation of Sign Language Recognition (SLR) task

Quantitative evaluation of Sign Language Translation (SLT) task

消融实验

Ablation studies of our contextual design and data processing algorithm

总结

我们提出了SCOPE数据集，这是首个包含词义和文本注释的基于对话的中文手语数据集。

该数据集包含从专业聋人群体收集的72.4小时手语视频，并辅以59,231个文本注释。

基于此数据集，我们引入了SCOPE框架，这是一个专门为解决手语识别（SLR）和手语翻译（SLT）任务而设计的强大流程，具有丰富的上下文信息。

我们的全面评估证明了我们方法的有效性以及我们的数据集为手语社区带来的显著改进。

我们相信，SCOPE将催化基于上下文的手语处理未来的研究。

http://www.kler.cn/a/399938.html

相关文章：

视觉SLAM--经典视觉SLAM框架

本草智控：中药实验管理的智能时代

性能超越Spark 13.3 倍,比某MPP整体快数十秒 | 多项性能指标数倍于主流开源引擎 | 云器科技发布性能测试报告

如何轻松导出所有 WordPress URL 为纯文本格式

Excel根据条件动态索引单元格范围

【异常解决】Linux shell报错：-bash: [: ==: 期待一元表达式解决方法

代码随想录第三十四天

输出比较简介

来LeetCode练下思维吧

uniapp微信小程序转发跳转指定页面

git环境开发问题-处理

【Oracle实战】文章导读

go的接口详解

C++小白实习日记——Day 2 TSCNS怎么读取当前时间

css3的新特性有哪些？

深度神经网络 FPGA 设计与现状

PCL点云开发-解决在Qt中嵌入点云窗口出现的一闪而过的黑窗口

2024RISC-V中国峰会演讲幻灯片和视频回放公开

跨平台编译Go程序：GOOS和GOARCH环境变量的使用

儿童玩具常用的语音ic芯片类别？

DNS原理详解，DNS解析过程

Python函数——函数的传入参数

HTTP/3 深入解读：现代互联网的加速引擎

WEB攻防-通用漏洞SQL注入Tamper脚本Base64Jsonmd5等

OceanBase 闪回查询

国标GB28181视频平台EasyCVR视频融合平台H.265/H.264转码业务流程