当前位置：首页 > article >正文

【AI论文】Omni-RGPT：通过标记令牌统一图像和视频的区域级理解

article 2025/1/30 15:50:53

摘要：我们提出了Omni-RGPT，这是一个多模态大型语言模型，旨在促进图像和视频的区域级理解。为了在时空维度上实现一致的区域表示，我们引入了Token Mark，这是一组在视觉特征空间中突出目标区域的标记。这些标记通过使用区域提示符（例如，边框或掩码）直接嵌入到空间区域中，并同时融入到文本提示符中以指定目标，从而在视觉标记和文本标记之间建立了直接联系。为了进一步支持无需轨迹的稳健视频理解，我们引入了一项辅助任务，该任务利用标记的一致性来指导Token Mark，从而实现视频中稳定的区域解释。此外，我们还引入了一个大规模的区域级视频指令数据集（RegVID-300k）。Omni-RGPT在基于图像和视频的常识推理基准测试中取得了最先进的结果，同时在字幕生成和指代表达式理解任务中也表现出色。Huggingface链接：Paper page，论文链接：2501.08326

一、引言

随着多模态大型语言模型（MLLMs）的快速发展，这些模型在解释视觉元素方面取得了显著进展。从最初通过文本提示进行整体图像理解，到如今能够处理更复杂的区域级理解任务，MLLMs的能力不断提升。然而，在图像和视频中实现交互式的区域特定理解仍然是一个开放性的挑战。尤其是在视频领域，由于目标对象在不同帧中可能因运动、尺度变化和视角变化而改变外观，导致难以在不同帧中统一表示同一对象。此外，现有的区域级理解方法在处理视频时往往面临可扩展性问题，特别是在处理包含大量帧的视频时。为了解决这些问题，本文提出了Omni-RGPT模型，旨在统一图像和视频的区域级理解。

二、Omni-RGPT模型概述

Omni-RGPT是一个多模态大型语言模型，旨在促进图像和视频的区域级理解。模型的核心创新在于引入了Token Mark机制，这是一组在视觉特征空间中突出目标区域的标记令牌。通过Token Mark，Omni-RGPT能够在时空维度上实现一致的区域表示，从而有效地解决区域级理解中的可扩展性和时间漂移问题。

1. Token Mark机制

Token Mark是一组特定的令牌，用于在视觉特征空间中标识目标区域。给定用户定义的局部区域输入（如边界框或掩码）以及相应的文本提示，Omni-RGPT首先根据区域提示在视觉特征空间中采样一个Token Mark，并将其嵌入到由区域提示定义的空间位置中。然后，这个嵌入的Token Mark被进一步注入到相应的文本提示中，从而使大型语言模型能够直接对视觉区域和文本提示之间的对齐关系进行推理。

Token Mark机制具有以下几个优点：

防止时间漂移：通过将目标区域编码为跨帧共享的唯一表示，Token Mark确保了在视频序列中目标区域的一致性分配。
直接的区域-语言连接：通过将Token Mark直接投影到词嵌入空间中，模型能够有效地建模区域-语言关系，而无需为每个区域提供额外的文本描述。
保留视觉-语言的全局对齐：通过将区域信息作为残差特征融入模型，Omni-RGPT保留了与基础图像-文本对多模态框架的全局对齐能力。

2. 辅助任务：Temporal Region Guide Head

对于视频输入，Omni-RGPT引入了一个辅助任务——Temporal Region Guide Head，以增强跨帧的区域一致性。这个辅助任务在训练阶段使用，旨在引导模型在不依赖显式视频对象对应关系（如跟踪轨迹）的情况下，准确理解目标区域。Temporal Region Guide Head对大型语言模型的输出视觉令牌进行分类，根据它们分配的Token Mark将每个视觉令牌分类到相应的区域中。这种表示方式支持在训练过程中进行有效的区域引导，从而在推理阶段实现稳健且一致的区域理解，而无需完整的跟踪轨迹和额外的成本。

三、模型架构与实现细节

Omni-RGPT的模型架构基于LLaV A框架，输入图像或视频首先通过视觉编码器处理，生成视觉特征。这些视觉特征随后通过投影层投影到视觉令牌中，然后这些视觉令牌与文本提示一起被大型语言模型处理，以实现跨文本和视觉模态的联合推理。

在实现细节方面，Omni-RGPT使用Llama-2作为语言模型，CLIP-ViT-L作为视觉编码器，以及一个两层的多层感知机作为投影层。对于Token Mark的生成，设置了100个Token Mark，并使用一个单层线性层作为投影层。输入图像被调整为336x336像素，以适应模型输入要求。

四、实验与结果

1. 数据集与评估指标

为了评估Omni-RGPT的性能，研究者在多个基准数据集上进行了实验，包括图像和视频领域的区域级理解任务。对于视频任务，使用了Causal-VidQA和Extended-Elysium数据集；对于图像任务，则使用了RefCOCOg、Visual Genome和VCR数据集。评估指标包括准确率、METEOR分数和CIDEr分数等。

2. 实验结果

实验结果显示，Omni-RGPT在多个基准数据集上取得了显著的性能提升。在视频区域级QA任务上，Omni-RGPT在Causal-VidQA数据集的所有子任务上均取得了当前最优的性能，特别是在需要高级时间推理的预测和反事实推理任务上表现尤为突出。在视频区域级字幕生成任务上，Omni-RGPT也在多个数据集上展示了强大的性能。此外，在图像区域级理解和字幕生成任务上，Omni-RGPT也取得了与专门设计用于图像任务的模型相当甚至更好的性能。

这些结果表明，Omni-RGPT通过引入Token Mark机制和Temporal Region Guide Head，成功地实现了图像和视频领域区域级理解的统一，并显著提高了模型的性能。

3. 消融研究

为了进一步验证模型各个组件的有效性，研究者进行了消融研究。实验结果显示，Temporal Region Guide Head的引入显著提高了视频区域级字幕生成任务的性能，表明该辅助任务在增强区域一致性方面发挥了重要作用。此外，研究者还探索了输入帧数对模型性能的影响，发现增加输入帧数可以提高模型在需要高级时间推理的任务上的性能。

五、RegVID-300k数据集

为了进一步增强多模态大型语言模型的对话能力，并使其能够生成关于视频中区域的准确响应，研究者还构建了一个大规模的区域级视频指令数据集——RegVID-300k。该数据集包含98k个唯一视频、214k个区域以及294k个指令样本，覆盖了广泛的视频来源和细粒度的QA。

RegVID-300k的构建过程包括三个步骤：GPT4o辅助的区域级详细字幕生成、视觉幻觉缓解以及字幕引导的区域级指令样本生成。通过自动化管道生成的高质量指令样本涵盖了区域的上下文和时间信息，为训练多模态大型语言模型提供了丰富的数据支持。

六、模型可视化与分析

研究者通过可视化分析进一步验证了Omni-RGPT模型的有效性。实验结果显示，Temporal Region Guide Head能够准确地预测视频序列中目标区域的Token Mark，即使在后续帧中没有提供区域提示的情况下也能保持一致性。这表明Omni-RGPT模型能够有效地理解视频中的区域级信息，并在不同帧之间建立稳定的区域对应关系。

七、限制与未来工作

尽管Omni-RGPT模型在图像和视频领域取得了显著的性能提升，但仍然存在一些限制。例如，当前模型在处理长视频时可能无法完全捕捉复杂现实场景中的时空信息。未来的研究可以探索如何扩展区域级理解以容纳长视频，并进一步提高模型在复杂场景下的性能。

八、结论

本研究提出了Omni-RGPT模型，通过引入Token Mark机制和Temporal Region Guide Head，成功地实现了图像和视频领域区域级理解的统一。实验结果显示，Omni-RGPT在多个基准数据集上取得了当前最优的性能，并在区域级理解和字幕生成任务上展示了强大的能力。此外，研究者还构建了一个大规模的区域级视频指令数据集RegVID-300k，为训练多模态大型语言模型提供了丰富的数据支持。这些成果为未来的研究提供了新的思路和方法，并有望推动多模态大型语言模型在图像和视频理解领域的发展。

查看全文

http://www.kler.cn/a/524849.html