当前位置：首页 > article >正文

【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

article 2024/11/27 13:44:11

【大语言模型】ACL2024论文-21 通过冗余减少加快视觉条件语言生成的训练

在这里插入图片描述
https://arxiv.org/pdf/2310.03291

本文介绍了EVLGen，这是一个为视觉条件语言生成模型预训练设计的高效框架，特别适用于计算需求高的场合，并且利用了冻结的预训练大型语言模型（LLMs）。传统的视觉语言预训练（VLP）通常涉及两个阶段的优化过程：第一阶段是资源密集型的，专注于通用视觉-语言表示学习，第二阶段则强调视觉和语言模态之间的端到端对齐。EVLGen通过在训练过程中逐步合并相似的视觉标记，避免了计算密集的第一阶段，同时避免了单阶段训练BLIP-2类型模型时的模型崩溃问题。这种逐步合并过程有效地压缩了视觉信息，同时保留了语义丰富性，实现了快速收敛且不影响性能。实验结果表明，EVLGen将视觉-语言模型的训练加速了5倍，并且仅使用1/10的数据量就显著缩小了与当前视觉-语言模型的性能差距。此外，展示了如何通过新颖的软注意力时间标记上下文化模块，使图像-文本模型无缝适应视频条件语言生成任务。代码可在GitHub上找到。

研究背景

视觉-语言建模领域近年来经历了显著的变革，CLIP模型的出现是一个里程碑，它在图像-文本检索任务中展现出了无与伦比的零样本分类能力和效率。随后的模型如ALBEF、XVLM和VLMo等，进一步扩大了应用范围，涵盖了检索、视觉推理和封闭集视觉问答（VQA）等任务。最近，领域中出现了为复杂图像到语言任务设计的生成模型，如CoCa、SimVLM、Frozen和Flamingo等，这些模型都依赖于大规模数据集进行从头开始的训练，以弥合视觉和语言之间的模态差距。这些从头开始训练的视觉-语言模型（VLMs）的资源密集型需求导致了BLIP-2模型的提出，该模型通过集成预训练的视觉编码器（ViT）和语言解码器（LLM），并调整它们的联合操作来减轻计算成本。

问题与挑战

尽管BLIP-2在计算成本上有所降低，但其训练过程仍然需要显著的计算资源，这对于计算资源有限的研究环境来说是一个挑战。此外，BLIP-2的Q-former设计复杂，涉及随机初始化的可学习查询和交叉注意力机制，这增加了优化的复杂性，尤其是在最小化视觉和语言模态之间表征差异时。

如何解决

EVLGen提出了一个名为TomeFormer的标记合并Transformer作为高效的视觉-语言连接器。TomeFormer采用了一种系统化的标记合并策略，通过连接预训练的ViT作为视觉编码器和冻结的LLM作为语言解码器，引入了一个新的VLM“Expedited Visual Language Generation model”（EVLGen），促进了简化的单阶段训练过程。此外，EVLGen还引入了一种软注意力时间上下文化机制，用于有效的视频-语言建模，这提高了空间标记合并过程的效率，并消除了模态重新对齐的需求。

创新点

Token Merging：EVLGen采用了Token Merging技术，最初设计用于提高ViT推理速度而无需训练。EVLGen重新利用ToMe来压缩LLM中用作语言提示的视觉特征，同时保留了语义丰富性，减少了标记数量。
TomeFormer：EVLGen引入了TomeFormer，这是一个集成了空间Token Merging的标准Transformer，作为视觉和语言领域之间的有效连接器。
软注意力时间上下文化：EVLGen提出了一种新颖的软注意力时间上下文化变体，增强了ViT背部的时间建模能力，使得预训练的图像-文本模型能够无缝适应视频任务。

算法模型

EVLGen的核心是TomeFormer，它是一个Transformer，增强了空间Token Merging，作为视觉到语言的连接器。TomeFormer通过合并视觉上相似的标记来压缩标记数量，同时保留了语义信息。EVLGen的训练目标是最小化输出和真实描述之间的交叉熵损失。EVLGen-Video在TomeFormer的基础上增加了Temporal Attentive Soft Token Contextualizing模块，用于视频语言建模。
在这里插入图片描述

实验效果（包含重要数据与结论）

EVLGen在多个图像-文本基准测试中与BLIP-2进行了比较评估，包括零样本VQA、GQA、OKVQA和MSCOCO描述。EVLGen在使用相同的104M图像-文本对和相同数量的优化步骤（250K）的情况下，在几乎所有评估任务中均优于BLIP-2。EVLGen即使在训练预算减少到BLIP-2的大约三分之一（150K优化步骤）时，也能保持竞争力。此外，EVLGen即使在训练数据集减少到1100万图像-文本对时，也能产生令人满意的结果。EVLGen在训练预算限制在90K步骤时仍然保持其有效性，显示出模型的效率和鲁棒性。

在视频描述任务中，EVLGen-Video即使没有视频-文本预训练的帮助，也显示出比基线模型更优越的性能。当结合视频-文本预训练和Self-Critical Sequence Training（SCST）时，性能得到了提升。EVLGen-Video在MSR-VTT和MSVD视频描述数据集上的性能超过了Video-LLaMA、VideoChat和VideoCoCa等竞争模型。
在这里插入图片描述