当前位置：首页 > article >正文

Efficient Multimodal Large Language Models: A Survey (高效多模态大型语言模型综述-全文翻译)

article 2025/3/4 11:33:20

Efficient Multimodal Large Language Models: A Survey

在这里插入图片描述

原文地址

Abstract

在过去的一年中，多模态大语言模型（MLLM）在视觉问题回答、视觉理解和推理等任务中表现出了显著的性能。然而，模型规模大、训练和推理成本高等问题阻碍了MLLM在学术界和工业界的广泛应用。因此，研究高效和轻量级的MLLM具有巨大的潜力，特别是在边缘计算场景中。在本调查中，我们提供了一个全面的和系统的审查，目前的状态，有效的MLLM。具体而言，本文总结了典型的高效多层线性模型的时间轴、高效结构和策略的研究现状以及应用。最后，本文对目前MLLM研究的局限性进行了讨论，并展望了未来的研究方向.请参阅我们的GitHub资源库以了解更多详细信息：https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey。

Efficient Multimodal Large Language Models: A Survey
- Abstract
- 1. Introduction
- 2 Architecture
- - 2.1 Vision Encoder
  - 2.2 Vision-Language Projector
  - 2.3 Small Language Model
  - 2.4 Vision Token Compression
  - 2.5 Efficient Structures
- 3 Efficient Vision
- - 3.1 Compact Architecture
  - 3.2 Pruning
  - 3.3 Knowledge Distillation
  - 3.4 Quantization
- 4 Efficient LLMs
- - 4.1 Attention
- 4.2 Framework
- - 4.3 Fine-Tuning
- 5 Training
- - 5.1 Pre-Training
  - 5.2 Instruction-Tuning
  - 5.3 Diverse Training Steps
  - 5.4 Parameter Efficient Transfer Learning
- 6 Data and Benchmarks
- - 6.1 Pre-Training Data
  - 6.2 Instruction-Tuning Data
  - 6.3 Benchmarks
- 7 Applications
- - 7.1 Biomedical Analysis
  - 7.2 Document Understanding
  - 7.3 Video Comprehension
- 8 Discussion and Conclusion
- - 8.1 Limitations and Future work
  - 8.2 Conclusion

1. Introduction

大规模预训练是人工智能（AI）领域的一种领先方法，大型语言和多模态模型等通用模型在许多任务中的表现都优于专门的深度学习模型。大型语言模型（LLM）的显着能力激发了将其与其他基于模态的模型合并以增强多模态能力的努力。这一概念得到了OpenAI的GPT-4V [1]和Google的Gemini[2]等专有模型的显着成功的进一步支持。因此，出现了多模态大型语言模型（MLLM），包括mPLUG-Owl系列[3，4]，InternVL [5]，EMU [6]，LLaVA [7]，InstructBLIP [8]，MiniGPT-v2 [9]和MiniGPT-4[10]。这些模型通过有效地利用每种模态的预训练知识，避免了从头开始训练的计算成本。MLLM继承了LLM的认知能力，表现出许多显著的特点，如健壮的语言生成和迁移学习能力。此外，通过与其他基于模态的模型建立强有力的代表性连接和对齐，MLLM可以处理来自多种模态的输入，大大拓宽了其应用范围。

在这里插入图片描述

MLLM的成功很大程度上归功于缩放定律：AI模型的性能随着更多资源（如数据、计算能力或模型大小）的投入而提高。然而，可扩展性是以高资源需求为代价的，这阻碍了大型模型的开发和部署。例如，MiniGPT-v2的培训总共需要超过800个GPU小时，这是基于NVIDIA A100 GPU计算的[9]。这造成了一笔巨大的费用，大企业以外的研究人员难以承担。除了训练，推理构成了mllm资源消耗的主要部分。考虑一个典型的场景，其中模型输入由尺寸为336 x 336像素的图像和长度为40个令牌的文本提示组成，使用LLaVA-1.5和维库纳-13 B LLM主干执行推理需要18.2 T FLOPS和41.6 G内存使用。大规模模型的资源密集性也引发了对民主化和隐私保护的担忧，考虑到目前主流的MLLM，以GPT-4V和Gemini为代表，由少数主导企业控制，并在云中运行。如上述实验所示，即使对于开源MLLM，对计算资源的高要求也使得在边缘设备上运行它们具有挑战性。这进一步加剧了与确保公平访问和保护用户隐私相关的挑战。

鉴于这些挑战，有越来越多的关注，对高效MLLM的研究。这些努力的主要目标是减少MLLM的资源消耗，并扩大其适用性，同时最大限度地减少性能下降。对高效MLLM的研究始于用轻量级模型替换大型语言模型，并执行典型的可视化指令调优。随后的研究进一步增强了功能，并以以下方式扩展了用例：（1）引入了更轻的架构，强调效率，旨在减少参数数量或计算复杂性[25，13，18];（2）开发了更多的专门组件，专注于针对高级架构定制的效率优化或注入特定属性，例如局部性[19，17、12];以及（3）提供了对资源敏感的任务的支持，一些作品采用视觉令牌压缩来提高效率，使MLLM功能能够转移到资源密集型任务，如高分辨率图像和视频理解[35，39，14，40]。

在本次调查中，我们的目标是对快速发展的高效MLLM领域的最新进展进行详尽的组织，如图2所示。我们将文献组织在一个由六个主要类别组成的分类中，涵盖了高效MLLM的各个方面，包括架构，高效的愿景，高效的LLMs，培训，数据和基准测试，以及应用程序。

架构侧重于MLLM框架开发的有效技术，以减少计算成本。该体系结构由多个基于模态的基础模型组成，具有不同于单模态模型的特点，从而促进了新技术的发展。
Efficient Vision探索优化高效的视觉裂缝提取策略，强调在保持准确性的同时提高效率的方法。它解决了集成高质量的视觉数据以实现有效的跨模态理解。
高效LLM探索了这些提高语言模型的计算效率和可扩展性的策略。它研究了模型复杂性和性能之间的权衡，同时提出了平衡这些竞争因素的有希望的途径。
培训调查的培训方法，是在高效的MLLM的发展至关重要的景观。它解决了与预训练阶段，预防调整阶段和整体训练策略相关的挑战，以获得最先进的结果。
Data and Benchmarks评估用于评估多模态语言模型的数据集和基准的效率。它评估了数据集大小、复杂性和计算成本之间的权衡，同时倡导开发优先考虑效率和与现实世界应用相关性的基准。
应用研究了高效MLLM在各个领域的实际意义，强调性能和计算成本之间的平衡。通过解决资源密集型任务，如高分辨率图像理解和医疗问答，本节强调了高效MLLM的潜力，以扩大其应用范围，并有助于解决现实世界的问题。

在这里插入图片描述

总之，这项调查深入研究了这些研究工作，探索了使MLLM更具资源效率的各种策略。我们回顾了高效MLLMs的发展历史，提供了一个分类的高效MLLMs的策略，并全面比较现有的高效MLLMs的性能。通过这种探索，我们希望提供一个全面的了解目前的国家的最先进的，从而照亮了这个新兴领域的错综复杂的细微差别。此外，这项调查作为一个路线图，突出了未来研究的潜在途径，并促进了对高效MLLM领域面临的挑战和机遇的更深入理解。除了调查之外，我们还建立了一个GitHub存储库，我们在其中编译了调查中的论文，并在https://github.com/lijiannuist/Efficient-Multimodal-LLMs-Survey上使用相同的分类法对其进行组织。我们将积极维护它，并在出现新的研究时纳入其中。

2 Architecture

遵循标准的MLLM框架，有效的MLLM可以被划分为三个主要模块：视觉编码器g，其任务是接收和处理视觉输入;预训练的语言模型，其管理所接收的多模态信号并执行推理;以及视觉语言投影器P，其用作对准两种模态的桥梁。为了提高一般MLLM的效率，主要的优化在于处理高分辨率图像、压缩视觉标记、实现有效的结构、以及利用紧凑的语言模型等策略。架构图如图所示。3.表.1概述了高效的MLLM，其中概述了基本的LLM、视觉编码器、图像分辨率和用于连接视觉和语言的投影仪。这些有效的MLLM包括：[20]《中国日报》记者：李明博[21]中国日报网记者：李明博[22]中国日报网记者：李明博[23]中国日报网记者：李明博[24][31]《中国日报》第18期第2016期第2017年第2017期第201在本节中，我们将依次对这三个模块沿着其他高效组件进行全面概述。
在这里插入图片描述

2.1 Vision Encoder

将输入图像 $X_v$ 作为输入，视觉编码器将原始图像压缩为更紧凑的块特征 $Z_v$ ，如以下公式所示：
$Z_v=g(X_v)$

与主流MLLM实践一致，高效的MLLM选择与文本语义一致的预训练模型，由CLIP表示[73]。这种方法有助于视觉和文本输入的特征空间之间更好的对齐。由于视觉编码器构成MLLM参数的相对较小部分，因此与语言模型相比，轻量级优化的优势不太明显。因此，高效的MLLM通常继续采用广泛用于大规模MLLM的视觉编码器，如表1所示。
在这里插入图片描述

Multiple Vision Encoders
BRAVE[12]。4对具有不同感应偏差的各种视觉编码器进行了广泛的去除，以处理MLMM任务。结果表明，没有一个单一的编码器设置在不同的任务中始终表现出色，具有不同偏见的编码器可以产生惊人的相似结果。据推测，合并多个视觉编码器有助于捕获广泛的视觉表示，从而增强模型对视觉数据的理解。Cobra[13]集成了DINOv 2 [76]和SigLIP[75]作为其视觉支柱，其理由是将DINOv 2的低级空间特征和SigLIP提供的语义属性合并将增强后续任务的性能。SPHINX-X[14]采用两种视觉编码器-DINOv 2和CLIP-ConvNeXt。鉴于这些模型已经通过不同的学习方法（自监督与弱监督）和网络架构（ViT与CNN）进行了预训练，它们自然能够提供最互补和最复杂的视觉知识。
在这里插入图片描述

Lightweight Vision Encoder
由于硬件和环境限制（包括处理能力和计算能力），Vision Transformer架构在实际应用中面临挑战。ViTamin [11]代表了一个轻量级的视觉模型，专门为视觉和语言模型量身定制。它以卷积干开始，在第一和第二阶段中由移动的卷积块以及在第三阶段中的Transformer块接替。值得注意的是，ViTamin-XL拥有4.36亿个参数，达到了82.9%的ImageNet零射击准确率。这优于EVA-E [80]实现的82.0%准确度，EVA-E [80]在4.4B处的参数计数大十倍。只需将LLaVA的图像编码器替换为ViTamin-L，就可以在各种MLLM性能指标中建立新的标准。

2.2 Vision-Language Projector

视觉-语言投影器的任务是将视觉块嵌入 $Z_v$ 映射到文本特征空间：
$H_v=P(Z_v)$

其中 $H_v$ 表示投影的视觉嵌入。对齐的视觉特征被用作提示并与文本嵌入一起沿着输入到语言模型中。视觉语言投影仪避免了从头开始训练端到端多模态模型的高昂成本，并有效地利用了预先训练的语言和视觉模型的功能。

MLP-based
如[7，54]中所述，视觉语言投影仪通常使用简单、可学习的线性投影仪或多层感知器（MLP）来实现，即，几个线性投影仪与非线性激活函数交错，如表1所示。

Attention-based
BLIP 2 [15]引入了Q-Former，这是一种轻量级的Transformer，它采用了一组可学习的查询向量来从冻结的视觉模型中提取视觉特征。由Flamingo[16]提出的Perceiver Resampler考虑使用可学习的潜在查询作为交叉注意中的Q，而图像特征被展开并与Q连接以作为交叉注意中的K和V。通过这种方式，在可学习潜在查询的对应位置处的Transformer输出被视为视觉特征的聚合表示，从而将可变长度的视频帧特征标准化为固定大小的特征。BRAVE [12]中的MEQ-Former设计了一个多编码器查询Transformer，将来自多个冻结视觉编码器的特征合并为可以直接输入冻结语言模型的通用表示。

CNN-based
MobileVLMv 2 [17]提出了LDPv 2，这是一种新的投影仪，由三个部分组成：特征变换、令牌减少和位置信息增强。通过使用逐点卷积层，平均池化和具有跳过连接的PEG模块，LDPv2实现了更好的效率，参数减少了99.8%，并且与原始LDP相比处理速度略快[20]。
在这里插入图片描述

Mamba-based
VL-Mamba[18]在其视觉语言投影仪中实现了2D视觉选择性扫描（VSS）技术，促进了多种学习方法的融合。VSS模块主要解决一维顺序加工和二维非因果视觉信息之间的不同加工方式。

Hybrid Structure
Honeybee [19]提出了两种视觉投影仪，即C-Abstractor和DAbstractor，它们遵循两个主要设计原则：（i）提供视觉标记数量方面的适应性，以及（ii）有效地维护本地上下文。C-Abstractor或卷积抽象器专注于通过采用卷积架构来熟练地建模本地上下文。该结构由L个ResNet块组成，然后是自适应平均池和额外的L个ResNet块，这有助于将视觉特征抽象为任何平方数的视觉令牌。相反，D-Abstractor或基于可变形注意力的抽象器利用可变形注意力，其通过使用参考点和采样偏移的基于2-D坐标的采样过程来保持局部上下文。

2.3 Small Language Model

预训练的小型语言模型（SLM）作为MLLMs的核心组件，赋予了它许多杰出的能力，如零样本泛化、指令跟随和上下文学习。SLM接受包含多种模态的输入序列，并输出相应的文本序列。通常与SLM捆绑在一起的是一个文本分词器，将文本提示 $X_q$ 映射到文本标记 $H_q$ 。文本标记 $H_q$ 与视觉标记 $H_v$ 被连接起来作为语言模型的输入，该模型以自回归方式输出最终响应序列 $Y_a$ ：
$p(Y_a|H_v,H_q)=\prod_{i=1}^{L}p(y_i|H_v,H_q,y_{<i})$
其中 $L$ 表示 $Y_a$ 的长度。由于SLM贡献了MLLM参数中的绝大多数，因此它的选择与MLLM的轻量化特性密切相关。相比于参数规模从70亿到数百亿的传统MLLMs[87,88]，高效的MLLMs通常采用参数少于30亿的语言模型，例如微软的phi2-2.7B[74]和谷歌的Gemma-2B[78]。在特定数据配方上训练的Phi-2可以匹配使用常规数据训练的大25倍模型的表现。Phi-3-mini[86]可以轻松地部署在现代手机上，并且达到的质量似乎与Mixtral8x7B[89]和GPT-3.5等模型相当。除了利用预训练模型外，MobileVLM[20]还缩小了LLaMA[87]的规模，并使用开源数据集从头开始训练。具体的模型缩放情况见表1和表4。
在这里插入图片描述

2.4 Vision Token Compression

初步研究强调了MLLM在各种任务中的潜力，包括视觉问答和图像字幕。然而，MLLM在需要复杂识别的任务中面临相当大的挑战，包括人群计数和小字符的OCR。解决这些挑战的直接方法涉及增加图像分辨率，实际上，视觉标记的数量。然而，这种策略对MLLM施加了大量的计算负担，主要是由于计算成本与Transformer架构中的输入令牌的数量的二次缩放。受这一挑战的激励，视觉令牌压缩，旨在减少由众多令牌引起的令人望而却步的计算预算，已成为高效MLLM的一个重要方面。我们将从多视角输入、表征处理、多尺度信息融合、视觉专家代理和视频特定化方法等几个关键技术来探讨这一课题。

Multi-view Input
直接采用高分辨率视觉编码器进行细粒度感知的成本过高，并且不符合实际使用要求。因此，为了利用低分辨率视觉编码器，同时使MLLM能够感知详细信息，常见的方法是输入多视图HR图像，即，一个全局视图：通过拼接获得的低分辨率图像，以及一个局部视图：通过分裂得到的图像块。例如，LLaVA-UHD [35]提出了一种图像模块化策略，将原始分辨率图像划分为较小的可变大小切片，以实现高效和可扩展的编码。此外，InternLMXComposer 2 -4KHD [90]引入了一种通过自动布局安排动态调整分辨率的策略，该策略不仅保持了图像的原始纵横比，而且还自适应地改变了补丁布局和计数，从而提高了图像信息提取的效率。通过对不同分辨率的图像实施自适应输入策略，可以实现感知能力和效率之间的平衡。

Token Processing
设计用于处理冗长的视觉标记序列的技术在高效的MLLM中是至关重要的，因为它们解决了保留细粒度细节和降低计算复杂性的双重挑战。LLaVA-UHD [35]提出了一种管理与高分辨率图像相关的计算负担的新方法。它提出了两个关键组件：（1）一个压缩模块，进一步压缩来自视觉编码器的图像标记，显着降低计算负荷，以及（2）一个空间模式来组织LLM的切片标记。值得注意的是，与以前的模型相比，LLaVA-UHD通过仅使用94%的推理计算来支持6倍分辨率的图像来证明其效率。此外，该模型可以在学术环境中进行有效的训练，在8个A100 GPU上在23小时内完成整个过程。LLaVA-PruMerge[41]和MADTP [42]提出了一种自适应视觉令牌减少方法，可以显着减少视觉令牌的数量，同时保持可比的模型性能。TinyChart [37]和TextHawk [36]专注于面向文档的任务，前者采用Vision Token Merging模块，后者引入了ReSampling和ReArrangement模块。这些模块可以增强细粒度的视觉感知和信息压缩能力。

Multi-Scale Information Fusion
利用多尺度图像信息对于视觉特征提取确实至关重要。这种方法允许模型捕获较小尺度中的细粒度细节和较大尺度中可用的更广泛的上下文。Mini-Gemini [26]包括双编码器，一个用于高分辨率图像，另一个用于低分辨率视觉嵌入。它提出了补丁信息挖掘，它使用低分辨率的视觉嵌入作为查询，检索相关的视觉线索，从高分辨率的候选人通过交叉注意。尺度缩放（S2）[40]表明，多尺度较小模型具有与较大模型相当的学习能力，并且使用S2预训练较小模型可以在MLLM基准测试中匹配甚至超过较大模型的优势，同时计算效率更高。在将大图像分割成小的子图像之后，S2-wrapper处理单个子图像，而不是使用窗口注意力，这允许使用不支持窗口注意力的预训练模型，并且避免从头开始训练额外的参数。然后将大特征映射插入常规大小，确保视觉标记的数量保持可接受。
在这里插入图片描述

Vision Expert Agents
大多数MLLM由于其非无损图像标记化，难以完全捕获文本和对象的复杂细节。利用视觉专家代理是解决单个视觉编码器在细节丰富的内容上的有限泛化能力的问题的一种方法。P2G [38]采用专家代理进行实时接地，通过多模式提示实现高效和有目的的推理。这种创新的框架有利于在高分辨率场景中进行推理的即插即用基础，这些场景具有丰富的自然视觉效果和文本。它通过利用代理来增强文本和视觉基础和感知来实现这一点，如OCR代理（文本）或接地代理（图像）。MoVA[43]通过引入专家路由策略解决了单个视觉编码器在各种内容中泛化能力减弱的问题。该方法能够灵活有效地利用来自多个特定任务视觉专家的表示，从而增强泛化能力。

Video-Specific Methods
视频理解还需要处理大量的帧，这可能在LLM的上下文窗口内构成显著的计算挑战。Elysium [92]提供了性能和视觉令牌消耗之间的权衡，其中引入T-Selector作为视觉令牌压缩网络，使LLM能够区分各个帧，同时减少视觉令牌的使用。VideoLLaVA [44]建立在VendageBind [93]的基础上，将视觉表示统一到语言特征空间中，以将基础LLM推向统一的语言视觉LLM，而不会产生大量的计算负担。

2.5 Efficient Structures

高效结构主要探索三个方向：专家混合、Mamba和推理加速。

Mixture of Experts
MOE通过调节模型参数的总计数来增强模型容量，同时保持激活的参数不变，因此不会显着损害推理速度。MoE-LLaVA[25]提出了一种基于MoE的稀疏MLLM框架，该框架有效地增加了参数的数量，而不会影响计算效率。此外，它还介绍了MoE-Tuning，这是一种三阶段训练策略，旨在使莫伊[89]适应MLLM并防止稀疏性导致的模型退化。MM 1 [30]设计了莫伊模型的两种变体。第一种是3B-MoE模型，该模型雇用64名专家，每两层用稀疏层代替密集层。第二种是7 B-MoE模型，该模型使用32位专家，每四层用稀疏层代替密集层。

Mamba
Cobra [13]将高效的Mamba [77]语言模型整合到视觉模态中，并探索不同的模态融合方案以开发有效的多模态Mamba。实验结果表明，该算法不仅具有与现有高效方法相当的性能，而且由于其线性序列建模，具有更快的速度;在闭集挑战性预测基准中，它在克服视觉错觉和空间关系判断方面表现出色，并且仅使用43%的参数就达到了与LLaVA相当的性能。VL-Mamba[18]用预训练的Mamba语言模型代替了基于Transformer的主干语言模型。它探讨了如何有效地实现多模态学习的2D视觉选择性扫描机制，以及不同视觉编码器和预训练的Mamba语言模型变体的组合。

在这里插入图片描述

Inference Acceleration
SPD[45]提出了仅使用语言模型的推测解码，以提高推理效率。通过采用仅语言模型作为用于推测解码的草稿模型，绕过了对图像令牌及其相关联的处理组件的需要。FastV [46]发现，大多数图像令牌在第二解码器层之后得到低效的关注，并通过在推理阶段消除冗余视觉令牌来实现计算减少，而不会牺牲性能。VTW [47]断言，视觉标记在MLLM的深层中并不重要。它策略性地删除了特定层的所有标记，只允许文本标记参与后续层。VTW的这种方法可以在各种多模式任务中减少40%以上的计算开销，而不会影响性能。

3 Efficient Vision

Vision Transformer（ViT）[94]架构已经获得了极大的普及，并广泛用于计算机视觉应用。然而，随着ViT模型规模的增长，可训练参数和操作的数量也增加了，影响了它们的部署和性能。此外，自我注意力的计算和存储成本与图像分辨率成二次方增长。参考论文[95]，这项调查旨在探索可用于高效MLLM的最有效的视觉编码方法。
在这里插入图片描述

3.1 Compact Architecture

紧凑架构是指设计轻量级和高效的模型，同时在下游任务中保持高性能。它包含各种策略和方法，可在不影响性能的情况下减小模型大小、计算复杂性和内存占用。这些策略可以大致分为三类：1）架构设计方法，2）架构搜索方法，3）注意机制优化方法。

Architecture Design Methods
体系结构设计方法涉及创建新的体系结构[133]或调整现有的体系结构[134]，以在不牺牲性能的情况下实现紧凑性。例如，Reformer [96]在注意力机制中引入了局部敏感散列以降低复杂性，同时还采用可逆剩余层来更有效地存储激活。此外，EfficientFormer [97]分析了基于ViT的模型架构和运算符，引入了维度一致的纯Transformer范式，并采用延迟驱动的瘦身来生成优化的模型。另外，EfficientFormerV2 [98]提出了一种具有低延迟和高参数效率的超网。

Architecture Search Methods
架构搜索方法涉及采用神经架构搜索算法[113]来探索和发现针对特定任务或约束定制的紧凑架构。例如，Autoformer [99]将层内的权重交织在一起，可以对数千个子网进行彻底训练。NASViT [100]引入了梯度投影算法、可切换层缩放和流线型数据增强，增强了收敛性和性能。此外，TFTAS [101]研究了无需训练的架构搜索方法，提出了一种有效的方案。UniNet [102]引入了上下文感知下采样模块，改善了Transformer和MLP算子的信息适应性。

Optimization of Attention Mechanisms Methods
注意机制的优化方法主要通过引入自适应注意、学习稀疏注意模式和动态调整注意机制来降低计算复杂度。Fayyaz等人。[135]通过对重要标记进行评分和自适应采样来实现自适应注意力。PatchMerger [103]提取区域标记之间的全局信息，并通过自注意将局部自注意与区域标记之间的信息进行交换。DynamicViT [104]提出了一种注意力掩蔽策略，通过阻止与其他令牌的交互来区分修剪令牌。此外，Sepvit [105]使用依赖性可分离的自我注意力在窗口内和跨窗口进行局部-全局信息交互。这些方法共同优化了注意机制，提高了计算效率和性能。

3.2 Pruning

修剪涉及从视觉Transformer模型中移除不太重要的权重，通常分为非结构化修剪、结构化修剪和混合修剪技术。

Unstructured Pruning
非结构化剪枝的重点是消除单个权重，而不考虑它们在模型中的结构安排。Rao等人[104]介绍了一种动态令牌稀疏化框架，用于基于输入对冗余令牌进行渐进和自适应修剪，集成轻量级预测模块以估计令牌重要性得分，并采用注意力掩蔽策略来区分令牌交互并以端到端的方式优化预测模块。Cap [106]提出了一种新的理论基础修剪器，能够在修剪过程中准确有效地处理复杂的权重相关性，以及用于压缩后恢复的有效微调过程。Cait [107]引入了非对称令牌合并，以有效地整合相邻令牌，同时保留空间结构，并结合一致的动态通道修剪，以统一修剪Vision Transformers中的不重要通道，增强模型压缩。

Structured Pruning
结构化修剪旨在删除结构组件，例如基于预定义标准的注意力头或层。例如，WDPruning [108]采用了二进制掩码来根据它们的幅度识别不重要的参数。此外，Yu等人。[136]提出了一个统一的框架，集成了修剪以生成紧凑的变换器。X-Pruner [109]利用端到端学习的可解释性感知掩码来测量每个单元对预测目标类的贡献，并自适应地搜索逐层阈值，以在确定修剪率的同时保留信息量最大的单元。此外，VTP [110]通过控制系数的积分减少了嵌入维数，同时删除了具有可忽略系数的神经元。Tang等人。[111]通过首先识别最后一层中的有效补丁，然后利用它们来指导先前层的选择过程，从而消除冗余补丁，其中对最终输出特征影响最小的补丁随后被丢弃。

Hybrid Pruning
混合修剪，如[137]，研究了非结构化和结构化稀疏性，引入了一阶重要性近似方法来去除注意力头部。SPViT [112]开发了一种基于动态注意力的多头令牌选择器，用于自适应实例令牌选择，同时采用软修剪技术将信息量较少的令牌合并到包令牌中，而不是丢弃它们。ViT-Slim [113]利用可学习和统一的稀疏性约束以及预定义的因子来表示跨各个维度的连续搜索空间内的全局重要性。

在这里插入图片描述

3.3 Knowledge Distillation

知识蒸馏是一种技术，其中较小的模型从较大，更复杂的模型中学习以复制其性能，从而在保持预测准确性的同时实现高效部署[139]。视觉变换器的知识提取技术主要分为两类：1）同态知识提取技术和2）异形知识提取技术。

Homomorphic KDs
同态KD可以进一步分为logit级别[114，115]，补丁级别[117]，模块级别[116]和特征级别KD [118]。对于逻辑级方法，在DeiT [114]中，蒸馏令牌被纳入自我注意力模块，以模拟教师模型推断的类标签，促进学生注意力和层之间的交互，从而实现在反向传播期间学习硬标签。TinyViT [115]在预训练期间应用蒸馏，其中来自大型教师模型的logits预先存储在硬件中，当将知识转移到按比例缩小的学生转换器时，可以提高内存和计算效率。像DeiT-Tiny [117]这样的补丁级技术训练一个小的学生模型，以匹配补丁级结构上的预训练教师模型，然后使用分解的流形匹配损失进行优化，以降低计算成本。模块级方法涉及将教师模块与预训练的统一模型分离，并将学生模块与模块化模型分离。在m2mKD [116]中，这些模块与共享的元模型相结合，允许学生模块模仿教师模块的行为。如MiniViT [118]所示，分级KD方法联合收割机了连续Transformer块的权重。这需要在层间共享权重，同时引入转换以增强多样性。此外，利用基于自关注的权重蒸馏将知识从大规模ViT模型转移到具有多个权重的紧凑模型.

Heteromorphic KDs
异形KD涉及在具有不同架构的模型之间传输知识。例如，DearKD [119]提出了一种新颖的两阶段框架DearKD，它与传统的ViT架构方法不同。在第一阶段中，他们使用香草KD策略将CNN特征转移到ViT学生模型，表示异形转移。在随后的阶段，如果真实的样本是有限的，他们引入边界保持内发散损失，以增强该过程。类似地，CiT [120]提出了一种异形KD策略，其中知识从不同的模型（如CNN和对合神经网络）转移，从而提高了ViT学生模型的性能。

3.4 Quantization

ViT量化是降低ViT模型中数值表示的精度的过程，通常从浮点运算过渡到定点运算[140]。这种精度的降低旨在减少内存使用、计算复杂性和能耗，同时将模型精度保持在可接受的水平。目前的研究主要分为训练后量化、量化感知训练和硬件感知量化。

Post-Training Quantization (PTQ)
训练后量化（PTQ）通过将其参数从高精度浮点数转换为低精度定点数（如8位整数）来压缩训练的ViT模型。例如，Liu等人。[141]引入了一种排名损失方法来识别权重和输入的最佳低位量化区间，确保注意力机制的功能。他们还进行了一项分析，以了解不同层的量化损失与特征多样性之间的关系，探索一种利用每个注意力图和输出特征的核范数的混合精度量化方法。此外，PTQ 4ViT [121]引入了双均匀量化方法，以最大限度地减少softmax和GELU函数后激活值的量化误差，并结合了Hessian引导的度量以提高校准准确性。APQ-ViT [122]提出了一种统一的底部消除Boundary Calibration方案来优化校准度量，优先考虑关键的量化误差，并为Softmax设计了一个Matthew效应保持量化，以保持幂律特性和注意力机制功能。NoisyQuant [123]提出向量化值添加固定的均匀噪声偏置，在某些条件下，量化误差显着降低。这种技术成功地修改了重尾激活分布，以适应给定的量化器。

Quantization-Aware Training (QAT)
量化感知培训（QAT）将量化集成到培训周期中。当按比例缩小到超低位精度（例如4位或更低）时，这种集成特别有利，其中PTQ面临显著的性能损失。例如，Quantformer [124]利用熵信息来保持自我注意力等级的一致性，并引入了一种可微分搜索机制来最佳地对补丁特征维度进行分组，从而减少舍入和裁剪的不准确性。Q-ViT [126]结合了一个蒸馏令牌和信息校正模块（Information Rectification Module，缩写为EIT），以抵消量化注意力模块中改变的分布。TerViT [127]和比特收缩[125]逐渐减少模型位宽，同时调节锐度以保持整个量化的准确性。PackQViT [129]减轻了量化期间的离群值效应。BiViT [128]引入了Softmax感知二值化来调整二值化过程，最大限度地减少二值化softmax注意力值的错误。Xiao等人。[142]集成了梯度正则化方案来抑制二值化训练期间的权重振荡，并引入了激活移位模块来减少激活中的信息失真。此外，BinaryViT [130]将CNN的基本架构元素集成到纯ViT框架中，增强了其功能。

Hardware-Aware Quantization
硬件感知量化针对特定硬件平台（例如，GPU [131]、FPGA [132]）。它调整精度级别和量化策略，以最大限度地提高推理过程中的性能和能效。例如，Yu等人。[131]提出了一种利用GPU友好的2：4细粒度结构化稀疏和量化的压缩方案。他们使用2：4结构化修剪将密集模型修剪成稀疏模型，利用GPU加速。然后，他们通过稀疏蒸馏感知量化感知训练将稀疏模型转换为定点表示，利用GPU加速。在整个过程中，他们采用混合策略知识蒸馏，支持监督和无监督学习风格。Auto-ViT-Acc [132]提出了一种设计用于量化ViT架构的框架，以在FPGA供电的设备上运行推理。他们将先前研究中的量化函数专门应用于注意力块中的FNN模块，旨在优化FPGA资源利用率并加速推理。

4 Efficient LLMs

在这里插入图片描述
在MLLM中，LLM占据了绝大多数的参数量，是提高MLLM效率的关键切入点。在本节中，类似于调查论文[160]，我们简要概述了高效LLMs的研究进展，为高效MLMs的发展提供启示。

4.1 Attention

算法时间复杂性为O（n2），其中n为序列长度。这种二次复杂度是由于所有输入令牌之间的成对交互而产生的，这可能导致可伸缩性问题，尤其是在处理LLM中的长序列时。为了解决这一问题，研究人员开发了一些技术来加速注意机制并降低时间复杂度，例如基于共享的注意、特征信息约简、核化或低秩、固定和可学习的模式策略以及硬件辅助注意。

Sharing-based Attention
基于共享的注意力旨在通过在多个键值头之间共享计算资源来加快推理期间的注意力计算。例如，Llama-2 [91]采用了一种称为分组查询注意力（GQA）[143]的技术，以优化自回归解码期间的内存带宽。GQA是一种基于共享的注意力技术，旨在实现性能和效率之间的平衡，定位于多头注意力和多查询注意力机制之间。在多头注意中，每个头使用一组不同的线性变换参数来进行查询、键和值。相反，多查询注意力在所有查询中共享一组键值头。GQA将所有查询头划分为几个组，每组的查询头共享一个公共的键值头，从而在有效性和计算成本之间建立严格的平衡。
在这里插入图片描述

Feature Information Reduction
特征信息约简，如漏斗-Transformer [145]和集合Transformer[146]等模型所证明的，解决了注意力机制中对计算效率的关键需求，特别是通过减少输入特征的维度或数量，同时保留嵌入在数据中的基本信息。此策略背后的一个关键动机源于在Transformer模型中跨所有层维护全长隐藏表示时的潜在冗余。Funnel-Transformer [145]通过逐步减少自我注意模型中隐藏表示的序列大小（例如序列长度）来解决这个问题。这一减少不仅降低了计算复杂性和内存使用，而且还释放了可分配用于构建更深或更宽模型的资源。

Approximate Attention
近似注意力有助于模型在处理长文本时有效地关注任务相关信息。近似注意力中的两个关键概念是核化和低秩。内核化，例如[148]，涉及到将问题转换为基于内核的框架，目标是将原始问题转换为更高维空间中更易管理的问题。核化主要用于将文本序列映射到高维空间中，在高维空间中可以更容易地捕获与任务相关的信息。在这个新的空间中，文本序列中的每个单词都被表示为一个高维向量，这些向量之间的距离用来衡量它们的相似性。Low-Rank [147]的目标是将高维矩阵分解为两个低维矩阵的乘积。因此，通过计算这两个低维矩阵的逆，可以获得注意力矩阵的近似逆，从而显著降低计算复杂度。

4.2 Framework

Mixture of Experts
MOE[89]的核心思想是将大规模模型分解为几个较小的模型，每个模型都专注于学习输入数据的特定部分。在训练过程中，每个专家都被分配了一个权重，该权重确定了其在整个模型中的重要性。在推理阶段，给定一个输入，对所有专家进行排名，并选择最相关的专家进行计算。这种方法大大减少了计算量，因为只有一个子集的专家参与计算。通过在不同的专家之间分配计算任务，莫伊在训练和推理阶段实现了更有效地利用计算资源。在莫伊中，每个专家都有自己的一套参数;然而，这些参数在训练过程中是共享的。这种参数共享策略减少了模型中参数的总数，从而降低了存储和计算成本。GShard [149]是一个由一组轻量级注释API和XLA编译器扩展组成的模块，它提供了一种优雅的方式来表达各种并行计算模式，同时对现有的模型代码进行了最小的更改。它使我们能够使用自动分片将具有稀疏门控专家混合的多语言神经机器翻译Transformer模型扩展到超过6000亿个参数。Switch Transformer [150]用莫伊路由层取代了标准Transformer中的前馈网络（FFN）层，其中每个专家独立地对序列中的令牌进行操作。在相同的计算资源下，它的训练速度比谷歌之前开发的最大模型T5-XXL快4倍。提出的训练技术消除了训练过程中的不稳定性，这表明大型稀疏模型也可以以低精度格式（例如bfloat 16）进行训练。

Transformer-Alternative Structures
虽然Transformer是当前大规模语言模型中的主导架构，但像RWKV [151]和Mamba [77]这样的模型已经成为实现提高效率和处理冗长文本的流行解决方案。这些创新的模型已经展示了类似于transformers的属性，包括处理远程依赖和并行处理的能力。RWKV模型利用线性注意力机制，使我们能够将模型公式化为Transformer或递归神经网络（RNN）。这种方法在训练过程中并行计算，并在推理过程中保持恒定的计算和内存复杂度。
在这里插入图片描述

状态空间模型（SSM）[152]可以被公式化为一种有效的自回归推理的RNN，并且已经成为注意力机制的一种有前途的替代方案，与注意力的二次复杂性相比，它提供了接近线性的计算复杂性。SSM被公式化为x’（t）= Ax（t）+ Bu（t），y（t）= Cx（t）+ Du（t），在将其投影到一维输出信号y（t）之前将一维输入信号u（t）映射到N维潜在状态x（t），其中A、B、C和D是通过梯度下降学习的参数[152]。已经提出了几种技术来增强SSM，例如结构化状态空间序列模型（S4）[152]，它通过用低秩校正调节矩阵A来细化SSM，以及对角状态空间（DSS）模型[153]，它提出了状态空间的完全对角参数化以提高效率。H3将两个SSM堆叠在一起，使它们的输出和输入投影相互作用，在适应现代硬件的同时，弥合了SSM和注意力之间的差距。Mamba [77]是一种选择性状态空间模型，在大型语言模型中被引入作为Transformer架构的强有力竞争者。Mamba采用选择机制消除不相关数据，并开发了递归运算的硬件并行算法。这导致与相同容量的LLM相比具有竞争力的性能，具有更快的推理速度，随着时间和恒定内存使用量线性扩展。总之，状态空间模型通过提供近线性的计算复杂性和有效地捕获长期依赖性，提供了作为注意力机制替代方案的巨大潜力。随着不断的改进和完善，SSM有望成为深度学习和序列处理领域的一种有影响力的方法。

4.3 Fine-Tuning

微调，作为适应LLM下游任务和训练MLLLM遵循视觉指令的主要阶段，在提高LLM的效率方面起着至关重要的作用。

Parameter-Efficient Fine-Tuning
参数高效微调（PEFT）是一种在大型语言模型（LLM）中以较少的参数实现高性能的方法。诸如基于适配器的调整和低秩自适应之类的技术提供了有效的解决方案，以减轻与微调LLM相关联的计算和存储器挑战，同时保持它们的表达能力和概括能力。基于适配器的调优将轻量级适配器模块引入到预先训练的模型的体系结构中。这些适配器模块通常由具有少量参数的前馈神经网络组成，它们被插入到原始模型的层之间。在微调期间，仅更新适配器参数，而预训练模型的参数保持固定。该方法显著减少了可训练参数的数量，从而在不影响模型性能的情况下加快了训练和推理时间。LLM-Adapters [154]提供了一个框架，用于将各种适配器集成到大型语言模型中，从而能够对各种任务进行参数有效的微调。该框架包含了最先进的开放式可访问的大型语言模型和广泛使用的适配器。(IA)3[155]介绍了一种新颖的参数高效微调方法，即通过抑制和放大内部激活的融合适配器，该方法通过与激活相乘来学习向量以加权模型参数，从而在推理过程中实现鲁棒的少发射性能和批量内的任务混合，而无需手动调整模型结构。低秩自适应[161]采用矩阵分解技术来减少模型中参数的数量。通过将原始权重矩阵分解为低秩矩阵，低秩自适应捕获模型表示的最重要的分量，同时丢弃不太重要的信息。LoRA-FA [156]是LoRA的一个变体，在初始化后，第一个低秩矩阵被冻结，并用作随机投影，而另一个矩阵则被训练。DyLoRa [157]引入了一种动态低秩自适应技术，该技术能够针对一系列秩而非单个秩来训练LoRA块，这是通过在不同秩的训练期间对适配器模块学习到的表示进行排序来实现的。

Full-Parameter fine-tuning
全参数微调是一种在微调过程中更新预训练模型的所有参数的方法。该方法旨在通过利用预训练模型的整个容量来实现特定下游任务的最佳性能。虽然全参数微调通常会带来最先进的结果和改进的特定于任务的性能，但在计算能力和内存消耗方面，它会带来更高的资源要求。为了减轻与训练相关的负担，许多研究集中在全参数微调期间提高记忆效率。这一战略方针有效地减少了曾经阻碍这一研究领域取得进展的障碍。LOMO [158]引入了一种源自随机梯度下降（SGD）的低内存优化技术，以减少内存消耗。通常，使用ADAM优化器;但是，这种方法中的优化器状态占用大量内存。通过利用修改的基于SGD的LOMO，可以减少存储器使用。虽然SGD本身面临三个挑战，但这些问题往往会在模型微调期间自行解决。具体的修改涉及在梯度计算内而不是在整个层之后更新参数。MeZO[159]提出了一种优化器，它只使用两个前向传递来计算梯度，从而可以使用与推理等效的内存占用来微调LLM。GPU内存要求为55 GB，允许对30 B参数模型进行全面微调。

5 Training

高效的MLLM的培训过程是一个关键方面，它决定了他们在下游任务上的表现以及他们处理不同模式的能力。在本节中，我们概述了各种训练方法，包括预训练、预调整、不同的训练步骤和参数高效的迁移学习策略。这些方法旨在优化不同模态之间的对齐，微调特定任务的模型，并最大限度地减少与迁移学习过程相关的计算和参数成本。图14显示了开发高效MLLM所涉及的不同培训阶段的示意图。在下面的小节中，我们将深入研究这些方面，并讨论它们在高效MLLM背景下的重要性。

5.1 Pre-Training

在预训练阶段，主要重点是对齐嵌入空间中的不同模态，使语言模型能够接受来自各种模态的输入。这个阶段的训练主要涉及大规模的文本配对数据，主要是图像-标题对的形式。图像-标题对 $(X ， Y)$ 通常扩展为单轮对话 $X_{instruction}, X_a)$ ，其中 $X_{instruction}$ 包含图像 $X_v$ 和来自要求助理简要描述图像的一组指令的随机采样问题 $X_q$ , $X_a$ 是原始图像描述。给定这样的对话，模型被训练成自回归地预测图像描述。因此，我们可以计算以 $X_v$ 为条件的预测 $X_a$ 的概率，并使用标准交叉熵损失函数对其进行优化：
$\max_{\theta}\sum_{i=1}^{L}\log p_{\theta}(x_i|X_v,X_{instruct},X_{a,<i})$

其中 $L$ 是 $X_a$ 的长度， $\theta$ 表示可训练参数。为了更好地对齐不同模态的知识并在预训练阶段避免灾难性遗忘， $\theta$ 通常仅包括一个可学习的模态接口，即视觉-语言投影器。

在这里插入图片描述
Which part to unfreeze?
考虑到在使用SLM时，仅训练连接器可能无法很好地对齐视觉和文本信息，TinyLlava[23]还选择部分冻结预训练模块（即视觉编码器和SLM），以激活更多参数来学习对齐。VILA[49]揭示了在整个预训练阶段更新基本LLM对于继承一些有吸引力的LLM属性（如上下文学习）至关重要。ShareGPT4V[55]发现，解冻更多的参数，特别是在视觉编码器的后半部分，在学习更大和更多样化的数据集时证明是有益的，这表明训练配方的选择与数据的质量密切相关。

Multi-stage pre-training
为了最大限度地提高计算效率，Idefics2 [48]将预训练分解为两个阶段。在第一阶段，它将最大图像分辨率限制为384像素，并使用较大的全局批量大小。在第二阶段，引入PDF文档，以将图像分辨率提高到最大980像素，使文本清晰可辨。

5.2 Instruction-Tuning

指令调整（IT）是高效MLLM的一个重要方面，其目的是通过利用特定任务的指令来微调特定任务的模型。这种方法建立在MLLM可以理解并遵循自然语言提供的指令的概念上，从而提高他们在目标任务上的表现。IT在高效的MLLM中的好处是多方面的。首先，它使模型能够适应广泛的任务，而对其架构或训练数据的更改最小。这使得它成为一种灵活而有效的方法，可以对不同的任务进行微调。其次，IT允许更好的泛化，因为模型学习遵循指令并将其知识应用于新的和看不见的任务。

IT阶段通常在监督微调（SFT）的范式下进行。SFT数据集往往来源于预训练数据的一部分，这部分数据被转换为基于指令的格式，并以单轮或多轮对话结构的形式呈现。给定一张图片 $X_v$ 及其说明，可以生成一段对话数据 $(X_q^1, X_a^1, \ldots, X_q^T, X_a^T)$ ，其中 $T$ 是总轮数。我们通常可以按照[7]中的方式将数据组织成一系列指令和响应，第 $t$ 轮的指令 $X_{\text{instruct}}^t$ 定义如下：

$X_{\text{instruct}}^t = \begin{cases} \text{Randomly choose } [X_q^1, X_v] \text{ or } [X_v, X_q^1], & \text{the first turn } t=1 \\ X_q^t, & \text{the remaining turns } t>1 \end{cases}$

利用这种多模态的预训练序列，可以通过使用与预训练阶段相同的自回归训练目标来执行IT。一种普遍的策略涉及将视觉编码器权重维持在固定状态，同时在IT过程期间继续更新投影仪和SLM两者的预训练权重。

Efficient IT
目前的IT解决方案过于昂贵，需要优化大量参数和额外的大规模培训。LaVIN [50]为MLLM的高效指令调优引入了一种创新且具有成本效益的解决方案。LaVIN中的混合模态适应（MMA）使用轻量级模块来弥合LLM和VL任务之间的差距。这也有助于视觉和语言模型的联合优化。实施LaVIN的实际成本非常低，例如，它只需要1.4小时的培训时间和380万个可训练参数。HyperLLaVA [51]研究了MLLM的未充分开发的动态调优策略，并在两阶段培训中利用投影仪和LLM的视觉和语言引导动态调优。

在这里插入图片描述

5.3 Diverse Training Steps

传统的两阶段策略需要手动分配各种可调参数和数据集组合到不同的训练阶段，这可能是一项繁重的任务。为了缓解这一问题，SPHINX-X[14]设计了一个单阶段，全方位的训练管道，公正地对待所有收集的数据集，并始终如一地将它们转换为多模式，多回合的对话格式。在整个统一的训练阶段，SPHINX-X中除了视觉编码器之外的所有参数都被激活。Cobra[13]还认为，预对准的初始阶段可能不是必需的，即使在微调后，模型仍然不适合。因此，它放弃了预对准阶段，而是选择直接微调整个SLM骨干沿着投影仪。TinyGPT-V[28]训练过程包括四个阶段：用于视觉语言理解的初始预训练阶段，用于改进图像模态处理的第二阶段，通过微调进行类似人类的学习的第三阶段，以及多任务学习的第四阶段，以增强其作为聊天机器人的会话能力。

5.4 Parameter Efficient Transfer Learning

一些研究采用参数有效微调（PEFT）技术进行迁移学习，如LoRA [161]，以防止预先训练的知识丢失。高效注意力跳过（EAS）模块[52]为MLLM提出了一种新的参数和计算高效的调整方法，以保持高性能并减少下游任务的参数和计算支出。MemVP [53]认为，这种迁移学习范式仍然表现出低效率，因为它显着增加了语言模型的输入长度。MemVP中的视觉提示与前馈网络的权重相连，用于视觉知识注入，以减少微调MLLM的训练时间和推理延迟，并超越之前PEFT方法的性能。

6 Data and Benchmarks

在本节中，我们概述了用于训练和评估高效MLLM的数据和基准。我们讨论了预训练数据、预调整数据以及用于评估这些模型性能的基准的重要性。讨论强调了多样化和高质量的数据集在实现强大和准确的MLLM方面的重要性，以及用于生成和完善这些数据集的各种策略。此外，我们提出了一个全面的比较ofMLLM性能跨既定的基准，强调需要进行彻底的评估，以确保这些模型在现实世界中的应用的有效性。

6.1 Pre-Training Data

训练前数据主要服务于两个关键目标：（1）促进各种模式的整合和（2）传达全面的知识。大规模的图像标题对数据集自然满足这些要求。首先，它们主要来自互联网，提供了广泛的数据量和广泛的知识覆盖面。其次，两种模态之间的直接对齐有利于训练模态投影仪。然而，这样的语料库中的标题通常很简短，并且包含噪声，可以使用自动方法进行优化和过滤，例如采用CLIP [13]模型来消除具有低相似度分数的图像-文本对。经常使用的预训练数据集的总结可以在图2中找到。

在这里插入图片描述
越来越多的研究调查了通过利用GPT-4V等强大的MLLM来生成高质量的细粒度预训练数据。这些数据集通常提供更详细和准确的图像描述相比，其粗粒度的同行，使图像和文本模态更紧密的对齐。然而，这种方法通常需要使用商业MLLM，导致成本增加和数据量减少。ShareGPT 4V [55]通过首先在100 K GPT-4V生成的数据上训练字幕，然后使用预训练的字幕将数据集扩展到1.2M来解决这个问题。此外，VILA [49]的研究结果表明，结合交错的预训练数据证明是有利的，而仅仅依靠图像-文本对在实现预期结果方面是次优的。

6.2 Instruction-Tuning Data

指令调优（IT）是改进高效MLLM准确解释用户指令并有效执行所需任务的能力的关键步骤。这个过程与多任务激励的概念有很强的联系。

表3总结了常用的预训练数据集。高质量的IT数据可以从特定于任务的数据集中获得。例如，考虑一个来自VQA数据集的样本，其中输入包括图像和自然语言问题，输出是基于图像的问题的基于文本的答案。这可以很容易地形成指令样本的多模态输入和响应。说明或任务描述可以通过手工创建或借助GPT半自动生成来获得。除了利用公开可用的特定任务数据集外，SPHINX-X[14]还从互联网上的大量PDF数据中汇编了一个侧重于OCR的数据集。具体来说，它首先从Web上收集大规模PDF数据集。然后，它获得PDF文件中每个页面的渲染结果，同时保存所有文本注释沿着及其各自的边界框。最终，这些元素被转换为统一的问答格式。

虽然多任务数据集提供了丰富的数据源，但它们可能并不总是适合复杂的现实情况，例如参与多回合对话。为了解决这一挑战，一些研究已经探索了使用自我指导，通过利用LLMs从有限数量的手工注释样本中生成基于文本或多模态的指导遵循数据。SPHINX-X[14]利用图像和文本之间的细粒度对应关系组装了一个丰富的多领域数据集。它收集了来自不同来源的图像，然后使用注释将各种标记应用到原始图像上。通过提示GPT-4V这些标记的图像和定制的领域特定的指导方针，该系统生成字幕，提供图像概述，区域细节和对象关系的洞察力。在训练过程中，SPHINX-X使用未改变的图像而不是标记的图像。ALLaVA[29]提出在单个会话内提取图像字幕和QA对。具体地说，它用一个图像提示GPT-4V，并要求它首先生成一个细粒度的标题，然后生成一个VQA对。

例如，在一个实施例中，在用户和助手之间的对话可以被用于增强模型的对话专业知识和对指令的响应，VILA [49]的研究表明，在微调过程中，将纯文本教学数据与图像-文本数据集成，不仅可以缓解文本性能的下降，而且还提高了MLLM相关任务的准确性。

在这里插入图片描述

6.3 Benchmarks

为了提供全面的绩效评估，我们汇总了一个表格，展示了22个MLLM在14个成熟的VL基准中的有效性，如表4所示。此外，为了进一步参考，我们已经纳入了13个突出的和较大的MLLM的结果比较。
在这里插入图片描述

表4：主流MLLM和高效MLLM在14个VL基准上的比较。VQAv2 [57]; VQAT：TextVQA [58];[59];- 你好吗？[188]; VizWiz [189]; MMMU [190]; MathV：MathVista [191]; MMEP/C：MME的感知/认知分裂[60]; MMB：MMBench [61]; SEED：SEED-Bench [192]; POPE [62]; LLaVAW：LLaVA-Bench（In-theWild）[7]; MM-Vet [193]。MMMU中报告的两个数字分别表示瓦尔和测试拆分的性能。SEED中报告的两个数字分别表示整个SEED台架和图像部分的性能。†表示两个分割的组合点。图中红色表示在训练过程中观察到的数据集的训练图像，红色表示高效MLLM的最高结果，蓝色表示大规模MLLM的最高结果。

7 Applications

从前面的分析中可以清楚地看到，许多有效的MLLM方法在一系列场景中评估其性能，如VQA，视觉基础，图像分割等，但是，在完善的任务中探索这些有效的架构以实现其最终性能也至关重要。因此，我们选择介绍几个下游任务，如医学分析、文档理解和视频理解。

7.1 Biomedical Analysis

由于注释生物医学数据的高成本，基础模型有望成为生物医学的新范式，在许多应用中实现最先进的结果，包括医学问答[194]和医学图像分类[195]。最近，多模态生成AI已成为生物医学领域令人兴奋的前沿，将应用范围从单模态扩展到多模态，如VQA和放射学报告生成。

专家调整的混合物有效地提高了一般MLLM的性能，具有较少的参数，但其在资源有限的医疗环境中的应用尚未得到充分的探讨。MoE-TinyMed [64]是为医疗应用量身定制的模型，可显著降低参数要求。LLaVA-Rad [63]是一种最先进的工具，可在私人设置中展示单个V100 GPU的快速性能，使其非常适用于现实世界的临床场景。它采用模块化方法，集成了单峰预训练模型，并强调轻量级适配器的训练。因此，LLaVA-Rad在标准指标方面优于GPT-4V和Med-PaLM等较大型号，展示了其上级效率和有效性。

7.2 Document Understanding

文档或图表作为重要的信息来源，以各种形式提供直观的数据可视化。它们已成为信息传播、商业决策和学术研究不可或缺的一部分。然而，当前的图表理解模型仍然面临两个主要限制：（1）相当多的参数使得训练和部署具有挑战性。例如，ChartLlama [196]，一个130亿参数的模型，很难部署在单个消费级GPU上。(2)这些模型难以有效地编码高分辨率图像，因为视觉变换器往往会产生冗长的特征序列。解决面向文档的MLLM的细粒度视觉感知和视觉信息压缩的挑战。TinyChart [37]在思想编程（PoT）学习和视觉令牌合并策略方面优于几个13B MLLM，同时在更快的推理速度方面表现出色。TextHawk [36]通过设计四个专用组件来解决面向文档的任务所带来的挑战，探索了有效的细粒度感知。HRVDA [66]和Monkey [65]也是大型多模态模型，旨在解决视觉文档理解任务中高分辨率要求所带来的挑战。

7.3 Video Comprehension

视频提供了一个令人印象深刻的准确表示人类如何不断感知视觉世界。智能视频理解对于各种现实应用至关重要，包括视频类别分类，视频字幕和视频文本检索。像videoChat [197]和Video-LLaMA [198]这样的作品是基于LLM的大型多模态模型，用于端到端以聊天为中心的视频理解。然而，这些方法只能接受有限数量的帧用于短视频理解。

为了解决由于过多数量的视觉令牌而与处理长视频相关联的计算挑战，已经开发了几种方法。mPLUG-video [67]是为视频理解任务而设计的，首先是基于TimeSformer的视频编码器，以有效地从稀疏采样的视频帧中提取特征，然后是视觉抽象模块，以减少序列长度。Video-LLaVA [44]通过在投影之前将图像和视频的视觉表示统一到单个语言特征空间中，在各种视频理解任务中表现出色。这种方法可以有效地学习使用BundageBind的多模式交互[93]。LLaMA-VID [69]通过用两个不同的令牌（即上下文令牌和内容令牌）表示每个帧来解决这个问题。上下文令牌基于用户输入对整个图像上下文进行编码，而内容令牌则封装每个帧中的视觉提示。这种双令牌策略显著降低了长视频的过载，同时保留了关键信息。MA-LMM [68]提出以在线方式处理视频，并将过去的视频信息存储在内存库中，以参考历史视频内容进行长期分析，而不会超过LLM的上下文长度限制或GPU内存限制，而不是像大多数现有工作那样同时处理更多帧。

8 Discussion and Conclusion

8.1 Limitations and Future work

高效的MLLM的开发仍处于起步阶段，有很大的改进空间。我们将目前的情况总结如下：

目前，高效的MLLM在处理扩展上下文多模态信息方面面临挑战，并且它们通常仅限于接受单个图像。这限制了能够处理增加数量的多模态令牌的更复杂的模型的进步。这样的模型将有利于理解冗长的视频和分析包含图像和文本的大量文档等应用程序，从而创建更通用、更强大的系统。
主要的高效MLLM主要支持双输入模态-图像和文本，以及单一输出模态-文本。然而，有形世界包括一系列更广泛的模式。通过扩大有效的MLLM的范围，以适应更丰富多样的输入方式，并增强其生成能力，我们可以显着增强其多功能性，扩大其适用性。
有两个主要途径来加强有效的MLLM模型。首先，纳入一组更多样化的轻量级LLM可以使MLLM的设计更具适应性，从而促进其定制以满足广泛的需求。其次，利用高质量的指令调优数据集可以使高效的MLLM更好地理解和实现大量指令，从而增强其零触发学习能力。
能够部署在边缘设备上的嵌入式代理的开发代表了高效MLLM的关键应用前景。一个拥有专业知识和与真实的世界互动能力的智能体具有深远的影响，可能会彻底改变机器人、自动化和人工智能等领域。

8.2 Conclusion

在这项研究中，我们深入研究了高效的MLLM文学领域，提供了其中心主题的包罗万象的观点，包括基础理论及其扩展。我们的目标是确定和强调需要进一步研究的领域，并为未来的研究提出潜在的途径。我们的目标是提供一个全面的视角，有效的MLLM的现状，希望能激发更多的研究。考虑到这个领域的动态性质，有可能一些最近的发展可能没有被完全覆盖。为了解决这个问题，我们建立了一个专门的网站，使用众包来跟上最新的进步。该平台旨在作为一个不断更新的信息来源，促进该领域的持续增长。由于篇幅限制，我们无法深入介绍所有技术细节，但对该领域的关键贡献进行了简要概述。未来，我们计划不断更新和增强我们网站上的信息，并在出现新见解时添加新见解。

以上内容全部使用机器翻译，如果存在错误，请在评论区留言。欢迎一起学习交流！

查看全文

http://www.kler.cn/a/420046.html

React 前端框架4

路径规划之启发式算法之三：鲸鱼优化算法（Whale Optimization Algorithm）

Anaconda3安装及使用

（数据结构与算法）如何提高学习算法的效率？面试算法重点有哪些？面试需要哪些能力？

Vue3学习宝典

计算机毕业设计Spark+SpringBoot旅游推荐系统旅游景点推荐旅游可视化旅游爬虫景区客流量预测旅游大数据大数据毕业设计

四、初识C语言（4）

Python 时间和日期

STM32 ADC --- 知识点总结

什么语言适合做 Serverless 开发？

Elasticsearch 集成

JavaEE-线程池专题

斯坦福李飞飞《AI Agent：多模态交互前沿调查》论文

推进汽车互联：全面物联网基础设施框架的提案

牛客网刷题 | BC122 有序序列判断

docker部署xxl-job（含镜像打包）

一键解析RAW文件，GPS定位展示，摄影师专用照片管理软件

单台服务器上创建多个端口MySQL服务

【Leetcode 每日一题】52. N 皇后 II

windows执行多个jar包脚本，若依微服务批量执行脚本

Efficient Multimodal Large Language Models: A Survey (高效多模态大型语言模型综述-全文翻译)