当前位置：首页 > article >正文

轻量化VLM架构工作调研

article 2025/2/25 21:32:29

OmniVLM: A Token-Compressed, Sub-Billion-Parameter Vision-Language Model for Efficient On-Device Inference

OmniVLM致力于解决在资源受限的边缘设备上部署VLMs所面临的挑战。它通过一种新颖的标记压缩机制以及多阶段训练流程实现了这一目标。
其核心创新在于图像标记压缩，它能在投影层中将嵌入维度从 [批量大小，729，隐藏层大小] 转变为 [批量大小，81，隐藏层大小]。这种标记数量 9 倍的减少是通过重塑（reshaping）操作实现的，这是在与基于卷积的方法进行经验对比后做出的选择。
该模型架构基于LLaVA框架构建，采用谷歌的SigLIP-400M作为视觉编码器，Qwen2.5 - 0.5B - Instruct作为基础语言模型，并用一个多层感知机（MLP）作为投影层。
训练流程包含三个阶段：
（1）在大规模的图像 - 标题对（主要来自llama预训练数据集）上进行预训练，以学习视觉 - 语言的对齐关系，在此阶段只训练投影层；
（2）在多个数据集（llama、UnimmChat以及内部数据）的混合数据上进行监督微调（SFT），以提高语境理解能力和对话连贯性，此阶段在冻结视觉编码器的情况下训练投影器和大型语言模型；
（3）最小编辑直接偏好优化（DPO），利用一个教师模型对基础模型的输出创建经过最小编辑的修正内容，形成用于偏好学习的 “选择 - 拒绝” 对，同样在此阶段冻结视觉编码器并训练投影器和大型语言模型。直接偏好优化过程借助 GPT - 4V 来生成合成训练对。
大量实验表明，81 个标记的配置在计算效率和模型性能之间实现了最优平衡。全模态视觉语言模型在诸如科学问答（ScienceQA）、观点偏好评估（POPE）以及多学科多模态理解（MMMU）等基准测试中表现优于纳诺小羊驼（nanoLLAVA），展现出在推理、多模态理解以及泛化能力方面的提升。至关重要的是，它实现了显著更快的推理速度（在笔记本电脑上，首个标记生成时间快 9.1 倍，解码速度提高 1.5 倍；在移动设备上，首个标记生成时间快 8 倍），使其适合部署在诸如智能手机和笔记本电脑等边缘设备上。

SmolVLM: A Small, Efficient, and Open-Source Vision-Language Model

SmolVLM基于Idefics3的架构构建，在transformers中利用了与之类似的实现方式，但存在一些关键差异以提高效率。它将llama3.1-8B的语言主干模型替换为规模更小的SmolLM2-1.7B模型。
该模型采用了一种更激进的图像压缩策略，运用像素重排（pixel shuffle）策略，使视觉信息减少为原来的九分之一（相较于Idefics3中减少为四分之一而言）。这使得图像能够划分成 384×384 的小块，并且使用了一种形状优化的SigLIP作为视觉主干，其内部小块为 14×14 的规格。
与其他VLMs相比，该模型展现出更优的内存使用情况，能够实现高效的设备端推理。例如，对单张图像和提示进行编码仅需 1200 个标记，远少于像Qwen2-VL这类模型。这种效率上的优势体现为预填充和生成吞吐量更快。
SmolVLM在多学科多模态理解（MMMU）、数学视觉（MathVista）、多模态之星（MMStar）、文档视觉问答（DocVQA）以及文本视觉问答（TextVQA）等基准测试中取得了出色的表现。它还凭借其长文本语境处理能力，在基础视频分析方面展现出了颇具潜力的结果。
训练过程涉及使用旋转位置编码（RoPE）基值调整等技术将SmolVLM2的语境窗口扩展至 16000 个标记，并在长、短语境数据集混合的基础上进行微调。一个精心挑选的训练数据集（主要基于The Cauldron和文档矩阵（Docmatix））被用于视觉语言模型的训练。检查点的选择基于多个视觉 - 语言基准测试的加权指标。
该模型与视觉语言模型评估工具包（VLMEvalKit）相集成，便于进行评估，并且可以通过变换器库轻松使用和微调。与强化学习工具（TRL）的集成使得能够应用直接偏好优化（DPO）。此外，还提供了一个用于在视觉问答数据集 V2（VQAv2）上进行微调的笔记本，其中包含低秩适应（LoRA）、量化低秩适应（QLoRA）或完全微调等选项，即便在消费级图形处理器（GPU）的限制条件下也可操作。

MobileVLM: A Fast, Strong and Open Vision Language Assistant for Mobile Devices

MobileVLM将基于分辨率为 336×336 的 CLIP ViT-L/14 模型的视觉编码器、针对移动设备进行优化的MobileLLaMA语言模型，以及一个轻量级下采样投影器（LDP）整合在一起。轻量级下采样投影器能够以极小的计算开销在视觉数据和文本数据之间搭建桥梁。各组件之间的协同作用确保了移动视觉语言模型可以有效地处理并对齐多模态输入，使其非常适用于对资源效率要求极高的移动应用场景。
MobileVLM的训练流程分为三个不同阶段，每个阶段都对模型的发展有着独特的贡献。首先，语言模型使用以文本为核心的RedPajama-v1数据集进行预训练，为其奠定坚实的语言基础。随后的监督微调利用人类与 ChatGPT 之间的多轮对话，来完善模型的对话能力。最后一个阶段涉及在多样化的多模态数据集上对集成的视觉 - 语言模型进行训练，使移动视觉语言模型具备解读并回应视觉及文本刺激的能力。这种全面的训练方法确保MobileVLM在性能和效率之间达到平衡，使其能够熟练处理移动平台上复杂的视觉 - 语言交互。
MobileVLM之所以能高效运作，关键在于轻量级下采样投影器这一新颖的组件，它旨在高效地对齐视觉特征和文本特征。通过采用诸如深度可分离卷积这类对移动设备友好的操作，轻量级下采样投影器能够对视觉标记进行下采样，使其与语言模型的输入维度相匹配，在保留空间信息的同时将计算需求降至最低。这种对齐机制与视觉和文本嵌入的高效融合相结合，使得移动视觉语言模型在移动环境中能够保持较高的准确性和响应能力。

MiniCPM-o-2.6: A GPT-4o Level MLLM for Vision, Speech and Multimodal Live Streaming

MiniCPM-o-2.6采用了端到端的全模态架构。它集成了几个预训练的组件：

  视觉编码器：SigLip-400M；

  音频编码器：Whisper-medium-300M参数版本；

  文本转语音（TTS）：ChatTTS-200M参数版本；

  大型语言模型（LLM）：Owen2.5-7B参数版本。

这些组件相互连接并进行端到端的训练。

一项关键创新是 “全模态实时流机制”，其涉及以下方面：

  在线模态编码器 / 解码器：将离线的编码器和解码器转变为在线版本，以处理实时流输入和输出。

  时分复用（TDM）：大型语言模型主干内的时分复用机制用于处理全模态流。它将并行的流（视频、音频）在短时间片内划分为顺序信息。

  可配置语音建模：一个多模态系统提示（包含文本和音频提示）允许在推理过程中进行灵活的语音配置，从而实现语音克隆以及基于描述的语音创建。

MiniCPM-V: A GPT-4V Level MLLM on Your Phone

在视觉编码器方面，MiniCPM-V使用了SigLIP SoViT-400M/14版本，选择它是看中了其效率和效果。为了处理具有不同宽高比的高分辨率图像，该模型采用了自适应视觉编码方法。具体做法是将输入图像分割成多个切片，使其在分辨率和宽高比方面能更好地匹配ViT的预训练设置。使用一个评分函数来选择切片的最优划分方式，以确保与ViT的预训练良好适配。然后，每个切片会按比例调整大小并进行插值，使其符合ViT的输入尺寸。经过视觉编码后，每个切片由 1024 个标记来表示，对于多个切片而言就会产生大量标记。
为解决这一问题，采用了一个标记压缩模块，它利用具有适量查询的单层交叉注意力将每个切片的视觉标记压缩为 64 或 96 个标记。这极大地降低了计算成本和内存占用，使得该模型适合在终端进行部署。此外，还引入了一种空间模式来表明每个切片相对于整幅图像的位置，进一步增强了模型对空间关系的理解。
压缩后的视觉标记与文本输入一起被送入LL,，早期版本基于MiniCPM 2B模型，而MiniCPM-Llama3-V 2.5版本则基于Llama3-Instruct 8B模型。
训练过程包含三个阶段：预训练、监督微调以及基于视觉的人工智能反馈强化学习（RLAIF-V）。预训练旨在将视觉模块与大型语言模型的输入空间对齐，并学习基础的多模态知识。它涉及三个步骤：对压缩层进行预热、扩展视觉编码器的输入分辨率，以及采用自适应视觉编码策略训练视觉模块。监督微调利用高质量的视觉问答数据集进一步增强模型的知识和交互能力。监督微调数据分为两部分：一部分侧重于基础识别能力，另一部分侧重于生成详细回复以及遵循指令。最后，运用基于视觉的人工智能反馈强化学习来缓解多模态大型语言模型中常见的幻觉问题。这包括针对一条指令生成多个回复，使用分而治之的策略评估它们的正确性，然后在偏好数据集上利用直接偏好优化（DPO）对模型进行优化。

查看全文

http://www.kler.cn/a/553124.html