当前位置：首页 > article >正文

【论文笔记】xGen-MM (BLIP-3): A Family of Open Large Multimodal Models

article 2025/1/20 21:02:24

🍎个人主页：小嗷犬的个人主页
🍊个人网站：小嗷犬的技术小站
🥭个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。

基本信息

标题: xGen-MM (BLIP-3): A Family of Open Large Multimodal Models
作者: Le Xue, Manli Shu, Anas Awadalla, Jun Wang, An Yan, Senthil Purushwalkam, Honglu Zhou, Viraj Prabhu, Yutong Dai, Michael S Ryoo, Shrikant Kendre, Jieyu Zhang, Can Qin, Shu Zhang, Chia-Chih Chen, Ning Yu, Juntao Tan, Tulika Manoj Awalgaonkar, Shelby Heinecke, Huan Wang, Yejin Choi, Ludwig Schmidt, Zeyuan Chen, Silvio Savarese, Juan Carlos Niebles, Caiming Xiong, Ran Xu
arXiv: https://arxiv.org/abs/2408.08872
项目主页: https://www.salesforceairesearch.com/opensource/xGen-MM/index.html

基本信息

摘要

本报告介绍了xGen-MM（也称为BLIP-3），这是一个用于开发大型多模态模型（LMMs）的框架。

该框架包括精心挑选的数据集、训练方案、模型架构以及一系列LMMs。

xGen-MM，即xGen-MultiModal，扩展了Salesforce xGen在基础AI模型上的计划。

我们的模型在各种任务中进行了严格的评估，包括单图和多图基准测试。

我们的预训练基础模型展现出强大的上下文学习能力，而指令微调模型在类似规模的开放源代码LMMs中表现出竞争力。

此外，我们引入了一个使用DPO进行安全微调的模型，旨在减轻如幻觉等有害行为并提高安全性。

我们将我们的模型、精心挑选的大规模数据集以及微调代码库开源，以促进LMM研究的进一步发展。

模型架构

模型架构

LLM: Phi-3-mini
Token Sampler: Perceiver Resampler
Vision Transformer: SigLIP ViT

训练

Pre-training

Pre-training Datasets

Interleaved Dataset Mixture
- MINT-1T
- OBELICS
Caption Dataset Mixture
- BLIP3-KALE
- BLIP3-OCR-200M
- BLIP3-GROUNDING-50M
- Other Public Datasets Mixture
  - Datacomp-1B image-text pairs
  - CC12M
  - CC3M
  - VG
  - SBU

BLIP3-OCR-200M

BLIP3-GROUNDING-50M

Supervised Fine-tuning (SFT)

多模态对话、图像描述、视觉问答、图表/文档理解、科学和数学。除了多模态图像-文本数据外，还混合了纯文本指令数据。共100万个公开可用的指令微调样本。

Interleaved Multi-Image Supervised Fine-tuning

多图/图文交错数据: MANTIS、MMDU
为了防止模型退化，混合了SFT阶段训练数据的子集。

Post-training

Improving Truthfulness by Direct Preference Optimization: VLFeedback
Improving Harmlessness by Safety Fine-tuning: VLGuard

主实验

Pre-training

Few-shot Pretraining Evaluation

Supervised Fine-tuning

Evaluation on single-image benchmarks

Evaluation on multi-image benchmarks

Example model outputs of xGen-MM-instruct-interleave

Post-training

Post-training results

消融实验

Pre-training Ablation

Scaling Pre-training Data

Pre-training Data Recipe

Visual Backbones

Number of Visual Tokens

SFT Ablation

Any-Resolution Vision Token Sampling & Instruction-Aware Vision Token Sampling

The impact of text-only SFT data

总结

我们引入了xGen-MM（BLIP-3），这是一个用于在精心挑选的大型数据集混合体上训练一系列开源大型多模态模型的综合框架。

xGen-MM（BLIP-3）展示了诸如多模态情境学习等新兴能力，并在多模态基准测试中取得了令人印象深刻的成果。

通过开源xGen-MM（BLIP-3）、我们的精选数据集以及我们的SFT微调代码库，我们希望赋予研究社区可访问的多模态基础模型和数据集，使从业者能够进一步探索并提升大型多模态模型（LMMs）的潜力和新兴能力。

http://www.kler.cn/a/372799.html

相关文章：

ARM学习（42）CortexM3/M4 MPU配置

蓝桥杯备考：堆和priority queue（优先级队列）

数据结构与算法之查找: LeetCode 69. x 的平方根 (Ts版)

安全测评主要标准

SiamCAR(2019CVPR)：用于视觉跟踪的Siamese全卷积分类和回归网络

SpringBoot错误码国际化

【Android】Kotlin教程（5）

react基础之redux快速上手环境准备

【Docker知识】Docker进阶-容器镜像深度解读

SQL 高级技巧

BERT的中文问答系统23

使用Virtual Audio Cable捕获系统音频输出并使用Python处理

pc电脑屏幕分辨率尺寸

MetaArena推出《Final Glory》：引领Web3游戏技术新风向

Flutter鸿蒙next 封装对话框详解

实现链式结构的二叉树

C++ 之 VS2010 和MySQL数据库的链接问题

【K8S系列】Kubernetes 中 Service 无法访问及解决方案【已解决】

单片机如何入门？

Android adb命令获取设备id

CentOS 9 Stream 上安装 Visual Studio Code

Go语言八股（Ⅲ）

C#与C++交互开发系列（十四）：C++中STL容器与C#集合传递的形式

lvm故障小贴士

响应报文时间

CPB数据集：由斯坦福大学发布，一个新的视频问题回答任务基准，能够连续且全面处理视频数据