当前位置: 首页 > article >正文

多模态大模型(MLLM)中的Connector

背景

  Connector是经典的MLLM最重要的模块之一,它的作用是负责将其他模态的特征投影到文本特征空间,并与文本特征一起输入给LLM。常用的投影器包括线性投影器、MLP、感知重采样等。
在这里插入图片描述
  Connector是MLLM中的重要结构,作用是将Modality Encoder产生的特征映射到语言模型(LLM)可以理解的空间。它确保了不同模态信息可以被整合并传递给LLM进行处理。

类别

Q-Former

  Q-Former的首次提出是在2023年6月的BLIP-2,这是一种轻量化的Querying Transformer(Q-Former)来弥补模态之间的差异,大大降低了可训练参数量,并采用两阶段来训练它:第一阶段采用通过冻结的图像编码器来学习图像-文本表征能力,第二阶段采用冻结的LLM学习图像到文本的生成能力。
在这里插入图片描述  在最新的工作中,Q-Former已经逐渐被淘汰了,原因主要是Q-Former参数量(100+M)相对于Linear/MLP等更大,收敛更慢,在数据量和计算量都充足的前提下,Q-Former也没有展现出明显的性能收益。

Linear Projector

  Linear Projector(线性投影器)首次被引入 MLLM 是2023年4月发布的LLaVA1.0,论文中提出了一种更简单的投影方法,通过线性变换将Modality Encoder编码的特征映射到LLM的表示空间中。
在这里插入图片描述
  Linear Projector结构比较简单,比Q-Former简单的多,非常易于实现和训练,但是效果上却一点也不弱于Q-Former。

Multi-Layer Perception

  多层感知机(Multi-Layer Perception, MLP)首次被引入 MLLM 是在2023年10月发布的LLaVA1.5,LLaVA1.5 在对比LLaVA1.0结构上,将视觉特征从线性映射(单个神经元),改进为多层感知机(MLP)。
在这里插入图片描述
  多层感知器由多层线性变换和非线性激活函数组成,能够捕捉输入数据的复杂非线性关系。特点是能够表示和捕捉复杂的非线性关系,通过多层结构逐步提取特征,表示数据更好。最近MLP结构成为了的MLLM中模态对齐的主流结构,MLP用最简洁的结构在效果上碾压其他一众复杂结构,并且具有更快的收敛速度,对数据量的依赖也少。

Perceiver Resampler

  感知重采样技术(Perceiver Resampler)首次被引入MLLM是2022年4月DeepMind在论文 Flamingo 中提出的,Flamingo采用了感知重采样(Perceiver Resampler)技术和门控交叉注意力技术(Gated Cross-Attention)进行视觉多模态信息和LLM的融合。
在这里插入图片描述
  总的来说,Q-Former参数量大,训练的成本较高,需要更多的数据,且目前看来尽管使用更多数据,性能上与MLP相比也没有优势。Linear Projector:简单高效,适用于计算资源有限的场景,但是效果上不如MLP。Perceiver Resampler在多模态信息融合中表现出色,尤其适用于需要跨模态交互的任务,resampler降低tokens后,在高分辨率、多图、视频的训练上都会降低很多成本。


http://www.kler.cn/news/368894.html

相关文章:

  • 什么是Java策略模式?与Spring的完美结合
  • iOS静态库(.a)及资源文件的生成与使用详解(OC版本)
  • 对角双差速轮AGV平移、直行、转弯、原地旋转案例
  • 【NodeJS】NodeJS+mongoDB在线版开发简单RestfulAPI (八):API说明(暂时完结,后续考虑将在线版mongoDB变为本地版)
  • gateway 整合 spring security oauth2
  • WPF+Mvvm案例实战(五)- 自定义雷达图实现
  • 机器学习与金融风控项目篇-day04-卡方分箱案例与模型的可解释性
  • 使用SQL在PostGIS中创建各种空间数据
  • 极狐GitLab 17.5 发布 20+ 与 DevSecOps 相关的功能【二】
  • ArcGIS计算多个面要素范围内栅格数据各数值的面积
  • NLP自然语言处理中的Attention机制原理揭秘
  • 创新业态下金融头部机构在 FICC 平台建设上的思考与实践
  • Python实现贝叶斯优化器(Bayes_opt)优化简单循环神经网络回归模型(SimpleRNN回归算法)项目实战
  • 秦时明月2搭建笔记
  • Isaac Sim Docker 部署并使用过程记录
  • 《战场车辆及部件损毁识别与评估的神经网络迁移训练》
  • Clickhouse笔记(二) 集群搭建
  • 【Golang】Go语言中如何进行包管理
  • 新品发布:Manus Metagloves Pro虚拟现实手套
  • 蓝桥杯 单片机 DS1302和DS18B20
  • 大数据Azkaban(二):Azkaban简单介绍
  • 【随便聊聊】MySQL数据类型详解:从基础到高级应用
  • 新华三H3CNE网络工程师认证—OSPF路由协议
  • NLP实践项目1——判断推文的负面情绪
  • C++的 / 运算符
  • 如何构建一个支持GPU的Llamafile容器