多模态大模型的基础模块
1. 编码器
1.1 图像编码器
CLIP(Connecting text and images)旨在连接文本和图像,实现零样本学习。它基于大规模的 WebImageText 数据集(包含 4 亿的文本 - 图像对)进行预训练。模型结构主要包括对比预训练、从标签文本创建数据集分类器以及用于零样本预测。
1.2 视频编码器
视频编码器采用 Vision Transformer(ViT)架构,并使用 Openclip 的 ViT - bigG 预训练权重初始化。在处理视频时,首先进行视频抽帧,将抽取的帧缩放至特定分辨率,然后通过卷积操作实现 image patch。接着,对生成的视觉特征序列进行压缩,最后将压缩后的视觉特征序列按顺序与 Text embedding 放在一起进行后续处理。
位置感知视觉 - 语言适配