Qwen2-VL:增强视觉语言模型对世界任意分辨率的感知能力
1、摘要
Qwen2-VL系列是Qwen-VL模型的高级升级版本,它重新定义了传统视觉处理中预设分辨率的方法。Qwen2-VL引入了Naive Dynamic Resolution机制,使模型能够动态处理不同分辨率的图像,并将其转换为不同数量的视觉标记。这种机制使模型能够生成更高效、更准确的视觉表示,更接近人类的感知过程。此外,模型还集成了多模态旋转位置嵌入(M-RoPE),有效融合了文本、图像和视频中的位置信息。Qwen2-VL采用统一的图像和视频处理范式,增强了模型的视觉感知能力。通过扩展模型规模(2B、8B和72B参数)和训练数据量,Qwen2-VL系列在多模态基准测试中取得了极具竞争力的性能,特别是Qwen2-VL-72B模型,在各种多模态基准测试中表现与GPT-4o和Claude3.5Sonnet相当,超越了其他通用模型。
2、引言
大型视觉语言模型(LVLMs)是人工智能领域的重要进展,它们在传统大型语言模型的基础上扩展了对图像、音频和视频等多种数据的处理能力。这些模型通过整合不同形式的数据,更接近人类感知和与环境互动的方式。然而,当前的LVLMs通常受限于固定的图像输入大小,这限制了模型对不同尺度信息的捕捉能力。此外,大多数LVLMs依赖于静态的、冻结的CLIP风格视觉编码器,这引发了对预训练模型生成的视觉表示是否足够的担忧。Qwen2-VL通过引入动态分辨率训练和2D旋转位置嵌入(RoPE)来解决这些问题,进一步增强了模型对不同分辨率的适应能力。
3、方法
Qwen2-VL系列包括三种不同规模的模型:Qwen2-VL-2B、Qwen2-VL-7B和Qwen2-VL-72B。所有模型均采用675M参数的Vision Transformer(ViT)作为视觉编码器,以确保计算负载与LLM的规模无关。以下是Qwen2-VL的关键改进:
3.1、Naive Dynamic Resolution
Qwen2-VL引入了动态分辨率支持,能够处理任意分辨率的图像,并将其动态转换为不同数量的视觉标记。为此,模型移除了ViT中原有的绝对位置嵌入,并引入了2D-RoPE来捕获图像的二维位置信息。在推理阶段,不同分辨率的图像被打包成一个序列,通过简单的MLP层将相邻的2×2标记压缩成一个标记,从而减少视觉标记的数量。
3.2、多模态旋转位置嵌入(M-RoPE)
M-RoPE通过将旋转嵌入分解为时间、高度和宽度三个分量,有效建模多模态输入的位置信息。对于文本输入,这些分量使用相同的位置ID,与1D-RoPE功能等效。对于图像,每个视觉标记的时间ID保持不变,而高度和宽度分量根据标记在图像中的位置分配不同的ID。对于视频,时间ID随每帧递增,高度和宽度分量的ID分配模式与图像相同。
3.3、统一的图像和视频理解
Qwen2-VL采用混合训练方案,同时处理图像和视频数据,确保模型在图像理解和视频理解方面的能力。为了保留尽可能多的视频信息,模型以每秒两帧的频率对视频进行采样,并结合3D卷积处理视频输入,使模型能够处理3D管而不是2D块,从而在不增加序列长度的情况下处理更多视频帧。
4、训练
Qwen2-VL采用三阶段训练方法:
第一阶段:专注于训练Vision Transformer(ViT)组件,使用大量的图像-文本对来增强语义理解。
第二阶段:解冻所有参数,并使用更广泛的数据进行训练,以实现更全面的学习。
第三阶段:锁定ViT参数,仅对LLM进行微调,使用指令数据集进行训练。
模型在预训练阶段接触了约6000亿个标记,包括图像-文本对、OCR数据、图像-文本文章、视觉问答数据集、视频对话和图像知识数据集。数据来源包括清理后的网页、开源数据集和合成数据。预训练阶段主要关注图像-文本关系学习、图像中文本内容识别和图像分类任务。第二阶段预训练引入了额外的8000亿个标记的图像相关数据,进一步提升了模型对视觉和文本信息交互的理解能力。在指令微调阶段,模型使用ChatML格式构建指令跟随数据,包括纯文本对话数据和多模态对话数据。
5、实验
Qwen2-VL在多个视觉基准测试中表现出色,特别是在文档理解任务中。以下是关键的实验结果和分析:
多语言文本识别与理解
Qwen2-VL在多语言OCR方面超越了所有现有的通用LVLMs,包括GPT-4o和Claude 3.5 Sonnet等。模型不仅在公共可用的MTVQA数据集上表现出色,还在内部基准测试中超越了GPT-4o,支持多种欧洲语言、日语、韩语、阿拉伯语、越南语等。
数学推理
Qwen2-VL在MathVista和MathVision数据集上进行了数学推理能力的评估。MathVista包含6141个数学和视觉任务的多样化示例,而MathVision包含3040个嵌入视觉上下文中的数学问题。Qwen2-VL在MathVista上取得了70.5的优异成绩,并在MathVision上设定了新的开源基准,得分为25.9。
视觉定位任务
Qwen2-VL在RefCOCO、RefCOCO+和RefCOCOg数据集上进行了评估,这些数据集专注于科学图表中的文本选择问题。Qwen2-VL在这些任务中取得了顶尖的通用模型结果,尤其是在高分辨率图像细节感知方面表现出色。
视频理解
Qwen2-VL在多个视频理解任务上进行了评估,包括MVBench、PerceptionTest和EgoSchema等。Qwen2-VL-72B在这些基准测试中表现最佳,尤其是在处理长达一小时的视频时,模型展现了强大的能力。
视觉代理能力
Qwen2-VL在功能调用和复杂任务完成方面表现出色。在UI操作、机器人控制、卡牌游戏和视觉语言导航等任务中,Qwen2-VL展现了强大的能力,特别是在需要多步操作的任务中。
7、消融研究
动态分辨率
动态分辨率方法在不同基准测试中表现优于固定分辨率方法,同时平均消耗的标记数量更少。通过调整图像大小,模型在不同分辨率下表现出色,尤其是在InfoVQA、HallusionBench和OCRBench等感知任务中。
M-RoPE
M-RoPE在多种下游任务中表现优于1D-RoPE,尤其是在视频基准测试中。M-RoPE还使模型在推理长度超出训练最大长度时表现出色,即使在训练时限制了最大标记数量,模型在推理时也能处理长达80K标记的视频。
模型规模扩展
随着模型规模的增加,模型在多种能力维度上的表现一致提升,尤其是在数学能力方面。模型在OCR相关任务中表现出色,即使在较小规模的模型中也能取得较好的成绩。
8、结论
Qwen2-VL系列是功能强大的大型视觉语言模型,包括2B、8B和72B参数的模型。Qwen2-VL在多种多模态场景中与GPT-4o和Claude3.5-Sonnet等顶级模型表现相当,超越了其他所有开源的LVLMs。Qwen2-VL引入了动态分辨率和M-RoPE,能够理解超过20分钟的视频,并支持多语言文本理解。Qwen2-VL模型权重已公开,以便研究人员和开发人员在各种应用和研究项目中充分利用其潜力。