当前位置: 首页 > article >正文

Visual CoT:解锁视觉链式思维推理的潜能

引言
随着GPT-4、Gemini等大型语言模型(LLM)取得的显著成就,学术界正致力于将这些模型的卓越能力拓展至视觉理解领域,从而催生了LLaVA、SPHINX、Qwen VL等一系列多模态大型语言模型的涌现。这些模型能够从输入图像中提取视觉特征,但在处理复杂的视觉细节方面仍显力不从心,与人类能够动态聚焦于特定图像区域的能力相去甚远。

尽管CLIP、EVA2-CLIP、InternVL等多模态大型语言模型(MLLM)采用固定粒度的方法来处理图像,但模拟人类的推理过程却要求识别并放大关键图像区域,以便动态地调整上下文信息。目前,MLLM严重依赖文本数据,在处理多回合动态视觉输入和进行可解释推理方面存在明显不足。此外,现有的视觉问答(VQA)数据集缺乏中间视觉思维链(CoT)的监督信息,同时流行的MLLM框架又过度依赖于静态图像上下文输入,这无疑进一步加剧了这一挑战。

在此背景下,Visual CoT应运而生,它引入了一个包含438,000个样本的视觉CoT数据集。在这个数据集中,每个视觉问答对都配有一个边界框(Bounding Box),用以突出显示回答问题所必需的关键图像区域。该数据集还包含了98,000个问答对,这些问答对附带了详细的推理步骤,旨在逻辑地引导MLLM进行推理。Visual CoT通过聚焦于关键区域并提供逐步的可解释性,从而增强了视觉CoT推理的能力。

©️【深蓝AI】编译

论⽂题目:Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning

论文作者:Hao Shao, Shengju Qian, Xiao Han, Guanglu Song, Zhuofan Zong, Letian Wang, Yu Liu, Hongsheng Li

论文地址:https://arxiv.org/abs/2403.16999

多模态推理面临的挑战

MLLM在图像描述、视觉问答(VQA)、目标检测等任务中展现出了卓越的性能,但仍面临以下挑战:

1. 缺乏可解释性:现有模型大多采用黑箱设计,使得其推理过程难以被理解和解释。

2. 复杂视觉输入处理能力不足:在处理高分辨率图像或包含微小细节的区域时,模型往往容易出错或效率低下。

3. 静态处理方式限制了灵活性:大多数模型以固定的粒度处理视觉上下文,忽视了动态聚焦所带来的优势。

4. 链式思维(CoT)的潜力尚未得到充分挖掘:尽管CoT提示已在语言模型的文本推理中取得了显著成效,但在视觉领域的应用仍处于初步探索阶段。

Visual CoT

为了应对上述挑战,Visual CoT提出了以下核心创新点:

1. 全面的数据集

  • 规模宏大:包含438,000个视觉问答对,每个问答对都附有关键区域的边界框标注。
  • 推理步骤详尽:98,000个问答对配备了逐步推理逻辑,为模型提供指导。
  • 领域广泛:涵盖文本/文档、细粒度理解、图表、通用VQA和关系推理五大领域。
  • 目标明确:助力模型精准聚焦相关区域,提升准确性和效率。

▲图1 | 视觉 CoT 数据集涵盖五个领域。©️【深蓝AI】编译 

2. 多轮处理pipeline

Visual CoT通过以下方式实现了动态且人性化的推理

  • 逐步聚焦于关键视觉区域。
  • 整合原始图像与局部图像的信息。
  • 生成可解释的中间推理步骤。

3. 评估基准

Visual CoT基准专注于评估以下能力

  • 动态聚焦能力:识别图像中的关键区域。
  • 推理能力:生成逻辑上连贯且通向正确答案的步骤。
  • 效率:在计算资源和性能之间找到最佳平衡点。

Visual CoT的工作原理

▲图2 | Visual CoT MLLM框架使用标准模型而不做任何修改,是增强具有可视化 CoT 功能的 MLLM 的基准。 ©️【深蓝AI】编译 

▲图3 | 带有详细推理步骤的数据示例。 ©️【深蓝AI】编译 

Visual CoT框架包含以下核心步骤:

  1. 视觉采样器:根据边界框预测结果,识别并裁剪出最相关的图像区域。
  2. 视觉编码器:处理原始图像和局部裁剪后的图像。
  3. 语言模型集成:结合视觉标记和语言推理,生成准确且可解释的答案。
  4. 多轮推理:通过生成边界框和推理步骤,逐步优化关注区域。

训练流程

  • 第一阶段:冻结视觉编码器和语言模型的权重,仅使用图像-文本对进行预训练。
  • 第二阶段:利用Visual CoT数据集进行微调,释放所有参数以达到最佳性能。

实验结果与发现

研究人员针对VisCoT的视觉理解能力,在一系列多样化的多模态任务中进行了全面评估。图4直观地展示了在Visual CoT基准测试中,VisCoT所取得的显著进步。具体而言,与LLaVA-1.5模型相比,所提出的模型在Visual CoT基准上展现出了尤为突出的提升,这一优势在文档/文本处理任务以及涉及高分辨率图像的场景中尤为明显。

▲图4 | Visual CoT在文档理解、细粒度推理和高分辨率图像任务中显著超越了基线模型 ©️【深蓝AI】编译 

以SROIE数据集为例,该数据集专注于从收据中精准提取关键信息。在此场景下,采用所提模型并融入CoT流程的方案,相较于未采用CoT流程的标准处理流程,其性能实现了高达8倍的提升。这一卓越成果有力地验证了Visual CoT在强化视觉与文本信息解析能力方面的非凡效力。

以下呈现的是VisCOT的可视化实例,其中,模型自动生成的边界框以红色标记,代表Ground Truth的边界框以蓝色框标记,直观地显示了VisCOT在精准捕捉并识别那些细小而关键区域方面的卓越效能。

▲图5 | VisCoT 的可视化结果。©️【深蓝AI】编译

应用前景与未来展望

模拟人类推理

Visual CoT模仿人类的认知过程,动态聚焦于相关区域并生成详细的推理步骤。这为以下应用场景带来突破:

  • 医学影像:精准识别扫描中的关键区域。
  • 自动驾驶:动态解读复杂交通场景。
  • 交互系统:提供更具解释力的AI助手。

推动基准发展

Visual CoT数据集和基准为多模态模型的进一步创新设立了新的标杆,将促进以下方向的发展:

  • 细粒度推理能力的提升。
  • 动态多轮注意力的应用。
  • 可解释性AI的实现。

总结

Visual CoT通过引入链式思维推理和动态视觉聚焦机制,显著增强了多模态语言模型的可解释性和性能。它不仅弥合了视觉与语言推理之间的鸿沟,更为下一代高效、可解释的AI系统奠定了坚实的基础。AI的未来在于“看、推理、解释”,而Visual CoT无疑让我们朝着这一目标迈出了坚实的一步。


http://www.kler.cn/a/472726.html

相关文章:

  • python常见绘图及代码
  • leetcode 5. 最长回文子串
  • Qt 界面外观
  • 课题推荐——基于GPS的无人机自主着陆系统设计
  • 快速入门Spring Cloud Alibaba,轻松玩转微服务
  • 设计模式 行为型 命令模式(Command Pattern)与 常见技术框架应用 解析
  • nginx 日志规范化意义及实现!
  • 【江协STM32】10-2/3 MPU6050简介、软件I2C读写MPU6050
  • PHP MySQL 读取数据
  • canal同步es,sql注意事项
  • WJsoft-D-Security数据仿泄露系统(DLP)存在任意文件读取漏洞
  • Linux存储管理之核心秘密(The Core Secret of Linux Storage Management)
  • ios越狱脚本巨魔商店安装教程
  • 【Java 学习】对象赋值的艺术:Java中clone方法的浅拷贝与深拷贝解析,教你如何在Java中实现完美复制
  • 【超详细】MIT 液态神经网络(LNNs)——深度学习新动向
  • ubuntu18升级至ubuntu20
  • wps宏js接入AI功能和接入翻译功能
  • Aviatrix Controller 未授权命令注入漏洞复现(CVE-2024-50603)
  • JAVA XXE 学习总结
  • C 语言奇幻之旅 - 第16篇:C 语言项目实战
  • 安装 华三云实验室 H3C Cloud Lab
  • Android Studio 安装配置(个人笔记)
  • 【杂记】机器视觉 #opencv #numpy #matplotlib
  • 自闭症家庭:建立支持系统与平衡生活
  • QML学习(九) Qt Quick - Control2中的主要组件:Label组件和Button组件的属性和使用方法
  • 机器学习模型评估指标