当前位置: 首页 > article >正文

【RAG多模态】再看多模态RAG进行文档问答的方案

先说结论:这篇文章的方法和前面介绍的两个多模态RAG的工作非常相似,可以看看往期介绍:

  • 【RAG&多模态】多模态RAG-ColPali:使用视觉语言模型实现高效的文档检索

  • 【RAG&多模态】多模态RAG-VisRAG:基于视觉的检索增强生成在多模态文档上的应用

M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而,这些方法在实际应用中存在困难,例如问题通常需要跨不同页面或文档的信息,而MLMs无法处理长文档;并且,文档中重要的视觉元素(如图、表等)往往被文本提取工具忽略。

M3DoCRAG和以往方法对比

:文章代码和数据集暂未开源,但都是使用ColPali和qwen2-vl实现,笔者在前面文档也恰好实践了一个简单的RAG-ColPali,供参考:

【多模态&RAG】多模态RAG ColPali实践

方法

  • 文档嵌入:和RAG-ColPali很相似,文档嵌入使用ColPali将所有文档页面转换为RGB图像,并从页面图像中提取视觉嵌入。(ColPali是一种基于后期交互机制的多模态检索模型,它将文本和图像输入编码为统一的向量表示,并检索最相关的图像。其原理可以看看往期对ColPali的介绍《ColPali》)

    M3DOCRAG流程

  • 页面检索:也和RAG-ColPali使用的方法相似,也是使用MaxSim分数计算查询与页面之间的相关性,并检索与文本查询top-K个页面。

  • 答案生成:使用多模态语言模型(MLM)对检索到的页面图像进行视觉问答,以获得最终答案。该方法使用的是qwen2-vl-7b

数据集

M3DocVQA包含3,368个PDF文档,总计41,005页,涵盖开放域和封闭域的DocVQA任务。

M3DocVQA与现有DocVQA数据集对比

M3DocVQA中PDF集合的示意图

实验结果

参考文献

https://arxiv.org/pdf/2411.04952v1


http://www.kler.cn/a/411161.html

相关文章:

  • Redis设计与实现第14章 -- 服务器 总结(命令执行器 serverCron函数 初始化)
  • 103.【C语言】数据结构之TopK问题详细分析
  • 非root用户安装CUDA
  • 【Win】user32.SetWindowsHookExW - Notes
  • 记录一些PostgreSQL操作
  • css效果
  • k8s rainbond centos7/win10 -20241124
  • java:拆箱和装箱,缓存池概念简单介绍
  • 基于springboot的HttpClient、OKhttp、RestTemplate对比
  • intellij idea控制台 visual stadio dev c++ keil pycharm python 输出乱码解决方案最终版 java
  • Springboot自带注解@Scheduled实现定时任务
  • 自动泊车“哐哐撞大墙”,小米SU7智驾功能bug缠身?
  • 组合模式详解及Java实现
  • 【环境搭建】更新Docker Compose到v2.x版本以支持--profile选项
  • HTML 常用标签属性汇总一〈body〉标签
  • Cocos编辑器
  • 【算法一周目】滑动窗口(2)
  • Linux宝塔部署wordpress网站更换服务器IP后无法访问管理后台和打开网站页面显示错乱
  • C语言函数递归经典题型——汉诺塔问题
  • 【博主推荐】C#的winfrom应用中datagridview常见问题及解决方案汇总
  • Qt SQL模块概述
  • 【数据结构实战篇】用C语言实现你的私有队列
  • SpringBoot使用MySQL数据库,配置alibaba druid数据库连接池
  • 力扣 73. 矩阵置零
  • 【vue3实现微信小程序】每日专题与分页跳转的初步实现
  • 微服务篇-深入了解使用 RestTemplate 远程调用、Nacos 注册中心基本原理与使用、OpenFeign 的基本使用