当前位置: 首页 > article >正文

Docmatix:突破性的文档视觉问答数据集

Docmatix:突破性的文档视觉问答数据集

1. 数据集概述

1.1 规模与创新

  • 数据规模
    • 240万张图像
    • 950万个问答对
    • 来自130万份PDF文档
    • 较现有数据集扩大240倍
  • 应用领域:文档视觉问答(DocVQA)
  • 可访问性:通过HuggingFace平台开放获取

2. 技术实现流程

2.1 数据获取与预处理

  • OCR处理
    • 使用PDFA OCR数据集
    • 基础数据包含210万份PDF文档
    • 进行文本转录处理
  • 图像转换
    • PDF文档转图像
    • 统一分辨率:150 dpi
    • 每个PDF文档对应一行数据

2.2 问答对生成

  • 核心模型:采用Phi-3-small模型
  • 生成策略
    • 基于文档转录内容生成问答
    • 平均每页生成4对问答
    • 强调问题多样性
  • 质量控制
    • 剔除15%被识别为幻觉的问答对
    • 确保答案的人性化特质
    • 最小化问题重复率

3. 优化与改进

3.1 提示工程优化

  • 目标导向
    • 引导模型基于文档具体信息提问
    • 确保问题的独特性
    • 减少问题重复现象
  • 质量保证
    • 优化问答生成的提示模板
    • 保持答案的自然流畅性
    • 维持问题的多样化特征

4. 性能评估与实验

4.1 实验设置

  • 评估模型:Florence-2模型
  • 对比实验方案
    • 基准组:仅使用DocVQA数据集训练
    • 实验组:Docmatix预训练(20%图像+4%问答对) + DocVQA微调

4.2 实验结果

  • 性能提升
    • 使用Docmatix预训练后性能提升约20%
  • 模型对比
    • 0.7B参数Florence-2模型
    • 8B参数Idefics2模型
    • 性能差距仅5%,但模型体积显著减小

5. 重要意义

  • 规模突破:建立了目前最大规模的DocVQA数据集
  • 效率提升:即使使用较小比例的数据也能获得显著性能提升
  • 模型优化:证明了小型模型在适当训练后可以接近大型模型的性能

http://www.kler.cn/a/457282.html

相关文章:

  • 深入浅出 Spring (二)| 依赖注入(DI)、自动装配
  • vue3 + element-ui + vue router的使用教程 基于HBuilderX
  • jetbrain 安装 copilot
  • Unity-Mirror网络框架-从入门到精通之Basic示例
  • 树莓派OpenWrt下怎么驱动带USB的摄像头
  • LockSupport的源码实现原理(一)
  • 从头开始学SpringMVC—01MVC介绍和入门案例
  • ​Python数据序列化模块pickle使用
  • 如何快速又安全的实现端口转发【Windows MAC linux通用】
  • yolov8算法及其改进
  • Golang的文件加密工具
  • Word批量更改题注
  • Pytorch | 利用DTA针对CIFAR10上的ResNet分类器进行对抗攻击
  • 问题-01
  • 学习C++:数据类型
  • Jmeter录制https请求
  • 在asp.net webapi项目中 将数据库连接字符串写在配置文件中,及Program配置Serilog存放路径以及设置
  • JavaWeb期末复习
  • Wordly Wise 3000 国际背单词01 介绍 + 测词汇量
  • 【Beats01】企业级日志分析系统ELK之Metricbeat与Heartbeat 监控
  • Python 占位符详细笔记
  • C语言的数据结构
  • vue3 video 播放rtmp视频?(360浏览器支持)
  • mysql系列7—Innodb的redolog
  • 分布式版本管理工具——git中分支的相关知识
  • Webpack在Vue CLI中的应用