当前位置：首页 > article >正文

OCR两篇革命之作

article 2024/11/11 5:36:53

DocOwl2

参考阿里8B模型拿下多页文档理解新SOTA，324个视觉token表示一页，缩减80%

mPLUG-DocOwl 2聚焦多页文档理解，兼顾效果和效率，在大幅缩减单页视觉token的前提下实现了多页文档理解的SOTA效果。

仅用324个token表示文档图片也能还原出图片的文字信息和布局信息，验证了当下多模态大模型几千的文档图片视觉表征存在较大的token冗余和资源的浪费。

mPLUG团队会持续优化DocOwl并进行开源，同时希望DocOwl 2能抛砖引玉，让更多的研究人员关注到多模态大模型对于高清文档图片的冗余编码问题，欢迎大家持续关注和友好讨论！

论文:
https://arxiv.org/abs/2409.03420

代码:
https://github.com/X-PLUG/mPLUG-DocOwl

在 OCR-free文档理解领域，例如mPLUG-DocOwl2模型所使用的方式，旨在通过直接使用多模态大型语言模型（MLLMs）来理解文档图像，从而绕过传统的OCR步骤。这种方法与先应用OCR提取文本，然后执行问答形成对比。

以下是为什么无OCR文档理解可以优于两步骤OCR然后QA过程的原因：

效率：OCR引入了额外的步骤，例如文本提取和格式化，这可能会减慢过程。像DocOwl2这样的模型直接使用文档的原始视觉特征，将其压缩为同时保留布局和文本的标记，从而降低单独OCR过程的开销。

上下文保留：OCR可能在保持文档布局和结构方面遇到困难，特别是在具有表格、图表或多列等混合内容的复杂文档中。无OCR方法处理整个文档图像，保持视觉和布局上下文，这对理解内容的语义含义至关重要。

标记效率：在像DocOwl2这样的无OCR方法中，视觉标记用于表示文档特征，这些模型经过优化以处理更少的标记同时保留重要的文档信息。这降低了内存使用量并加快了推理时间，使多页文档处理更加可行。

更适合复杂文档：OCR在处理手写文本、质量不佳的扫描或包含许多图表等视觉元素的文档时可能失败。OCR-free方法通过视觉语言建模处理文档，绕过这些挑战，从而在此类文档上提高了问答准确性。

通过直接关注多页和多图像理解而不是通过OCR，像DocOwl2这样的模型在减少计算需求并提高处理视觉复杂文档的能力的同时，实现了最先进的性能。

GOT OCR

参考一个端到端的 OCR 模型，炸裂开源！

项目地址: https://github.com/Ucas-HaoranWei/GOT-OCR2.0

模型下载: https://huggingface.co/ucaslcl/GOT-OCR2_0

GOT-OCR 2.0 是一款革命性的端到端通用 OCR 模型，它能够识别和提取文本，还能处理数学公式、分子式、图表、乐谱、几何图形等多种内容，极大地拓宽了 OCR 技术的应用范围。

🚀 项目特点

① 多语言、多模态识别：GOT-OCR 2.0 支持多种语言和模态的文本识别，无论是印刷体还是手写体，都能准确识别。

② 多样化输入输出：支持照片、文档、切片等多种输入格式，输出格式包括纯文本、Markdown、TikZ、SMILES、Kern 等，满足不同场景的需求。

③ 长文本处理能力：解码器支持 8K 最大长度的 token，能够处理长文本场景，适用于学术论文、法律文件等长文本资料。

④ 高级功能：包括交互式 OCR 功能、动态分辨率策略、多页 OCR 技术支持，提供更加灵活和高效的 OCR 解决方案。

OCR 识别效果
公式：
在这里插入图片描述
大段文字：

提取文字：

提取某一坐标的文字：
在这里插入图片描述
论文：

查看全文

http://www.kler.cn/a/312937.html

在Oracle数据中更新整个对象和更新对象的某几个字段时，他们的锁是相同的吗

python机器人Agent编程——实现一个本地大模型和爬虫结合的手机号归属地天气查询Agent

基于python的天气数据采集与可视化分析，对20个城市的天气适宜出行度分析

网站架构知识之Ansible模块（day021）

深度学习经典模型之ZFNet

如何运营Github Org

C#区分值类型和引用类型【一文读懂】

第十三周：机器学习笔记

【开发语言】写程序的两大基本原则（PO和NT原则）

three.js 热力图

Android Perfetto 学习

聚焦于 Web 性能指标 TTI

2024新动态：低代码开发占领新常态市场

ImportError: DLL load failed while importing _ssl: 找不到指定的模块的解决方法

man 命令：查看命令的帮助信息

【学习资料】袋中共36个球，红白黑格12个，问能一次抽到3个红4个白5个黑的概率是多少？

封装一个录音声音振动效果的组件

foc原理odrive驱动板的使用，以及功能介绍

基于TRIZ的救援机器人轻量化设计

搜索引擎onesearch3实现解释和升级到Elasticsearch v8系列(一)-概述

翻唱技巧：AU和Cubase翻唱录制对轨技巧

Linux 系统进程理解——标识符，状态

uniapp中使用echarts 完整步骤，包括报错以及解决方案

实验一：Windows下的IIS服务器配置和管理

50页PPT麦肯锡精益运营转型五步法

考研报名确认上传身份证户口本学历证明照片如何压缩裁剪

DocOwl2

GOT OCR

相关文章：