当前位置: 首页 > article >正文

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

摘要

https://arxiv.org/pdf/2409.01704
传统的OCR系统(OCR-1.0)越来越无法满足人们对智能处理人造光学字符的需求。在本文中,我们将所有人造光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT拥有5.8亿参数,是一个统一的、优雅的、端到端的模型,由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型,GOT可以在各种OCR任务下处理上述所有“字符”。在输入端,模型支持常用的场景和文档样式图像,包括切片和整页风格。在输出端,GOT可以通过简单的提示生成纯文本或格式化结果(markdown/tikz/smiles/kern)。此外,该模型还享有交互式OCR特性,即通过坐标或颜色引导的区域级识别。进一步地,我们还为GOT适应了动态分辨率和多页OCR技术,以提高实用性。在实验中,我们提供了充分的结果来证明我们模型的优越性。
在这里插入图片描述

1 引言

光学字符识别


http://www.kler.cn/a/311015.html

相关文章:

  • git初始化和更新项目中的子模块
  • DHCP与DNS安全管理
  • 云计算:定义、类型及对企业的影响
  • 满200减30,怎么样用python计算凑单正好满足要求呢?
  • Kafka 快速入门(一)
  • 客户手机号收集小程序有什么用
  • 用 ReactPHP 实现图片上传加速:让并发上传实现真正的高效
  • 软件测试工程师面试整理-操作系统与网络基础
  • 人工智能——猴子摘香蕉问题
  • centos中yum方式部署Jenkins
  • 【Linux取经之路】编译器gcc/g++的使用 调试器gdb的使用
  • OceanBase 运维管理工具 OCP 4.x 升级:聚焦高可用、易用性及可观测性
  • Vscode搭配latex简易教程
  • file的判断和获取,创建和删除
  • C++使用Socket编程实现一个简单的HTTP服务器
  • 掌握MySQL性能监控 · performance_schema 使用快速入门
  • Linux_bash的一些特殊符号
  • 聚观早报 | 极越07正式上市;宝骏云海正式上市
  • Laya2.x出包alipay小游戏
  • Java后端框架---Spring
  • 每日一问:C++ 如何实现继承、封装和多态
  • 随着访问范围的扩大 OpenAI o1-mini 现已向免费用户开放
  • 大模型训练数据库Common Crawl
  • MySQL常用的函数
  • 函数的定义与使用
  • 【Hot100】LeetCode—169. 多数元素