当前位置：首页 > article >正文

General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model

article 2025/4/2 12:23:29

摘要

https://arxiv.org/pdf/2409.01704
传统的OCR系统（OCR-1.0）越来越无法满足人们对智能处理人造光学字符的需求。在本文中，我们将所有人造光学信号（例如，普通文本、数学/分子公式、表格、图表、乐谱，甚至是几何形状）统称为“字符”，并提出了通用OCR理论以及一个优秀的模型，即GOT，以促进OCR-2.0的到来。GOT拥有5.8亿参数，是一个统一的、优雅的、端到端的模型，由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型，GOT可以在各种OCR任务下处理上述所有“字符”。在输入端，模型支持常用的场景和文档样式图像，包括切片和整页风格。在输出端，GOT可以通过简单的提示生成纯文本或格式化结果（markdown/tikz/smiles/kern）。此外，该模型还享有交互式OCR特性，即通过坐标或颜色引导的区域级识别。进一步地，我们还为GOT适应了动态分辨率和多页OCR技术，以提高实用性。在实验中，我们提供了充分的结果来证明我们模型的优越性。
在这里插入图片描述