General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model
摘要
https://arxiv.org/pdf/2409.01704
传统的OCR系统(OCR-1.0)越来越无法满足人们对智能处理人造光学字符的需求。在本文中,我们将所有人造光学信号(例如,普通文本、数学/分子公式、表格、图表、乐谱,甚至是几何形状)统称为“字符”,并提出了通用OCR理论以及一个优秀的模型,即GOT,以促进OCR-2.0的到来。GOT拥有5.8亿参数,是一个统一的、优雅的、端到端的模型,由高压缩编码器和长上下文解码器组成。作为一个OCR-2.0模型,GOT可以在各种OCR任务下处理上述所有“字符”。在输入端,模型支持常用的场景和文档样式图像,包括切片和整页风格。在输出端,GOT可以通过简单的提示生成纯文本或格式化结果(markdown/tikz/smiles/kern)。此外,该模型还享有交互式OCR特性,即通过坐标或颜色引导的区域级识别。进一步地,我们还为GOT适应了动态分辨率和多页OCR技术,以提高实用性。在实验中,我们提供了充分的结果来证明我们模型的优越性。
1 引言
光学字符识别