当前位置：首页 > article >正文

CV-OCR经典论文解读|An Empirical Study of Scaling Law for OCR/OCR 缩放定律的实证研究

article 2025/4/2 10:13:36

论文标题

An Empirical Study of Scaling Law for OCR

OCR 缩放定律的实证研究

论文链接：

An Empirical Study of Scaling Law for OCR论文下载

论文作者

Miao Rang, Zhenni Bi, Chuanjian Liu, Yunhe Wang, Kai Han

内容简介

本论文在光学字符识别（OCR）领域首次系统性地研究了模型规模、数据量、计算量与模型性能之间的扩展规律（Scaling Law）。研究团队构建了大规模数据集REBU-Syn，并基于此数据集和发现的扩展规律，训练了一个场景文本识别模型，该模型在多个测试基准上达到了业界领先的准确率。

方法详解

1.模型规模与性能关系

实验设计：研究者选择了基于Transformer的模型，包括TrOCR和PARSeq，并在不同的模型规模下进行了实验，参数数量从50M到1B不等。
幂律关系：实验结果表明，模型性能与模型规模之间存在平滑的幂律关系，即模型性能随着模型规模的增加而提高。

2.数据量与性能关系

数据集构建：研究者创建了REBU-Syn数据集，包含600万真实样本和1800万合成样本。
实验分析：通过改变训练数据量，研究者发现数据量与模型性能之间也遵循幂律关系，即增加数据量可以提升模型性能。

3.计算量与性能关系

计算资源分析：研究者探讨了模型训练的计算量（以训练小时数计）与模型性能之间的关系，并发现它们之间也符合幂律分布。

4.数据来源比例

真实与合成数据的平衡：研究指出，模型训练中真实数据与合成数据的比例对性能有显著影响，提出了1:3的合成数据与真实数据比例为最佳。

5.预训练模型的有效性

特定任务预训练：研究比较了在OCR相关数据上预训练的模型与在一般图像数据上预训练的模型，发现特定于OCR任务的预训练模型在OCR任务上表现更优。

6.大规模数据集REBU-Syn

数据集构成：REBU-Syn数据集结合了真实世界数据和合成数据，提供了丰富的样本以支持大规模模型训练。
数据集影响：该数据集对模型训练和性能提升起到了关键作用。

7.实验设置和评估指标

超参数调整：研究者根据模型的不同调整了训练周期和学习率。
评估指标：使用单词准确率作为主要评估指标，确保了评估的公平性。

结果与讨论

幂律关系的确立：研究确立了OCR领域中模型规模、数据量和计算量与模型性能之间的幂律关系。
模型训练原则：发现大规模模型更有效利用样本，特定任务预训练模型更有效，以及数据来源比例对模型性能有显著影响。
性能提升：基于上述原则，研究者训练的模型在多个测试基准上达到了97.42%的新最高准确率。
成本与效益：虽然大规模模型性能更好，但其训练成本也更高，因此需要仔细选择超参数以优化性能。
未来方向：研究者提出未来将探索在更具挑战性的数据集上应用扩展规律，如手写文本和历史文献。

本论文的研究不仅为OCR领域提供了宝贵的见解，也为未来模型设计和训练提供了指导性原则。-

CV-OCR必读论文合集：

CV-OCR必读论文合集

希望这些论文能帮到你！如果觉得有用，记得点赞关注哦~ 后续还会更新更多论文合集！！

查看全文

http://www.kler.cn/a/448414.html

边缘智能网关助力打造建筑智慧消防物联网

【CSS】line-height: 120% 和 line-height: 1.2有什么区别？

python面试篇-多并发详解（多线程，多进程，协成整理）---一篇搞定

南京观海微电子----单片机的中断系统

使用JavaScript获取商品详情接口：一个实用的指南

GO--堆（have TODO）

outlook smtp 发送邮件

Android-Glide缓存机制

Zookeeper 底层原理解析

大小端存储的问题

mysql-主从同步与读写分离

机器学习之归纳学习

【Mybatis-Plus】使用步骤条件构造器分页模型

Flink 简介和简单的demo

Linux -- 线程控制相关的函数

判断实例化或推断的时机

东方财富股吧发帖与评论爬虫

【多维DP】力扣3122. 使矩阵满足条件的最少操作次数

CTF知识集-文件上传

联合物种分布模型（JSDM）与Hmsc包：群落生态学数据分析与预测技术