【手写公式识别】MEMix: Improving HMER with Diverse Formula Structure Augmentation 论文阅读
发表于:ICME 2024
原文链接:https://ieeexplore.ieee.org/document/10687521
源码:无
Abstract
手写数学表达式识别(HMER)旨在将数学表达式(MEs)的图像转换为相应的LaTeX序列。然而,二维公式结构的内在复杂性与一维LaTeX序列常常不对齐,导致识别模型的鲁棒性下降。加剧这一问题的主要因素是带有复杂结构的标注ME图像的稀缺,这阻碍了模型学习良好的表示和对MEs的适应性。在本文中,受Mixup启发,我们引入了一种称为数学表达式混合(MEMix)的数据增强方法。该方法能够通过简单的矩阵操作生成公式中的典型结构,包括根号、分数和注释。与其他数据增强方法相比,MEMix提供了更快且更具成本效益的计算,实现了在线增强,从而提高了训练效率。实验表明,MEMix显著提升了基准模型在基准数据集上的性能。
I. INTRODUCTION
手写数学表达式识别(HMER)促进了数学表达式的理解和文档数字化,广泛应用于办公自动化和智能教育系统中。近年来,随着深度神经网络的进步,HMER研究迅速发展,并持续取得令人瞩目的成果。尽管HMER取得了进展,但由于手写公式风格的多样性和复杂性,包括不同的书写风格和复杂的二维符号关系,仍然存在显著挑战。这些挑战源于高质量、多样化手写公式标注数据的稀缺,限制了深度神经网络的性能。
当前的HMER数据增强方法通常涉及仿射变换,包括局部和全局扭曲,以增强数据集的多样性,如图1(b)所示。最近的研究,例如Le等人[1]的工作,探索了将扭曲模型与数学表达式分解相结合,以进一步丰富数据集。Li等人[2]开发了一种更简单且更高效的方法,称为尺度增强,如图1©所示。该方法通过使用不同的缩放因子对原始样本进行缩放,同时保持其纵横比。这种方法有效解决了HMER中的尺度不一致问题,有助于在不同尺度下提取关键数学表达式(ME)特征。许多HMER领域的著名研究,如CAN[3]和SAN[4],已成功采用尺度增强,显著提升了HMER的性能。
前面提到的涉及形状和尺度变化的方法有助于HMER模型提高识别性能。然而,这些方法的有效性在很大程度上取决于原始数据集的多样性。当前的研究[4]–[7]主要集中在增强HMER模型对公式符号之间位置关系和长距离依赖关系的理解能力。基于此,需要一种能够有效增强训练样本结构多样性的数据增强方法。受Mixup[8]的有效性和灵活性的启发,我们提出了一种称为MEMix的数据增强方法,该方法将多个手写公式图像与运算符或结构标记图像进行混合。通过MEMix增强的样本如图1(d)所示。与仿射变换和尺度增强不同,MEMix可以从单个样本生成所有常见的公式结构,包括嵌套结构。运算符图像(如×、÷)来源于打印的公式图像。结构标记图像仅需要根号和分数线,同样来源于打印图像。新样本的真实标签是基于混合过程中使用的运算符或结构标记创建的。MEMix通过生成具有各种结构的数学表达式图像,使识别模型能够更好地理解符号位置关系,从而增强了模型的有效性和鲁棒性。
本文的主要贡献可以总结如下:
- 我们提出了MEMix,一种简单且有效的HMER在线数据增强方法,旨在通过将公式图像与运算符和结构标记图像混合来丰富训练样本的结构多样性。
- 通过简单的矩阵操作实现,MEMix促进了在线增强并减少了存储需求。
- MEMix集成了各种数学结构和运算符,显著增强了HMER模型理解公式符号之间位置关系和长距离依赖关系的能力。实验证明了MEMix的优越性。
II. RELATED WORK
A. HMER
起源于20世纪80年代[9]的传统HMER方法主要包括基于语法规则和模板的方法[10][11],以及基于概率统计的方法[12][13]。然而,这些方法在处理复杂多样的数学公式结构时表现出局限性。
深度神经网络的进步促使HMER采用了编码器-解码器框架[14]。Deng等人[15]率先将该框架应用于HMER。Zhang等人[16][17]通过引入覆盖注意力机制[18]和DenseNet[19],进一步增强了识别模型处理复杂数学公式的能力。Bian等人[7]开发了一种双向互学习网络ABM,通过整合多方向的注意力机制提高了识别精度。Yuan等人[4]创新性地将语法信息集成到编码器-解码器网络中,利用语法规则转换LaTeX标签序列以增强结构预测的准确性。Li等人[3]将符号计数引入HMER,提出了一种弱监督计数模块,以准确预测每个符号类别的数量,从而纠正注意力机制中的错误。
B. Data Augmentation
在HMER领域,Le等人[1]设计了一种模式生成策略,用于生成具有不同形状和结构的样本,旨在提高在有限数据集上训练的HMER系统的性能。此外,Li等人[2]提出的尺度增强方法显著增强了模型处理不同尺度数学公式图像的能力。
目前,在各种计算机视觉任务中,Mixup[8]及其衍生方法[20][21]正得到广泛应用。具体来说,Mixup将两张图像中的元素进行混合,而CutMix[20]则用另一张图像的部分替换原图像的部分。AugMix[21]在随机增强后将多张图像合并,为训练模型提供更多样化的样本。这些技术启发了我们在HMER领域的探索,尝试通过混合多个训练样本进行数据增强,从而创建了MEMix。
III. PROPOSED METHOD
HMER是一种图像到序列的转换任务。与文本行不同,公式行可能具有复杂的二维结构,分数就是一个典型例子。在图像中,分数的分子和分母分别位于分数线的上方和下方。然而,在其LaTeX表示“\frac{·}{·}”中,元素是从左到右排列的。这种视觉输入与其文本表示之间的结构不匹配对识别模型构成了挑战。此外,LaTeX语法表现出长距离依赖性,由“{”和“}”对表示,这些符号在特殊结构中表示子序列,但在图像中不可见。如果包含的序列太长,预测可能会遗漏闭合的“}”。为了提高识别模型对数学公式图像中二维结构关系和长距离依赖性的理解,我们提出了数据增强方法MEMix。
我们提出的增强方法将运算符或公式结构标记的图像与随机选择的真实样本混合,以生成具有多样结构的样本。本文重点关注数学公式中的常见结构,包括简单结构表达式、分数、根号和注释。简单结构表达式是指所有可见符号的中心点位于同一水平线上的数学公式。注释分为上标和下标。运算符和公式结构标记的图像来源于其打印模板,确保易于获取。
MEMix首先随机确定新样本的结构
S
S
S,然后根据所选结构决定需要混合的样本数量。接着,根据所选结构决定合并所需的样本数量。设
m
∈
R
H
×
W
m ∈ \mathbb{R}^{H×W}
m∈RH×W和l分别表示训练集
M
M
M中的一个样本及其对应的LaTeX标签序列。当前输入图像和从
M
M
M中随机选择的图像分别表示为
m
i
n
p
u
t
∈
R
H
i
×
W
i
m_{input} ∈ \mathbb{R}^{H_i×W_i}
minput∈RHi×Wi和
m
r
a
n
d
o
m
∈
R
H
r
×
W
r
m_{random} ∈ \mathbb{R}^{H_r×W_r}
mrandom∈RHr×Wr。MEMix可以多次迭代,结合各种训练样本以生成越来越复杂的公式图像。每种公式结构的生成过程如图2所示。
A. Simple Formula Generation
对于生成简单结构公式图像,需要额外的运算符图像,如加、减、乘、除,以连接两个不同的真实样本。生成具有简单结构的新样本的过程定义如下:
其中, i o p ∈ R H o p × W o p i_{op} ∈ \mathbb{R}^{H^{op}×W^{op}} iop∈RHop×Wop表示从运算符集I中随机选择的运算符图像,lop是其对应的标签。需要注意的是,我们对minput、iop和mrandom在高度上应用零填充,以便能够沿宽度方向进行连接。
B. Fraction Formula Generation
这个结构可以看作是两个公式图像分别放置在分数线的上方和下方。由于混合样本的宽度可能不同,分数线图像的宽度需要调整以与最宽的公式图像相匹配。分数线可以通过图像缩放轻松调整。我们将生成带有分数结构的新样本的过程定义如下:
其中, i f ∈ R H f × W f i_f ∈ \mathbb{R}^{H_f×W_f} if∈RHf×Wf 表示分数线图像。同样,我们需要对宽度最短的公式图像应用宽度上的零填充,以便它们可以沿高度方向进行拼接。
C. Radical Formula Generation
生成根式结构公式仅需要输入图像 m i n p u t m_{input} minput 和根号图像 i s ∈ R H s × W s i_s ∈ \mathbb{R}^{H_s×W_s} is∈RHs×Ws。关键之处在于调整根号线的尺寸以匹配公式图像的尺寸。为了生成根号线,我们只需复制根号图像的最右侧像素列,直到其宽度与公式图像的宽度对齐。生成根式结构样本的过程定义如下:
其中,
r
e
p
l
(
m
,
k
)
repl(m, k)
repl(m,k) 表示通过沿宽度方向复制矩阵
m
m
m 共
k
k
k 次形成的矩阵。该过程首先将根号图像缩放到与输入公式图像相同的高度。然后,将根号图像的最右侧像素列复制
W
i
W_i
Wi 次,并将其叠加到输入图像
m
i
n
p
u
t
m_{input}
minput 上。最后,将图像拼接以生成具有根式结构的新样本。
D. Annotation Formula
为了生成带有标注结构的公式,输入图像 m i n p u t m_{input} minput 作为基础,随机选择的图像 m r a n d o m m_{random} mrandom 作为其上标或下标。生成算法的关键步骤是计算 m i n p u t m_{input} minput 和 m r a n d o m m_{random} mrandom 在新样本中的左上角像素坐标。此外,标注中的公式图像应小于基础图像,上标位于右上角,下标位于右下角。为了实现这一点,我们首先将 m r a n d o m m_{random} mrandom 缩放 0.7 倍。然后,使用 m i n p u t m_{input} minput 的水平中心线作为边界来区分上标和下标的区域。接着,定义新样本图像 m a n n m_{ann} mann 的尺寸为 ( H i + 0.7 H r / 2 ) × ( W i + 0.7 W r ) (H_i + 0.7H_r/2) × (W_i + 0.7W_r) (Hi+0.7Hr/2)×(Wi+0.7Wr)。 m i n p u t m_{input} minput 和 m r a n d o m m_{random} mrandom 的左上角像素坐标 P 通过以下公式计算:
新样本标签定义为:
VI. EXPERIMENTALS
A. Datasets and Metrics
CROHME 数据集 [22] 是手写数学公式识别(HMER)领域中广泛使用的资源,包含 109 类数学符号。训练集来源于 CROHME 2014 [22],共包含 8,835 个手写数学表达式。为了评估我们提出方法的有效性,我们使用了来自 CROHME 2014、CROHME 2016 [23] 和 CROHME 2019 [24] 的三个测试数据集,分别包含 986、1147 和 1199 个手写数学表达式样本。如图 3(a) 所示,该数据集中的 ME 图像是由手写笔划轨迹转换而来,且图像中明显没有图像噪声。
HME100K 数据集 [4] 是目前最大的手写数学表达式数据集,包含 245 类数学符号。该数据集的训练集包含 74,502 张图像,测试集包含 24,607 张图像。如图 3(b) 所示,该数据集中的数学公式图像来源于真实场景,呈现出在颜色、模糊度、复杂背景和畸变等方面的变化,图像中具有更多真实且复杂的噪声。
为了评估模型性能,我们使用表达式识别率(ExpRate)作为主要指标。ExpRate 用于评估模型识别数学表达式的准确性,只有当模型识别的表达式与真实表达式完全匹配时,才认为识别是正确的。ExpRate 的计算可以描述为在所有样本中,完全且正确识别的样本所占的百分比。此外,我们使用“≤ 1 错误”和“≤ 2 错误”来表示在表达式识别中,分别允许最多一个或两个符号级别的错误。
B. Implementation Details
为了评估MEMix的有效性,我们将其与以下两种常用的增强方法进行了比较:
-
Affine Transformations:计算机视觉中的一种基本数据增强方法。在本文中,我们采用了六种类型的仿射变换:垂直剪切、水平剪切、垂直缩放、水平缩放、旋转和平移。在训练阶段,每个样本通过随机选择并组合最多五种变换进行增强,从而提高数据增强过程的有效性。增强后的样本被缩放到 128 像素的高度,同时保持纵横比不变。
-
Scale Augmentation:Li 等人 [2] 提出的增强方法旨在通过随机样本缩放帮助模型理解公式图像的复杂二维结构。为了实现这一方法,我们从范围 [0.5, 2] 中随机选择缩放因子,在缩放训练样本时保持纵横比不变。缩放后,我们应用零填充将样本调整到统一的高度为 128 像素,从而确保样本大小的一致性。
我们使用 DWAP [17] 作为识别器,该模型在 PyTorch 中实现,并在第 4.1 节提到的数据集上进行训练。在训练阶段,我们采用 Adadelta 优化器 [25],将权重衰减设置为 10^−4, 设置为 10^−6。模型通过 600,000 次迭代进行训练,以确保模型收敛。为了更好地估计每种增强方法的平均结果和方差,我们对每个实验进行了三次重复。所有实验均在配备 NVIDIA Tesla V100 32GB GPU 的机器上进行,批次大小设置为 8。此外,MEMix 在训练阶段随机进行 0-2 次样本混合,并将生成的样本缩放到 128 像素的高度。
C. Comparative Analysis of Augmentation Methods
我们评估了不同数据增强方法对 HMER 模型训练的影响,使用来自 CROHME 的三个测试数据集,并将其与没有数据增强的基准模型进行比较。如表 I 所示,我们提出的 MEMix 在所有 CROHME 测试数据集上均超过了其他数据增强方法,证明了其有效性。在 CROHME 2019 测试数据集上,MEMix 相比基准模型表现出了显著的性能提升,ExpRate 提高了 11.72%,这表明其在面对不同数据集复杂性时具有较强的鲁棒性和适应性。MEMix 通过使用矩阵运算混合真实样本,生成具有二维公式结构的新样本,这些样本与现实场景中的数学公式非常相似。该方法为识别模型提供了复杂且多样的数据,有助于模型学习数学公式图像中的更深层次语义信息,并更好地理解其二维结构。这对于提高识别模型的泛化能力和准确性至关重要。
D. Effectiveness on Limited Training Data
在训练数据有限的情况下,我们使用不同的数据增强方法训练 DWAP 模型,以评估它们的有效性。我们使用 25%、50% 和 75% 的训练数据集来训练模型。为了确保随机选择的样本涵盖所有符号类别,我们首先从每个符号类别对应的样本中随机选择一个样本。随后,我们继续从剩余的样本中随机选择,直到达到所需的训练集大小。
表 II 显示,在训练数据有限的情况下,MEMix 显著超越了仿射变换和缩放增强方法。随着训练数据量的增加,所有方法的性能都有所提升。然而,MEMix 的性能提升更为明显,证明了其在数据稀缺时更好地利用可用数据的能力。特别地,当训练数据仅为 25% 时,MEMix 在 CROHME 2019 数据集上的平均 ExpRate 比仿射变换和缩放增强分别高出 25.24% 和 20.12%。此外,MEMix 在 ExpRate 上表现出较低的标准差,表明它为模型训练提供了更一致的数据基础。
E. Effectiveness on Diverse Datasets
为了评估数据增强方法在噪声样本上的泛化能力,我们在 HME100K 数据集上进行了实验。由于 CROHME 数据集的样本没有噪声,因此该数据集为测试数据增强方法的鲁棒性提供了对比场景。表 III 显示,在相同的训练条件下,MEMix 达到了 67.15% 的最高性能,超越了仿射变换和缩放增强方法。这表明,MEMix 在处理噪声数据方面表现优异。它还具有良好的泛化能力,能够生成在背景噪声复杂的情况下仍能表现良好的样本。
F. Performance on Complex Formula Structures
在表 IV 中,我们评估了使用不同数据增强方法训练的 DWAP 模型在 CROHME 2014 上对不同公式结构的识别性能。结果表明,MEMix 在所有结构类别中始终优于其他方法,显示了其在提高 HMER 模型对复杂 ME 结构理解方面的有效性。特别是对于那些具有明显二维空间关系的数学结构,如分式、根式和注释公式,MEMix 展现了更为显著的优势。这可以归因于 MEMix 生成了具有二维结构的新样本,提供了更丰富的视觉变化,从而帮助模型更好地理解和处理这些结构。
G. Comparison of Computational Efficiency
在评估不同数据增强方法的计算效率时,我们进行了多次实验,每种方法独立运行 100,000 次,以确保结果的稳定性。表 V 显示了生成单个样本所需的平均计算时间,单位为毫秒。MEMix 方法在计算效率方面表现优异,生成一个样本仅需 0.1979 毫秒,与缩放增强方法所需的 0.1691 毫秒相差不大。值得注意的是,MEMix 的速度为 2.67,和仿射变换方法的速度(0.5285 毫秒)相当,凸显了 MEMix 在计算效率上的优势。
在保持快速计算速度的同时,MEMix 方法还提供了更高质量的数据增强。快速的计算速度对于在线数据增强和处理大规模数据集至关重要,尤其是在计算资源有限的环境中。
V. CONCLUSION
本文提出了一种有效的在线数据增强方法 MEMix,用于手写数学公式识别(HMER)。我们采用矩阵运算混合真实样本,生成具有复杂二维结构的新样本,从而提升了 HMER 模型在识别复杂结构公式中的性能。与仿射变换和缩放增强方法相比,MEMix 还提供了更好的实时性能。实验结果表明,MEMix 能有效提高 HMER 模型的识别准确性。此外,所提出的方法不仅在 CROHME 数据集上表现良好,还适用于其他包含复杂背景噪声的数据集。在未来的工作中,我们计划探索基于混合真实样本的零样本 HMER 数据增强方法。