论文部分内容阅读
数学公式在数学,物理学和其他很多领域中扮演者重要角色。随着手写设备,平板电脑等智能设备的发展和普及,很多研究机构开始关注手写数学公式识别问题。传统手写数学公式的识别方法是分阶段进行,首先切分公式到单字符,识别单字符的类别,然后对识别结果利用文法规则进行二维结构分析。然而,这里切分、识别和二维结构分析在深度耦合,导致结构分析模块往往堆砌了非常复杂和可读性差的算法。 传统分阶段的方法有三个明显的弊端:切分错误会影响识别性能、单字符识别未能考虑上下文信息、二维结构分析模块过分依靠人工规则。 为了解决这三个问题,本文实现了一种基于编码器-解码器框架的手写数学公式识别模型,可以实现手写数学公式的端到端识别。编码阶段,除了利用传统的CNN对图像进行特征提取之外,本文在CNN层之上利用BLSTM对特征按行进行再编码,由此得到的特征可以充分考虑上下文信息。在解码阶段,本文使用注意力机制完成输入特征和识别结果之间的隐性对齐,避免了对公式的显性切分,随后将得到的中间向量输入到LSTM中进行解码。为了解决二维结构分析过分依靠人工规则的问题,本文采用LaTeX作为整个公式的标签,LaTeX既能表达公式的结构,也能表达公式的语义。同时,为了给模型提供更多的数据支持,本文对生成模型进行了探索,并利用贝叶斯规划学习框架成功进行了手写数学公式数据的生成。 为了验证模型的识别能力,我们在手写公式比赛CROHME数据集上进行了实验,本文的模型在2014年测试集上可达到第二的排名,公式识别率达到41.78%,比第三名高4.56%,在2016年标准测试集上公式准确率为45.77%,整体可以排到第三名。加入BPL模型生成的数据后,2014年和2016年的公式准确率分别提高了3.04%和3.57%,基于字符的BLEU评分可以达到74.70%,编辑距离准确率达到79.45%。实验表明本文的模型在2014和2016年的测试集上表现良好。