基于BPL数据增强的手写数学公式识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zzx_520360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数学公式在数学,物理学和其他很多领域中扮演者重要角色。随着手写设备,平板电脑等智能设备的发展和普及,很多研究机构开始关注手写数学公式识别问题。传统手写数学公式的识别方法是分阶段进行,首先切分公式到单字符,识别单字符的类别,然后对识别结果利用文法规则进行二维结构分析。然而,这里切分、识别和二维结构分析在深度耦合,导致结构分析模块往往堆砌了非常复杂和可读性差的算法。  传统分阶段的方法有三个明显的弊端:切分错误会影响识别性能、单字符识别未能考虑上下文信息、二维结构分析模块过分依靠人工规则。  为了解决这三个问题,本文实现了一种基于编码器-解码器框架的手写数学公式识别模型,可以实现手写数学公式的端到端识别。编码阶段,除了利用传统的CNN对图像进行特征提取之外,本文在CNN层之上利用BLSTM对特征按行进行再编码,由此得到的特征可以充分考虑上下文信息。在解码阶段,本文使用注意力机制完成输入特征和识别结果之间的隐性对齐,避免了对公式的显性切分,随后将得到的中间向量输入到LSTM中进行解码。为了解决二维结构分析过分依靠人工规则的问题,本文采用LaTeX作为整个公式的标签,LaTeX既能表达公式的结构,也能表达公式的语义。同时,为了给模型提供更多的数据支持,本文对生成模型进行了探索,并利用贝叶斯规划学习框架成功进行了手写数学公式数据的生成。  为了验证模型的识别能力,我们在手写公式比赛CROHME数据集上进行了实验,本文的模型在2014年测试集上可达到第二的排名,公式识别率达到41.78%,比第三名高4.56%,在2016年标准测试集上公式准确率为45.77%,整体可以排到第三名。加入BPL模型生成的数据后,2014年和2016年的公式准确率分别提高了3.04%和3.57%,基于字符的BLEU评分可以达到74.70%,编辑距离准确率达到79.45%。实验表明本文的模型在2014和2016年的测试集上表现良好。
其他文献
目标跟踪(object tracking)是计算机视觉领域的一个研究热点,可广泛应用到生活的诸多方面,例如视频监控、异常行为序列识别等。本文中提出的多目标的跟踪方法基于一种常见的应
随着国家对三网融合的大力推进以及Android系统在智能手机、平板等领域的广泛应用,智能电视的发展逐渐步入快车道。与传统电视相比,智能电视内置操作系统,用户可以自由下载和安
本文围绕移动平台上智能信息搜索服务,针对其相关的自动问答和用户兴趣自动建模关键技术展开研究。文章设计了一个基于互联网的自动问答系统,它包括一个频繁问题集;针对其中
自从德国的Wille教授提出了形式概念分析以来,作为形式概念分析的核心数据结构,概念格已经引起了人们的广泛关注,并且已经在知识发现、软件工程、信息检索等诸多领域得到了广
随着互联网使用的日益普遍,网络技术的发展也日新月异。电子商务、网上银行等网络应用在为人们提供了便捷的服务的同时也带来了更多的安全问题,防火墙、入侵检测等安全技术成
纹理合成技术是数字图像处理和计算机图形学的一个主要研究内容,近年来发展较快,广泛应用于通信、安全等领域,具有一定的应用价值。针对目前纹理图像生成技术存在的弱点,本课
体绘制技术是三维医学影像信息可视化的常用技术。将体绘制技术和自由立体显示技术相结合,研制立体效果更强更逼真的显示系统,可为基于医学影像的诊断、手术方案制定、教学提供
遗传算法是模拟自然界生物进化过程的随机化搜索算法,其主要特点是采取群体搜索策略和在群体中个体之间进行信息交换,具有很多优良性质和使用价值,然而存在对信息利用不足,求解易
近年来,有两项重要的研究工作推动着WWW(World wide Web)技术的发展,一方面是Web服务研究,另一方面则是语义Web的研究。两者具有很好的互补性,Web服务是Web上信息和数据集成
随着互联网的飞速发展,Web被广泛的应用于人们的日常生活、学习、工作以及娱乐活动中。Web可以比作为一个巨大的信息收集站,它存储着各种各样的人们所需要的资料信息。在这个信