基于编码-解码模型的离线手写数学公式识别方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:qiuqiuls
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数学公式在很多领域像科学研究、金融和统计中都有着非常广泛的应用。目前将数学公式输入到电子设备最常用的方式包括使用排版系统比如LaTex和公式编辑器比如MathType,但是这些方式都要求用户掌握大量的语法规则。还有一种方式是用户在手写设备上书写数学公式,这对于编写科学文档等需要使用大量数学公式的场景中更加有效便捷,因此实现手写数学公式自动识别的需求变得越来越迫切,同时随着智能手机和其他手写输入设备的发展也推动了该领域的研究。虽然现有的识别方法已经实现了较好的识别效果但仍然存在一定的不足,据此本文针对这些不足做出了改进,主要研究工作和创新点如下:(1)针对现有模型在解码过程中存在的注意力漂移现象,提出了一种使用双注意力模块的序列解码器结构。全覆盖注意力模块用于引入历史对齐信息,位置注意力模块用于引入解码位置信息,并且还加入了一个动态融合模块用于实现两个注意力模块之间的自适应融合。实验结果表明本文提出的解码器结构有效缓解了注意力漂移的现象,提高了模型的识别性能。(2)针对现有模型由于共同学习对齐和分类,当不能学习到对齐时会使模型学习到错误分类的问题,增加了一个中心掩码检测模块用于引入中心掩码作为额外的监督信息。由于整个模型是一起训练的,因此不仅可以让编码器能够编码出更好的深层特征,而且可以引导解码器的注意力机制关注到所有存在的数学符号并且尽可能关注符号的中心位置。通过和目前主流的识别方法进行对比,本文的方法在CROHME2014和2016测试集上均实现了更高的识别精度。(3)针对手写体数学公式训练数据缺乏的问题,本文提出了一种新的数据增广方法,采用随机替换符号的方式生成新的公式样本。通过在不同的模型中应用本文提出的数据增广方法,各个模型的识别性能均有所提升。
其他文献
谣言的广泛传播对社会的危害性极大,轻则侵犯公民或社会组织的个体权利,重则造成社会恐慌,摧毁社会信任体系,甚至危害国家安全。很多学者研究了辟谣的相关方法,然而目前的辟谣工作仍然需要大量的人工干预,存在着工作内容繁琐、辟谣时效性滞后等问题。辟谣文本生技术能够极大降低辟谣工作的人工成本和时间成本,是及时抑制谣言传播、有效降低谣言社会危害性的关键技术。然而,目前关于辟谣文本生的方法还鲜有学者研究。辟谣文本
学位
从目前已经发布的政府文件中的有关监管要求归纳分析当下NFT交易平台合规经营的去金融化路径。就本身的属性而言,NFT与FT的核心区别在于它的稀缺性、不可分性。从近期国内政府发布的一系列公告、通知或文件来看,数字藏品的去金融化工作则属于平台是否能存续运营的关隘所在。
会议
作为燃料电池(FC)的关键组件,离子交换膜对于其性能有着至关重要的影响。相较于质子交换膜燃料电池(PEMFC),碱性阴离子燃料电池(AEMFCs)现已展现出诸多优势,然而其主要短板依旧存在于离子交换膜。目前,阴离子交换膜(AEM)研究与商业化生产存在的主要问题包括离子电导率较低、碱稳定性较差、合成成本过高等。当前研究人员普遍认可的提升AEMs碱稳定性的方法有选用碱稳定性较高的离子交换基团,减少膜内
学位
随着深度神经网络在视频内容理解与分析任务上取得卓越的效果,基于深度学习的自动视频描述已经广泛的部署在现实应用中。视频自动描述的主要挑战是从大量的帧中捕获关键视觉信息,比如物体、动作和时空关系,并用语法正确的句子进行整体的描述。现有的视频描述方法大多集中于利用注意力机制,捕获全局视频中的关键帧或帧中的关键区域来对视频的语义信息进行建模,而忽略了视频本身的层次结构。视频内在的这种由粗粒度到细粒度的层次
学位
基于语义标签图的图像生成(语义图像生成),是指根据输入的像素级别的标签(语义标签图),去生成与真实图片接近的“伪真实图”。该任务可用于图像编辑、图像渲染等场景。语义图像生成任务一般用生成对抗网络(Generative Adversarial Networks,GAN)来训练,其往往需要大量的参数和计算力。在GAN模型结构与参数量足够大的情况下,其生成图像的质量尚且可观。但是,当应用场景的硬件条件比
学位
手语(Sign Language,SL)作为一种特殊的视觉自然语言,依靠手动特征和非手动特征等多通道信息传达语言信息。近年来,手语翻译(Sign Language Translation,SLT)作为弥合聋人和听人之间沟通鸿沟的重要应用,已引起学界的广泛关注。其中,基于神经机器翻译框架的SLT是伴随着人工智能领域发展而新兴的研究领域。我们发现基于目前的研究框架,很难通过弱监督的形式深度挖掘手语作为
学位
析氧反应(OER)和氧还原反应(ORR)是可再生能源转换和存储技术中重要的两个电极反应,开发价格低廉、高效稳定的电催化剂是实现能源转化技术产业化的关键。从微观层面认识催化剂晶体结构、电子结构与催化活性之间的内在关联对设计高活性电催化剂具有重要意义。本文以结构可调控、价态丰富的Mn基钙钛矿氧化物为研究载体,通过元素掺杂、外加磁场等策略有效调控催化剂的电子结构和电子自旋态,结合同步辐射光源的X射线光电
学位
报纸
迁移学习(Transfer Learning)是研究如何利用其他相关领域已有经验和知识来帮助学习目标任务的方法。大多数现有的研究都是在离线数据之上进行的。而实际应用中常常需要面对在线场景下的学习任务,在这些问题中的训练样本均按一定顺序依次到来,通常无法直接获取或需要付出高昂的代价。因此进行有效的在线迁移学习算法研究具有重要的现实意义。但是,现有的在线迁移学习方法仅简单实现了将在线学习方法引入到迁移
学位
近年来,自动驾驶技术逐渐成为学术界及工业界研究的重点,而车载移动激光雷达获取到的三维点云数据,是智能车辆感知周围环境的关键信息。由于雷达传感器与物体的相对位置、物体的自遮挡与物体间的相互遮挡,使得采集到的数据中无法获得完整的车辆点云。为了更精准地感知环境,需要借助三维补全技术来获得更完整的、更高质量的点云数据。随着相关研究的逐渐深入,许多基于深度学习的三维补全模型相继出现,但这些研究大多在合成数据
学位