基于编码解码模型的手写数学表达式识别研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:woainiwgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术和深度学习技术的快速发展,手写数学表达式的应用场景大量增加,需要快速、稳定和准确的手写数学表达式识别方法。但是因为表达式本身复杂的二维结构、手写字符的不规则和离线场景下笔画信息的缺失,手写数学表达式识别成为一项具有挑战性的工作。近年来,在手写数学表达式识别问题上出现了基于深度学习的全局识别方法,这其中以编码解码结构为代表,此类方法不需要进行单独的字符切割、识别和结构解析工作。然而目前该方法仍然存在不少问题,如现有的传统卷积网络的特征提取能力不足、循环神经网络训练时的时序依赖性导致的训练困难以及结构泛化性不强的问题,因此该领域的研究还需要不断探索。综上所述,本文的主要内容如下:(1)针对以静态图片为输入的手写数学表达式,提出一种基于编码解码结构的序列化表达式识别方法Res-MSA。首先使用基于残差网络的卷积神经网络提取输入图像特征序列,接着利用Transformer网络分析特征序列之间的对应关系,并逐字符地预测生成当前结果。本方法并行训练,收敛速度大于传统使用循环网络的编码解码模型,在CROHME2019竞赛数据集上取得了48.6%的表达式正确识别率,证明了本方法的有效性。(2)针对手写数学表达式图像中表达式部分字符大小和分布位置的差异,提出串行多尺度的图像特征提取模块。通过将Res Net网络中不同分辨率的特征图进行串行融合,达到包含图像中语义信息和结构信息的目的。本方法有效解决了Res-MSA模型中对于复杂表达式的识别困难问题,在CROHME2019竞赛数据集上达到50.25%的表达式正确识别率。(3)针对数学表达式的结构特点,将数学表达式按子结构进行分类,并提出一种树形表达方法。基于树形结构表达和多头注意力,提出树形解码模型。树形解码模型优先预测父节点,并由父节点信息预测子节点,最后分析父子节点之间的分支关系从而完成当前树节点的预测。树形解码方法取得了高于序列化解码模型的识别性能,在CROHME2019竞赛数据集上获得53.43%的表达式正确识别率。
其他文献
光纤布拉格光栅(Fiber Bragg Grating,FBG)传感技术不仅具有光纤传感器体积小,重量轻和抗电磁干扰能力强等特点,还具备解调成本低和灵敏度高等优点,因此在航空航天与航海设备、岩土边坡监测和结构健康监测等领域具有重要的作用。目前在边坡监测中,商业化的高精度电传感器虽然能达到边坡预防的需求,但仍存在着易受复杂环境影响的问题。基于FBG的边坡位移传感器,由于需要考虑温度-应力交叉敏感问题
学位
学位
行人重识别(Pedestrian re-identification)技术是指在若干不同摄像头拍摄的图像或视频序列中寻找出特定的行人,其应用场景主要是光照充足的日间场景。然而实际应用中,很多图像或视频是在夜间由红外相机拍摄的,传统的行人重识别无法解决此类问题,故行人重识别开始向跨模态行人重识别发展。红外图像和可见光图像的巨大差异使得跨模态行人重识别颇具挑战性。深度特征相比于传统特征具有很大优势,本
学位
当前市场竞争日益加剧,企业为了能够更好的实现发展,获得竞争优势,就一定要加强人力资本管理,培养高水平的人才。对竞争对手来说,企业人力资本的差异性、复杂性与创造性都是无法模仿的。因此,这也是企业实现自身竞争力增长的重点。增强人员培训管理,不断提升人员综合业务水平,是当前企业实现人力资本增值的主要基础,也能够促使企业业绩迅速增长。但是传统培训模式存在一定的局限性,其主要体现在教学方式单一,趣味性不足;
学位
侧信道攻击(Side Channel Attack,SCA)是一种强大的攻击方法,攻击目标主要是密码芯片和密码设备,利用数据加密时泄露的相关信息破解加密设备中所使用的加密密钥。SCA可以在数据加密的过程中不破坏密码设备和加密数据的情况下获得密钥信息,对密码设备的安全性产生了严重威胁。本文主要研究高级加密标准(Advanced Encryption Standard,AES)算法的侧信道攻击方法和实
学位
新闻报道中的图片可以抓人眼球,引起读者阅读新闻内容的兴趣,也可以直观地传递出新闻报道的内容。本文探究人工智能技术在图片新闻领域的应用,期望可以借助机器的力量,帮助新闻编辑者自动完成为新闻配图的工作。本文首先研究了新闻图片在报道中顺序插入的问题,提出了一种基于多模态循环神经网络的模型。该模型配有编码更新机制,可以将图片以一定顺序插入到新闻文本中的适当位置。对于每幅图片的插入位置,该模型的选择标准是候
学位
南京市作为经济实力、医疗水平稳居全国前列的省会城市之一,人口老龄化的速度与规模均远超全国同类地区,妥善解决老年人的养老问题至关重要。在积极应对老龄化的战略背景下,南京市逐渐建立起较为完善的居家养老服务体系,且在全国范围内一直处于引领的状态。即便如此,随着老年人的需求日益多元化,南京市已有的居家养老服务供给体系依然面临诸多挑战。基于这一现实背景,本研究以南京市居家养老服务供给现状的分析为基础,结合老
学位
云计算是能够根据用户需要提供互联网资源的商业计算模型。用户部署在云服务器上的应用系统能够根据需求量获得云上的资源,如计算能力和存储空间,这种需求量可以是无限的,只要求用户按量付费即可。随着云计算技术的不断发展,越来越多的数据所有者选择将其数据外包给云服务器。但是,外包的数据面临着被泄露的风险。为了保护外包数据的隐私,最常见也最直接的方法是在外包到云服务器之前对数据进行加密,再将加密后的数据外包给云
学位
净水厂是电能消耗大户,其中取水泵站和供水泵站的电能消耗占净水厂电能消耗的80%以上。现阶段清洁能源产生的电能十分有限,必须要使用传统燃料来稳定地生产电能,这已然导致了全球性的气候变化和能源危机。因此在满足城市供水需求和净水厂安全生产约束的同时,对取水泵站和供水泵站进行优化调度以实现电能节约和二氧化碳减排迫在眉睫。为此,本文提出了一种取水与供水泵站智能协同优化调度方法:首先,将长短期记忆网络(Lon
学位
移动边缘计算能够通过靠近用户提供计算服务以降低任务时延和提高服务质量,不同的卸载策略会影响卸载的效率,因此制定合适高效的卸载策略至关重要。深度强化学习通过训练智能体(Agent)在与环境交互的过程中学习能够实现长期效能的行为策略,能够有效解决移动边缘计算卸载问题。因此基于深度强化学习研究移动边缘计算卸载问题,主要工作如下:(1)针对多用户单服务器集中式卸载场景中,连续卸载策略容易收敛至局部最优解的
学位