基于深度学习的数学文档分析和识别

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:nwhitewolf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的不断发展,文档图像的分析和识别技术被广泛应用于教育行业。目前,大多数文字识别技术能够较好地处理语文或英语等结构相对简单的文档。但是,对于数学类文档,由于其内部存在着复杂的数学表达式,其精准识别仍然是具有挑战性的难题。针对数学文档的自动分析与识别全流程,本文基于深度学习技术构建了一系列文档图像增强、分析和识别的算法。具体而言,本文的主要研究内容包括如下三个部分:(1)本文提出了一种基于可微二值网络的文本行提取方法。现实环境中获取的文档图像,通常存在的曝光、逆光、阴影等降质情况。因此,本方法首先利用多种图像增强方法提高文档图像的质量,从而突出文字部分而抑制背景。此外,文档图像存在不规则排版、配图以及表格等复杂内容,这会对识别造成干扰。对此,本文基于可微二值化网络构建文本行检测模型,并搜集和构建数据集,进行模型训练和测试。最后,针对文档中存在的非水平文本,本文结合多种图像处理算法,进行倾斜文本的矫正和弯曲文本的拉伸,并最终得到完整且水平的公式文本行。实验结果表明,相较于其他文本检测模型,本文的文本行检测方法在保持速度优势的同时,达到了95.65%的精确率。此外,本框架在图像增强和文本行矫正方面,也都取得了令人满意的效果。(2)本文提出了一种轻量型网络的公式文本行识别方法。数学文档的文本行,通常存在数学表达式、中文、英文混合的情况。这对文本行的识别造成了巨大困难。对此,本文将公式文本行识别任务分为中文切分、中英文识别和印刷体公式识别三个子任务,并分别设计轻量化的网络结构模型。此外,我们还搜集和构建了数据集,用于模型的训练和测试。实验结果表明,本文的中文切分模型在自建测试数据上达到了94.81%的精确率;公式识别模型和中英文模型分别达到了93.32%和97.02%的准确率。综合而言,本文所提方法取得了较高的公式文本行识别效果,且对于计算资源的需求较低。(3)本文提出了一种基于合成数据增强的手写公式识别算法。手写公式通常存在形变多样、结构复杂的特点,而获取大规模手写公式是非常困难的,这使得手写公式识别极为困难。针对这一问题,本文首先基于生成对抗网络思想设计了一种端到端的手写公式图像生成模型。该模型可以基于输入公式符号的图结构生成手写公式的布局,然后再基于布局生成手写公式图像。为了保障布局结构的合理性,我们提出使用图结构相似性度量来计算子布局损失,以提升模型相邻符号间相对位置的预测能力。最后,我们同时利用合成数据与真实数据训练手写公式识别模型,以提升识别模型的识别精度。实验结果表明,我们的手写公式生成模型可以合成高质量手写公式图像,且相较于两阶段生成模型,在结构相似度上提升了1.2%。而且,使用合成数据进行公式识别模型的训练能够将识别准确率提高2.49%。这一方面说明使用合成数据增强能够有效提升识别精度,另一方面也说明我们生成的手写公式图像具有较好的质量。综上所述,针对数学文档的分析和识别任务,本文在文档分析、增强、合成和识别等方面,基于深度学习技术提出了多种解决方案。我们的方法在理论和应用方面,都具备一定的创新性,且取得了较好的效果。本文工作对于文档分析和识别领域的理论研究和应用推广有重要价值。
其他文献
城市路网交通数据的分析与预测与人们的日常出行息息相关,在智慧城市的建设与发展过程中,路网交通的智能化进程也扮演着极其重要的作用。通过对交通数据的分析与预测,可以及时掌握路网中的即时交通状况,极大提升交通调度及处理突发事件的能力。随着城市化进程的大大加快,传统的数据分析和预测方法已经不能满足庞大交通数据的处理需求,目前越来越多的研究工作趋向于基于深度学习进行建模交通数据进行分析与预测,因此深度学习算
学位
随着我国信息产业的不断发展,信息产业与传统产业的融合不断深入。如何利用信息化来促进传统物流产业的转型升级,是临沂市实现高质量发展的关键。本文基于产业融合的视角,以临沂市为例,探索适合临沂市的信息化与物流产业深度融合的发展途径。通过实地走访临沂市物流产业园区,分析临沂市物流业发展现状,找出存在的问题;并通过实证研究,证明信息化对临沂市物流产业的发展存在正向的促进作用;通过鱼骨图分析法对制约临沂市信息
期刊
代码异味是指源代码的次优设计或实现。迫于时间压力或其他因素,代码异味经常不可避免地被引入到软件项目中,给软件维护带来了隐患。采用人工的方式检测软件中的代码异味并提供移除建议是一项十分耗时且困难的工作。相反,自动识别代码异味并根据其表现特征进行移除推荐不仅可以提高维护工作的效率,并且可以减少开发人员的负担。基于以上背景,本文分别提出了一种基于图神经网络的代码异味检测方法,以及一种基于机器学习的异味移
学位
软件可维护性是指软件维护人员理解、改正、改动和改进软件的难易程度,是决定软件质量的关键属性。及时且准确地预测软件的可维护性对提高软件维护效率具有重要意义。然而,随着软件系统日益复杂,软件可维护性的预测也越来越困难。一方面,在软件维护规模的预测中,现有工作所使用度量套件对预测维护规模的有效性未得到统计学上的验证,且由于方法过于简单使得预测效果不够稳定。另一方面,在可维护性程度的预测中,大多数研究未考
学位
随着近些年来科技的进步,计算机、传感器等设备的可用性和可负担性变得更高,越来越多的工厂从“制造”走向“制造”,工业信息物理系统(CPS)在其中发挥着重要的作用。工业CPS可在生产制造过程中融合计算、通信与控制等多项技术手段,使多类生产制造设备协同工作,从而实现生产过程的智能化。大多数工作为了对CPS进行性能分析,牺牲了模型的部分描述能力,从而无法描述工业CPS中设备之间的交互行为。此外,将现存CP
学位
随着北斗系统的逐步应用,海上渔船定位数据越来越丰富,基于多源数据协同监控成为船舶监控系统(Vessel Monitoring System,VMS)的重要研究方向和发展趋势。针对传统VMS多源数据利用率低,不能有效协同多源信息精准监控渔船状态的问题,本文设计基于多源数据协同作用的渔船监控系统。该系统既可关联多源轨迹识别目标渔船也可基于轨迹识别渔船作业类型,进而实现海上渔船状态的精准监控。其主要内容
学位
随着人口老龄化加剧,老年抑郁(Geriatric depression,GD)正成为一个全球重大公共卫生问题。经颅磁刺激(Transcranial magnetic stimulation,TMS)是一种已被证实治疗成年人难治性抑郁症的有效干预手段,但TMS对GD疗效仍不清楚。这篇综述提供了TMS治疗GD一些新观点,探讨了TMS应用临床治疗GD的可行性。
期刊
随着深度学习技术在人工智能各个领域的快速发展,深度神经网络(Deep neural network,DNN)模型日益复杂,数据集规模不断增大。在单机单卡环境下的DNN模型训练速度已经无法满足日常的研发需求,因此研发人员开始将DNN模型训练过程逐渐转移到多机多卡环境下使用多个计算设备进行并行训练,从而加快DNN模型训练速度。分布式深度学习(Distributed deep learning,DDL)
学位
<正> 前言目前,酸度对雨水水质的影响已引起人们的关注。pH值则是衡量雨水水质及雨水酸度的主要指标。由于雨水的采集方法及分析平均值的计算方法各有不同,这佯,雨水的平均pH值也有所不同。至今日本还没有一个在同一标准下计算各地区雨水pH值的统一方法。在探讨雨水平均pH值计算方法的同时,此文将以计算结果为依据,推断一下日本各地区雨水的年平均pH值及其分布情况。
期刊
近年来,室内可见光定位系统发展迅速,其定位精度高,部署和维护成本低,有丰富的频谱资源并且可以工作在电磁敏感的场所,因此具有实现室内外定位服务一体化无缝切换的潜力。基于上述原因,室内可见光定位系统成为了室内定位问题的研究热门。本文研究了室内环境下基于光电二极管的可见光定位系统,利用偏振光实现了可移动物体的定位机制,丰富了可见光定位系统的定位技术手段,拓展了其应用场景。因定位精度高和功耗低的优点,基于
学位