基本数学公式识别技术的研究

来源 :沈阳工业大学 | 被引量 : 0次 | 上传用户:yalaso_wind
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
印刷体数学公式识别(Optical Formula Recognition)是图像分析技术与传统的字符识别技术、公式的结构分析技术相结合的结果,它是近年来才兴起的研究热点,其与普通的OCR系统的主要区别在于公式同文章的文本部分的分离,公式中符号位置信息的记录以及公式的结构分析与再现。 利用先验知识查找公式所在区域是目前国际上最新的也是最广泛的查找公式所在区域的方法。经过对先验知识的分析和公式中符号特性的总结可以很好的找出公式在文章中的位置。本文重点研究了汉字文章中公式区域的查找、公式中字符的分割以及其位置信息的记录、公式中字符的识别等。此外,本文重点论述了利用汉字形体信息与排版的先验知识在查找公式区域中的应用。 数学公式的识别不仅只是公式中符号的识别,其还包括了公式抽取,公式二维结构的记录等方面的研究。目前国际上提出的公式区域抽取的方法基本上是针对外文文章而言的,对于中文文章并不适用。本文根据汉字的形体特征,设计了利用循环投影统计的方法求出相应的阈值,并根据汉字的形体特征,找出汉字文章中的公式区域。本文通过计算公式中字符的最小外接矩形,将字符依次分割开并记录其位置信息,然后进行归一化处理,利用本文设计的适合本文中字符识别的识别模块,即二层感知器神经网络识别模块,将归一化后的字符识别出来。本文对公式的结构分析与再现只做了概要性的介绍,介绍了目前常用的方法。本文最后将所设计的方法进行了实验,证实该方法是可行的。
其他文献
时态数据库将时间作为数据的属性纳入系统的管理范畴,存储和管理多个时间状态的数据。经过二十多年的发展,时态数据库理论研究取得了丰富的成果,而时态数据库实现技术尚处于起步
由于电力行业信息化建设积累了大量历史数据,迫切需要利用数据挖掘技术研发分析决策系统,以解决供电企业生产管理中关键和突出的问题。本文对各种数据挖掘算法进行了详细的比
精确的网络拓扑信息对于现代网络管理和预测网络性能是至关重要的。尤其是不断更新的物理网络拓扑信息是网络管理和性能分析的先决条件,如能动态或预先的进行资源管理、服务
本系统包含三大部分:指纹图像分割、指纹图像滤波增强和指纹后处理。本文主要深入研究指纹后处理部分的算法。其中,后处理部分包含:二值化、细化、细节特征提取、全局特征提取
信息网络的迅速发展,使得网络安全成为世界各国共同关注的焦点。入侵检测技术是继传统的安全保护措施之后新一代的安全保障技术。作为信息安全保障中的一个重要环节,它很好地
移动电子商务有着光明的前景,而移动支付是移动电子商务中的最重要的部分之一,它是指交易双方通过移动设备进行商业交易。由于用户需要通过手机进行业务访问,并通过无线网络
心脑血管疾病已成为现代社会人类健康最主要威胁。研究动脉血液运动是血流动力学主要任务之一,这对人们更好理解并分析血管疾病的发生与发展十分重要。随着计算流动力学方法
首先介绍了计算机辅助诊断理论、中医诊断中关联规则挖掘的理论和方法、非单调推理的概念以及在此基础上的ATMS的基本理论和实现方法,然后详细论述了将ATMS知识库维护系统运
随着计算机技术和网络通讯技术的高速发展,我们的生活和工作中充斥着各种各样的数字化信息,这些信息以图像等多媒体信息为主,在各个领域中都发挥着重要作用。如何对这些多媒
基于SOA的软件系统被称为基于服务的软件系统(SBS), SBS的运行依赖于Internet间异构的、自治的服务间的有效协同,运行质量不单取决于拥有自主性的Web服务本身,还取决于开放环