印刷体数学公式识别关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:tianlingfengice
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着计算机技术的飞速发展以及互联网的普及,电子文本已经逐渐成为人们进行信息获取的主要方式之一。然而,部分的电子文本资料是以图像格式进行存储的,难以对其进行检索,重用。得益于印刷体文本识别技术的发展,以图像格式保存的大部分文本信息可以转换为可编辑的文本格式。数学公式具有复杂的二维结构和灵活的表达方式,使其难以准确地转换为可编辑的文本信息。目前,常规的公式识别方法往往是将公式识别问题划分为字符切分,字符识别和结构分析三个阶段,但上一阶段的错误常常会传递到下一阶段中,使得公式识别的准确率较低。针对以上问题,本文提出了一种基于全局信息的印刷体数学公式识别方法。该方法充分考虑了字符切分、字符识别以及结构分析间的内在联系,利用上下文信息和公式的语法信息来实现对印刷体数学公式的识别。本文利用基于合并策略的混合字符切分方法对字符进行切分,有效改善了多连通域字符切分过程中存在的过切分问题。在字符识别方面,本文提出了改进的Le Net-5卷积神经网络的字符识别模型,针对数学公式符号识别的具体问题,对原网络结构进行了调整,同时对网络参数进行了优化,得到了一个训练速率快、识别率高且泛化能力强的数学字符识别模型。在结构分析方面,本文通过对数学公式的几何结构特点进行分析,利用中心偏转角作为结构特征建立了字符间空间关系判别模型,实现了公式几何空间关系的结构解析。此外,本文从公式语法语义的角度出发,制定了能表达绝大部分常用数学公式结构关系的基于二维上下文无关文法的数学公式语法规则。在该套文法规则的约束下,将数学公式的识别问题转换为构建字符切分、字符识别、几何结构分析和文法分析等多信息融合的最大可能结构解析树问题,从而综合全局信息得到公式图片识别概率最高的结果,实现了印刷体数学公式的整体识别,有效提高了印刷体数学公式的识别准确率。
其他文献
我国东部地区经济发达,规划建设了大量的城市轨道交通设施。盾构法由于其高效、对地面交通影响小的特点,在如今的城市轨道交通建设中应用越来越广泛。东部地区广泛分布着软土
2008年11月27日,第三届“中国新能源国际高峰论坛”在北京钓鱼台国宾馆隆重开幕。会议呼吁新能源从业者携起手来,积极应对全球变化危机,保持新能源产业的稳步、健康、快速发展。
地铁通风空调系统施工质量的好坏,直接影响到地铁运维人员的日常维护及空调运行质量,因为其安装技术复杂, 安装时必须根据现场需要,结合其难点问题不断优化施工工艺,提高暖通
在经济快速发展以及人民生活水平极大提高的今天,随着大众对于电力的需求不断地提高,相关电力企业及供电 单位的压力也正在不断地加大。变电站作为输电环节中极为重要的一个
随着时代的发展,各种工程项目层出不穷,但是工程项目管理的要求亦是同步提升的,那么档案管理就是其中关 键环节之一,本文以火电厂为切入点,分析了如何创建优质工程档案,提出
杰拉德·格里塞出生于1946年6月,是20世纪中后期法国著名作曲大师,频谱乐派的先驱人物。他的作品推崇声音的自然美感,强调听众的听觉感知与声音本质的相互关系,通过电子声学
B/S结构电厂热经济性在线监测系统是建设现代火电厂监测系统的发展趋势.介绍了基于Delphi环境的IntraWeb和ActiveForm技术.将二者结合起来,取长补短,能快速开发出界面美观、
由德国VSF等诸多社会团体机构发起的“德国首届自行车行业专题会议”,将于2010年2月22-23日在德国柏林市隆重举行。与德国自行车行业有关的各类协会组织(如ZIV、VDZ、VSV、BIV
苏州科技学院计算中心创建于2001年9月,全面负责非计算机专业计算机基础教学工作,主要承担非计算机专业三个层次(计算机文化基础、计算机技术基础、计算机应用基础)有关课程的课
白粉病是苦瓜生产过程中最为严重的病害之一,化学药物防治、引进抗病品种和选育广谱抗病新品种是防控白粉病的主要手段。但化学防控易造成食品安全问题和环境污染;通过检测白