PDF图像数学公式定位算法改进研究

来源 :河北大学 | 被引量 : 0次 | 上传用户:michael_zhang_x
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数学公式定位是印刷体数学公式识别技术的关键环节,也是实现数学表达式检索的基础。PDF文档是数学公式信息的重要载体,其中所包含的印刷体文档图像的质量参差不齐且采集参数未知,对数学公式定位算法的效果带来不利影响。因此,有必要对改进PDF图像数学公式定位算法的适应性进行专门研究。首先,设计了由PDF文件图像提取、预处理、判断分栏、数学公式字符块提取、数学公式字符块合并五个步骤构成的英文PDF图像中定位数学公式算法;其次,通过对PDF文件中文档图像特点、数学公式特性及其对数学公式定位算法所产生影响的分析与归纳,从影响公式定位性能的因素出发,设计了数学公式定位算法中的参数调整算法。通过分析定位算法的每个步骤,确定受影响的参数及阈值,根据统计出的版面自适应的字符尺寸,设定专门的规则,动态调整与之有关的参数及阈值,减少分辨率、色彩、图像的有损压缩比例以及数学公式具有的二维结构等对数学公式定位的影响;针对数学公式特性引起的两种问题:数学公式范围覆盖不全的问题和数学公式符号误识为普通单词问题,设计了基于识别的公式定位结果错误校正方法,通过识别相应公式确定其中是否包含公式界限符和二元运算符,矫正误判的字符块。实验结果表明,所设计的适应性改进方案有助于改善PDF图像数学公式定位算法对于图像质量及版面变化的适应性。
其他文献
模型驱动体系架构(Model-Driven Architecture, MDA)是OMG组织于2001年3月提出的一种新的软件体系结构方法学,其核心思想是抽象出与实现技术无关的平台无关模型(Platform Ind
空间数据模型作为空间数据信息组织和管理的理论基础,在推动GIs发展的过程中起了重要作用。空间数据模型的发展经历了三代:CAD数据模型、Coverage数据模型、Geodatabase数据模
数据爆炸性的增长,面对几何性增长的数据,我们的个性计算需求也日益加强,具有高计算能力的云计算正被大众所接受。云计算服务因其提供的服务成本低并且质量高,不断受到大众的
数学表达式是科技信息的重要表达形式,实现数学表达式检索有助于科技信息的高效交流与利用。针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问
近年来,随着电子技术、数字媒体和网络技术的发展,数码相机、智能手机变得越来越廉价和普及,同时以图像和视频为主的可视媒体分享网站如Facebook、YouTube和Flickr等也越来越流
随着P2P网络技术的快速发展,其在各个领域的应用得到不断扩大的同时,P2P网络固有的开放性和匿名性也为提供虚假文件、恶意攻击等恶意行为提供了可乘之机,这些恶意行为严重影
入侵检测软件在现在的安全软件中占有重要的地位。近十年来,数据挖掘技术在入侵检测系统中得到广泛的研究。随着实际的要求和技术的进步,现在的网络速度越来越快,因此网络数
计算机处理器通过传统的以提高主频来提升性能的方式受到了高能耗的挑战,从而使得并行处理成为处理器体系结构发展的主流模式。受到不同应用需求和功耗限制的驱动,异构并行处理
随着信息技术和计算机科学的发展,电子文档安全已经成为信息技术领域的一个热点问题。有大量的机密敏感的电子文档,不仅涉及了商业领域的安全,而且涉及到国家安全。电子文档
随着现代交通运输业的快速发展,道路上行驶的车辆日益增多,伴随而来的交通拥堵、道路使用效率不高等问题却给日常交通管理带来了重重困难。而融合了计算机、电子等现代高新科