基于文档属性的PDF数学表达式信息获取

来源 :河北大学 | 被引量 : 0次 | 上传用户:wxj3177
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PDF文档的广泛应用使获取其中的信息成为研究热点。PDF文档具有面向页面描述的特点,其内容的逻辑关系不明显,给信息提取带来了困难。本文面向数学表达式检索的需要,从PDF文档属性数据出发,研究代码型PDF文档中数学表达式信息的获取方法,为实现PDF文档数学表达式检索打下基础。首先,通过解析PDF文档字体文件的方式获取版面字符的精确外接矩形框;然后,以PDF属性中的文本显示原点坐标为参照,进行文本行的定位,并在分析文本输出命令的基础上直接进行文本行内词块的分割;最后,采用基于规则的方法,定位文档内的数学表达式内容区域,并根据PDF文档中数学表达式的排版特点,设计算法还原表达式的结构,通过分析表达式结构获取相关表达式信息。实验结果表明,本文方法较充分地利用PDF文档自身属性数据,结合数学表达式的特点,获取PDF文档内的数学表达式信息,对特定类型的PDF文档有较好的效果。
其他文献
目前,传统的信息安全手段(防火墙、入侵检测和杀毒软件等)在信息安全领域逐渐表现出其局限性,比如病毒库越来越大、只能被动防范等等。可信计算是解决这一问题的新方案,已经成为
运动目标检测是视频分析的基础,有着广泛的应用背景。本文主要研究了静止背景下图像序列中运动目标检测技术,同时对斜放置摄像头拍摄场景中的行人统计技术进行了探索。本文在前
企业门户平台(EIP,Enterprise Information Portal)是一个应用框架,它将企业的所有应用和数据集成起来,并以统一的界面提供给用户,使企业实现内部和外部的信息管理、信息发布
UHF(超高频)RFID(射频身份识别)技术是国际上最先进的第四代自动识别技术,是近几年刚刚开始兴起并得到迅速推广应用的一门新技术,它有识别距离远、识别准确率高、识别速度快、
随着信息时代的到来,人们的周围已经是一个信息世界,信息系统的数据量正爆炸式的增长。如何有效的对庞大的数据进行分析和挖掘是当前数据挖掘领域所要解决的主要问题。波兰华沙
工业网络控制系统由简单集中式数字控制系统(DDC)发展到全数字化、智能化、全分散的现场总线控制系统(FCS),给工业自动化带来一场深层次的革命。但是,现场总线国际标准推出缓慢
求解最短路径是车辆监控导航系统的主要功能之一,随着全球导航定位技术的广泛应用,人们对求解最短路径问题的要求也日趋迫切。国内外大量专家学者对最短路径问题进行过深入研
直线是生成各种图形的基本元素,直线绘制是光栅图形学最基本的一个任务。直线扫描转换生成算法是计算机图形学、计算机辅助设计、科学计算可视化、虚拟现实、计算机动画等领
近些年分布式数据库具有高效读写性能、高可靠性、高可用性、动态可扩展等优势而得到了快速的发展。在分析了工业上各大厂商和学术上研发的多种分布式数据库产品之后,选择了开
计算机所存储的信息量呈爆炸式增长,关系型数据库在应对大规模数据和高并发时候显得捉襟见肘,因此在一些应用场景正在逐渐被非关系型数据库取代,近年来非关系型数据库的研究