基于PDF文字流的表格识别技术的研究

被引量 : 12次 | 上传用户:edison_young
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
PDF(Portable document format)是一种目前国际通用的电子文档开放标准。这种文件格式与操作系统平台无关,这一特点使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文件、网络资料、电子邮件开始使用PDF格式文件,各国政府机关、企事业单位均大量采用该格式作为标准,进行信息发布、交换与存储。表格作为PDF电子文档内容的重要组成部分,在实际工作和生活中被复用和再编辑的频率非常高,然而PDF表格具有的独特结构,使得一些常用的表格操作难以完成。在PDF中表格只是基于视觉的,也就是说,在PDF文档格式中并不存在表格格式,只存在一团团的文字和一些穿插其中的图像线,用户一般只能直观地从显示结果看到表格,而无法直接从文档格式中获取表格信息,人们称这种表格为“文字流”表格,而对于它的识别称为“基于文字流的表格识别”。传统的基于图像的表格识别技术虽然比较成熟,但是由于表格载体的巨大差异使得这些技术难以运用到基于PDF文字流的表格识别之中。综合以上因素,本文对基于PDF文字流的表格识别技术进行了研究,设计并实现了一套表格识别系统。本文所研究并实现的是基于PDF文字流的表格识别系统,该系统进行表格识别与重现的处理流程如下:首先,系统解析一个PDF文档,从PDF内容流中分离出文本、图像等原始信息;之后,系统建立文字流数据结构并保存文本对象信息,将PDF内容可视化;接着,用户根据屏幕输出内容框选待重现表格的所在区域;之后,系统进行表格内容栅格化处理,即对所有文字流节点按照水平和垂直方向分别进行空间划分,并将结果进行保存,形成概念上的待重现表格边框结构;随后,系统根据栅格化结果对表格内容进行归位,即从栅格化后形成的概念表格结构中找到每个文字流节点所在表格单元位置,建立文字流节点间的相对关系,实现表格实体结构;最后,系统对实体结构进行一维序列化输出,将结果保存成通用结构化编码格式,如HTML等,这样的结果可以进行网页形式浏览,也可导出到OA软件中进行可视化编辑。
其他文献
论文分三部分对《千金要方》中《伤寒杂病论》文献进行研究:近年来对《千金要方》及《千金翼方》文献、临床应用两方面研究之综述;残本《伤寒杂病论》的辑校;经方及其类方在《千
目的:通过热敏灸与针刺配合,用于治疗寒湿凝滞型原发性痛经,并对其疗效进行观察,扩展对原发性痛经治疗方法的探讨,并促进热敏灸在治疗痛证方面的推广和应用。方法:从广州中医药
目的:临床观察肺愈宁方治疗中晚期肺癌的临床疗效。方法:将56例经细胞学、病理学确诊的原发性支气管肺癌患者采用简单随机对照方法分为联合治疗组(简称治疗组,28例)与化疗组(简称观
2009年,国际金融危机、国家医疗政策变化等将对国内的医药行业产生巨大的影响。本文从ASTL制药(中国)有限公司面临的环境、企业现状等方面,论述了如何调整现有的渠道管理策略
目的 以溃疡性结肠炎患者为例,探讨中药保留灌肠的最佳温度和速度,以期为中药保留灌肠的中医护理技术规范化研究提供依据。方法本研究采用单盲随机对照试验方法进行临床干预,
目的:基于中医传承辅助系统(V2.50)软件,总结聂惠民教授治疗脾胃病用药规律,为后入学习聂惠民的临床经验提供新思路。方法:本研究包括文献综述和文献研究两大部分。文献综述主
目的探讨影响孤立性肺结节良、恶性判断的危险因素。方法回顾性分析2004年1月至2013年12月经手术切除并经病理明确诊断孤立性肺结节的189例患者的资料。对以下资料:(1)年龄、
总结了某三甲医院手术室消防安全的规范化管理措施,包括成立消防安全管理小组,完善各项消防安全管理制度,加强电源电器及气体的管理以及采取多种形式,定期组织员工进行消防安
目的:1、脂代谢紊乱在目前临床上发生率极高,是心、脑血管疾病发生的独立危险因素,尤其对老年患者有特殊意义。调脂治疗是目前临床预防与治疗心脑血管疾病的方法之一。2、他汀类
此篇育龄妇女月经期卫生状况研究主要是通过挖掘和分析藏西医妇女保健知识的理论体系,并利用定性定量研究方法来调查果洛拉加与黄南泽库的68名育龄妇女在月经期卫生保健的现实