基于XML的HTML和PDF信息抽取技术的研究

被引量 : 29次 | 上传用户:leocaan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今是信息时代,用户面前呈现着海量数据。这些数据大多以HTML、PDF、WORD等文档格式进行存储。其中,PDF和HTML在数据的显示方面获得了巨大的成功,而在对文档的语义信息及其内部结构的描述上明显不足。这成为制约用户利用信息,应用程序处理数据的瓶颈。XML是W3C推荐的数据交换的标准。它是面向内容的,因此能够弥补HTML、PDF等格式在语义描述方面的不足。为此,把HTML,PDF等文档转换成标准化的XML文档成为了一个迫切的问题。这正是本文基于XML的信息抽取技术的研究背景。基于规则的信息抽取技术是信息抽取的主流方法。本文首先对此进行了研究,并提出了利用XSLT和XPath技术在数据定位和文档转换方面的优势来解决信息抽取问题。然后概述并分析了基于XML的信息抽取的基础理论和相关标准。为了编写更为简单、健壮和通用的抽取规则,本文分析了XSLT信息抽取规则的优化问题。在上述基础上,重点对两种流行的文档格式HTML和PDF的信息抽取的实现进行了研究。本文最主要的工作是构造了一个基于XML的PDF信息抽取系统。本系统的特点在于选择XML作为信息表现模型,以及XSLT作为信息抽取规则。系统的核心思想是,先将PDF源文档转换为一种中间XML文档,再利用文本特征、位置特征以及显示特征对中间XML文档进行基于XSLT规则的信息抽取。系统的实现主要分为三个模块:一是中间文档生成模块,结果是生成描述PDF文档的显示风格和编排结构特征的中间XML文档; 二是规则生成模块,通过对PDF样本文档的学习,以半自动化的方式生成XSLT抽取规则; 三是自动抽取模块,利用XSLT抽取规则从PDF文档集中抽取出有用数据,并封装成包含语义的XML文档格式。本系统对于实现基于语义的PDF文档的精确查询和管理,具有重要的现实意义。不仅如此,它的体系结构和主要模块的设计思想,对于其他文档的信息抽取系统的设计和实现也具有较高的借鉴价值。
其他文献
随着知识经济的发展,高科技企业逐渐成为社会经济的重要组成部分和新的增长点,其中发展迅速的民营高科技中小企业,以其独特的人才构成和竞争优势,在优化资源配置、吸收劳动力
西部地区的发展是决定中国经济发展战略格局的时代课题。党中央根据邓小平同志的“两个大局”的战略思想,在我国进入21世纪之际做出西部大开发的重大战略部署,目前,西部地区
鲁迅在人群中与尼采的形象很相似:一个惟一者,启蒙教师,圣人与民众对立。尼采37岁悟到,欧洲文明的演化规律就是永恒轮回;鲁迅37岁时悟到,中国历史就是一治一乱的大循环。鲁迅
公开了一种钢管气密性检测装置,包括槽体、安装架和钢管固定机构。其中,安装架和钢管固定机构设置在槽体内,安装架一端设有一组充气头,另一端设有一组堵头,充气头连接空压机
目前,遥感影像是城市绿地信息提取的主要数据源,本文通过对遥感影像做增强、配准、融合、分类等一系列处理,进行信息提取的实践,掌握国内外关于信息提取的基本方法。针对中、
2008年1~12月,我国主要电子产品生产情况如下:共生产电视机9123万台,比2007年同期增加了4.03%;数码相机产量达到8665万台,相比2007年同期的7405.98万台增长了17%;移动电话产量
学前儿童足球运动规则研究李荣日1前言小足球运动在我国许多城市得到了开展,特别在普及较好的地方,已把它列为学前儿童体育活动的主要项目之一。研究、制订切合该年龄段孩子生理
基于美国院校研究会官网的17所高校院校研究证书项目课程信息的研究结果显示,美国高校院校研究专业人员培养,在证书授予上,给学习合格者颁发培训证书或学位证书;在教育目标上
本文分析了中国企业研发的现状,得出中国本土企业在技术实力和R&D投入上落后于外资企业。面对与外来竞争者越来越大的R&D水平差距的严峻形势,中国本土企业战略决策者急需找到
企业信息化是国家信息化的重要组成部分,从丰富和完善我国国家信息化指标体系和企业信息化指标体系角度来讲,研究制订作为我国企业重要成员的电力企业的信息化专项指标体系,