传统文档到XML的转换技术的研究与实现

来源 :北京航空航天大学 | 被引量 : 0次 | 上传用户:tianjuyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先具体分析了XML转换的现状,较深的研究了XML转换的关键技术.然后基于多策略的XML转换方法,设计并实现了一个通用的XML转换原型系统(简称为Doc2XML).系统采用了该文新提出的一种自动(基于规则)的信息抽取方法,该方法较好的解决了上面所提的前三个不足.基本的解决过程如下:首先自定义了一种描述能力较强的规则描述语言(简称RDL语言),该语言不仅仅能描述元素的各种分界符,还能描述元素的丰富格式特征,同时通过定义特征权值的方式来支持模糊匹配.其次,RDL语言虽然只定义单独元素的规则,但通过结合使用W3C XML Schema的模式定义,使得它能描述XML的各种复杂的嵌套结构.最后,设计了一种状态机模型,状态机的执行能高效的完成XML转换的具体过程,同时又具有一定的容错处理能力.对于第四个不足(即通过训练文档来学习规则),在对各种机器学习算法进行了深入研究的基础上,提出了结合使用经典的FOIL算法和基于最大熵的学习算法,来学习生成RDL语言描述的规则.通过理论分析可知,该算法具有一定的可行性.除此之外,原型系统的体系结构和主要模块的设计思想对于将来各种XML转换相关系统的设计和实现都具有较高的借鉴价值.目前,Doc2XML能把常用格式(RTF,HTML,PDF和Txt)的传统文档自动的转换成用户指定模式的XML.同时Doc2XML具有可扩展性,对于其他格式的传统文档,只需要增加该格式的文档解析器,并进行局部的少量修改,系统就能支持对该格式的传统文档进行XML转换.由于Doc2XML采用基于规则的信息抽取方法,自定义的规则描述语言(简称RDL语言)具有较强的描述能力,因此针对大多数情况下用户指定的模式,Doc2XML都能进行转换.Doc2XML已应用于中国专利电子申请系统之中,并起到了较好的效果.
其他文献
在UNIX中,文件是一个非常广泛的概念,以下都可以被称作为文件:通过open()系统调用创建的五种位于磁盘上的的文件:正规文件、目录文件、字符设备文件、块设备文件、先进先出文件。
随着网络技术的迅速发展以及对多媒体信息需求的不断增长,视频流技术已经引起了学术界和业界的广泛关注.视频流媒体应用不同于传统业务,具有时延敏感、数据量大等特性,这就要
该文是以计算机符号计算为基础的、跨学科的非线性工作.符号计算是计算机人工智能领域的一个新分支学科,以计算机科学与各种理工学科交叉为特征.它显著提高了计算机以精确的
早在20世纪70年代初,决策支持系统(DSS)这一概念就产生了.但是,传统的DSS仅面向单一成员而不能胜任群体决策的支持,因此,决策支持系统逐渐进入一个新的发展阶段——群体决策
自1987年SEI发表软件过程成熟度框架和成熟度提问单以后,以定义软件过程模型和执行软件过程评估为主的软件过程运动代表了提高软件生产质量和效率的发展方向。到2002年,先后出
随着计算机数据库技术的普及和发展,数据库安全变得越来越重要,可以说是关系到国家、企业的重要生命线。从普通的数据库到安全型的数据库的过程中,对数据库的安全增强技术的研究
为应对激烈的市场竞争环境,提高客户服务水平,加强业务管理,国内大企业大部分采用基于数据中心的集中处理模式,数据集中处理有利于业务监控、降低成本和提高效益,但是数据集中处理
本文的研究是以水利部948项目“茨淮新河上桥枢纽信息化工程”为研究背景。该工程的目标是对计算机集成制造系统(CIMS)技术加以改进和创新,建立一个水利CIMS(ContemporaryInte
90年代初,随着Internet的迅速普及,出现了基于Internet的电子商务.它利用Internet的全球性,扩大了交易范围,成本大大降低;采用数据加密、电子认证、安全电子交易等一系列措施
内存管理是大型应用软件的一个重要考虑因素,它的成功与否将直接影响到应用的稳定性和效率。目前对内存管理的研究可分为3个层次,自底而上依次为:操作系统级内存管理、高级语言