文档内容抽取与特征选择技术的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:undercall
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着越来越多的信息以电子文档的形态存在,文本处理相关软件也日益增多。在文本处理领域,传统单一格式文档处理系统在扩展性和通用性方面已经不能满足需求。对于文本特征的选择,现有技术主要是从词的频率和词的语义信息两个方面进行处理,忽略了词在源文档中的重要程度。本文针对以上问题,以军事领域文档处理为背景,为多格式文档定义了一种统一的半结构化文本模型,有效地保留了词在源文档中的语义结构信息。在此基础上研究了HTML、XML、PDF和WORD文档的内容抽取和特征选择技术。在HTML正文抽取中,改进了基于DOM树的网页正文抽取算法。此外,针对现有文本特征选择算法存在的问题,提出了一种基于信息增益和内容属性的特征选择算法,有效地降低了特征维度,使得所选出的特征集合具有更强的区别度。在对内容抽取和特征选择技术研究的基础上,设计并实现了多格式文档抽取系统。最后,通过实验验证了改进后的HTML正文抽取算法以及基于信息增益和内容属性的特征选择算法的高效性,同时对多格式文档抽取系统进行了功能测试,实验证明系统达到了设计要求。
其他文献
随着互联网的迅速发展,数据指数型的增长超出了用户的处理能力,我们逐渐步入了“信息爆炸”的时代,海量数据的产生带来了严重的信息过载问题。如何从海量数据中快速挖掘出用
随着物联网技术的迅速发展,基于物联网技术的网络在人们的生产、生活中的应用越来越广泛,物联网网络的安全性和稳定性也越来越受到人们的重视。网络管理系统是维护和保证网络
智能家居、信息家电、家庭网络,这些名词在几年前,也许很难与我们的日常生活联系起来。但近年来,网络化、数字化、智能化技术得到了迅猛的发展,并在逐步渗透到生活的各个领域。人
随着信息技术的迅猛发展,研究者逐渐发现在许多现实网络中,如生物网络、通信网络,都存在社团结构。如何准确高效地检测出隐含在网络中的社团结构已成为人们关注的焦点。社团发现
无线传感器网络(Wireless Sensor Networks,WSNS)由大量传感器节点构成,节点之间通过自组织机制构成网络连接,网络中的数据通过无线通信技术传播。无线传感器网络中的传感器
目前,统计机器翻译取得了很大的成功。甚至已经有可用的领域翻译系统,但就翻译质量上看,翻译的质量还不能达到实用化的需求,而且质量的提高越来越困难,于是大多数的研究者,将
计算机网络技术、尤其是国际因特网技术的发展,无疑是20世纪最伟大的科技成果之一,网络的安全性是网络建设时关注的核心问题。本文在详细分析了网络安全现状和网络安全面临的主
随着信息社会和通信技术的快速发展,所需要的频率资源越来越宝贵。多年来,人们一直追求的目标就是压缩语音信号的传输带宽或降低电话信道的传输码率,而在实现这一目标中,语音
当今世界,伴随着网络化社会的迅速发展,信息安全成为一大研究热点。信息安全主要依靠密码技术来实现,对称密码和公钥密码是密码技术的两个重要分支,二者的本质区别就是:对称
伴随着计算机技术和网络技术的飞速发展,各种网络应用系统相继问世,一个称得上安全的网络应用系统应该首先满足身份认证服务。传统的一次性口令身份认证系统中,种子密钥都是