基于Rough集的Web文本分类及其信息抽取研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:liuhuayu0472
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前网络正在深度和广度方面飞速地发展着,Internet上包含了大量的信息资源,如何在这些大量、异构的海量信息资源中,快速有效的发掘蕴含具有巨大潜在价值的有用知识和信息,是当今信息发展和信息处理领域的主流技术。Web文本分类是一种有效的数据挖掘技术,它能够合理地、有效地组织海量信息资源,向用户提供简单有效的检索服务,被广泛应用于自动标引、文本过滤和词歧义切分等文本自动处理技术。本文阐述的Web文本分类技术以Rough集理论为基础,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。本文分析了Web文本分类的特点,比较完整地描述了Web文本分类的过程,包括Web文本表达,训练和分类过程;研究和分析常用的Web文本分类的算法以及各自的特点,并提出将Rough集应用到Web文本分类的必要性和优势;深入研究和分析了Rough集的基本理论在Web文本分类中的应用问题,尤其是属性约简问题,它能删除冗余属性,提高系统潜在知识的清晰度,降低发现规则的时间复杂性;详细阐述了基于Rough集理论的Web文本分类技术,并提出一种新的属性约简方法——同类属性约简,此方法能极大减少运算量,加快分类训练的速度,提高了分类性能;阐述了利用Rough集理论对Web文本进行信息抽取,主要是抽取分类规则;提出将同类属性约简方法应用于Web信息抽取,可获得各类信息的关键字,并可计算出各个关键字的重要性。
其他文献
随着互联网上多媒体数据的日益增多,人们面对的信息量是以“海量”来形容的。如何从网上众多信息中检索出自己的所需,是信息检索的一个难点。传统的基于文本的检索由于其自身的
随着新型嵌入式芯片层出不穷,相应的高级语言编译器是必不可少的。然而,编译器的复杂性决定了不可能在短时间内重新为一款新型芯片开发出高级语言编译器。因此,不断出现的新型芯
随着信息技术的广泛普及和应用,人们对知识服务的需求越来越强烈。知识服务离不开大型知识库的支持。仅仅依靠繁重的手工劳动来建设大型知识库,必将严重影响知识服务的能力和质
移动通讯技术的发展在近年来受到极大的关注,第三代移动通讯系统(Thirdgeneration,3G)提供了更大的覆盖范围、高速移动能力、完整的安全和计费机制以及全球的移动漫游功能。另
随着信息社会的发展,多媒体技术得到了越来越广泛的应用。在多媒体世界中,视频技术充当着关键的角色,尤其在视频监控、流媒体和数字电视领域。在实际应用中,视频技术与嵌入式系统
在竟争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。网站是企业进行信息发布的平台,是企业对外的形象和窗口。随着Web站点规模和复杂度的增加,站点的设计和
自2000年Napster与唱片公司的一场官司将P2P重新带入人们的视线以来,P2P的发展日新月异。由于P2P的发展不需要服务器,给用户带来了极大的便利,各种基于P2P的应用迅速发展。但
移动Ad Hoc网络是一种具有特殊目地的无线自组网络,其路由设计问题是当前无线通信领域研究的热点。随着硬件设备工艺的不断改进和基础研究的不断深入,Ad Hoc网络已逐步从军事应
随着无线通信技术的发展,各种新的业务相继出现,这些业务在带宽、时延等方面的要求互不相同。无线城域网技术作为有竞争力的下一代无线网络技术,己经把对多种业务提出QOS(服务质
目前,EDI是电子商务最重要的组成部分,是国际上广泛采用的自动交换和处理商业信息和管理信息的技术。UN/EDIFACT报文是唯一的国际通用的EDI标准。利用Internet进行EDI已成为