基于Rough集的Web文本分类及其信息抽取研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：liuhuayu0472

【摘要】

：

当前网络正在深度和广度方面飞速地发展着，Internet上包含了大量的信息资源，如何在这些大量、异构的海量信息资源中，快速有效的发掘蕴含具有巨大潜在价值的有用知识和信息，是当今

【作者】

：

邓琨

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2007年期

【关键词】

：

Web文本分类 Rough集属性约简信息抽取

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

当前网络正在深度和广度方面飞速地发展着，Internet上包含了大量的信息资源，如何在这些大量、异构的海量信息资源中，快速有效的发掘蕴含具有巨大潜在价值的有用知识和信息，是当今信息发展和信息处理领域的主流技术。Web文本分类是一种有效的数据挖掘技术，它能够合理地、有效地组织海量信息资源，向用户提供简单有效的检索服务，被广泛应用于自动标引、文本过滤和词歧义切分等文本自动处理技术。本文阐述的Web文本分类技术以Rough集理论为基础，其主要思想是在保持分类能力不变的前提下，通过知识约简，导出问题的决策或分类规则。本文分析了Web文本分类的特点，比较完整地描述了Web文本分类的过程，包括Web文本表达，训练和分类过程；研究和分析常用的Web文本分类的算法以及各自的特点，并提出将Rough集应用到Web文本分类的必要性和优势；深入研究和分析了Rough集的基本理论在Web文本分类中的应用问题，尤其是属性约简问题，它能删除冗余属性，提高系统潜在知识的清晰度，降低发现规则的时间复杂性；详细阐述了基于Rough集理论的Web文本分类技术，并提出一种新的属性约简方法——同类属性约简，此方法能极大减少运算量，加快分类训练的速度，提高了分类性能；阐述了利用Rough集理论对Web文本进行信息抽取，主要是抽取分类规则；提出将同类属性约简方法应用于Web信息抽取，可获得各类信息的关键字，并可计算出各个关键字的重要性。

其他文献

基于小波分析的音频分割与聚类

随着互联网上多媒体数据的日益增多，人们面对的信息量是以“海量”来形容的。如何从网上众多信息中检索出自己的所需，是信息检索的一个难点。传统的基于文本的检索由于其自身的

学位

音频检索小波分析音频分割音频聚类

基于GCC的DSP芯片编译器的研究与开发

随着新型嵌入式芯片层出不穷，相应的高级语言编译器是必不可少的。然而，编译器的复杂性决定了不可能在短时间内重新为一款新型芯片开发出高级语言编译器。因此，不断出现的新型芯

学位

DSP芯片编译器RTL语言代码生成后端移植代码优化

面向农业专家系统的自然语言理解接口方法研究

随着信息技术的广泛普及和应用，人们对知识服务的需求越来越强烈。知识服务离不开大型知识库的支持。仅仅依靠繁重的手工劳动来建设大型知识库，必将严重影响知识服务的能力和质

学位

专家系统自动知识获取格语法语义网络

基于SIP代理的3G-WLAN互通研究

移动通讯技术的发展在近年来受到极大的关注，第三代移动通讯系统(Thirdgeneration，3G)提供了更大的覆盖范围、高速移动能力、完整的安全和计费机制以及全球的移动漫游功能。另

学位

会话发起协议VoWLAN协议栈IP多媒体子系统无线局域网SIP协议

MPEG-4编解码技术及应用研究

随着信息社会的发展，多媒体技术得到了越来越广泛的应用。在多媒体世界中，视频技术充当着关键的角色，尤其在视频监控、流媒体和数字电视领域。在实际应用中，视频技术与嵌入式系统

学位

MPEG-4运动估计多媒体技术嵌入式视频视频技术

改进关联规则算法在Web挖掘中的应用研究

在竟争日益激烈的网络经济中,只有赢得用户,才能最终赢得竞争的优势。网站是企业进行信息发布的平台,是企业对外的形象和窗口。随着Web站点规模和复杂度的增加,站点的设计和

学位

关联规则数据挖掘Web访问信息挖掘电子商务

基于JXTA体系的P2P网络搜索技术及安全研究

自2000年Napster与唱片公司的一场官司将P2P重新带入人们的视线以来,P2P的发展日新月异。由于P2P的发展不需要服务器,给用户带来了极大的便利,各种基于P2P的应用迅速发展。但

学位

对等网络JXTARPV搜索机制CA安全

AODV网络路径修复及路由优化的研究

移动Ad Hoc网络是一种具有特殊目地的无线自组网络，其路由设计问题是当前无线通信领域研究的热点。随着硬件设备工艺的不断改进和基础研究的不断深入，Ad Hoc网络已逐步从军事应

学位

Ad Hoc网络AODV路由协议本地路径修复路由优化

IEEE 802.16e终端的MAC层带宽调度的研究与实现

随着无线通信技术的发展，各种新的业务相继出现，这些业务在带宽、时延等方面的要求互不相同。无线城域网技术作为有竞争力的下一代无线网络技术，己经把对多种业务提出QOS(服务质

学位

IEEE 802.16带宽调度QoS双向链表无线城域网

EDIFACT文电系统在企业中的安全研究与实现

目前,EDI是电子商务最重要的组成部分,是国际上广泛采用的自动交换和处理商业信息和管理信息的技术。UN/EDIFACT报文是唯一的国际通用的EDI标准。利用Internet进行EDI已成为

学位

电子数据交换UN/EDIFACTEDIFACT文电系统

基于Rough集的Web文本分类及其信息抽取研究

与本文相关的学术论文