论文部分内容阅读
当前网络正在深度和广度方面飞速地发展着,Internet上包含了大量的信息资源,如何在这些大量、异构的海量信息资源中,快速有效的发掘蕴含具有巨大潜在价值的有用知识和信息,是当今信息发展和信息处理领域的主流技术。Web文本分类是一种有效的数据挖掘技术,它能够合理地、有效地组织海量信息资源,向用户提供简单有效的检索服务,被广泛应用于自动标引、文本过滤和词歧义切分等文本自动处理技术。本文阐述的Web文本分类技术以Rough集理论为基础,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出问题的决策或分类规则。本文分析了Web文本分类的特点,比较完整地描述了Web文本分类的过程,包括Web文本表达,训练和分类过程;研究和分析常用的Web文本分类的算法以及各自的特点,并提出将Rough集应用到Web文本分类的必要性和优势;深入研究和分析了Rough集的基本理论在Web文本分类中的应用问题,尤其是属性约简问题,它能删除冗余属性,提高系统潜在知识的清晰度,降低发现规则的时间复杂性;详细阐述了基于Rough集理论的Web文本分类技术,并提出一种新的属性约简方法——同类属性约简,此方法能极大减少运算量,加快分类训练的速度,提高了分类性能;阐述了利用Rough集理论对Web文本进行信息抽取,主要是抽取分类规则;提出将同类属性约简方法应用于Web信息抽取,可获得各类信息的关键字,并可计算出各个关键字的重要性。