论文部分内容阅读
随着计算机技术的不断普及,人类的知识正通过互联网这个平台不断的实现资源共享。但是,由于互联网上的资源是非常庞大、无组织且不断更新的,人们想要从浩瀚的互联网资源中及时地提取出自己关注的内容是非常困难的。因此,文本挖掘技术应运而生。而文本特征抽取,是提高文本挖掘效率和正确率的根本前提。
粗糙集理论是20世纪发展起来的一种新的处理模糊性和不确定性知识集合的数学工具。在信息系统分析,数据挖掘等领域具有很高的应用价值。
本文重点介绍了粗糙集理论的基本概念、基本方法。分析了当前比较流行的文本特征抽取的方法,从算法的特征约简率和文本正确分类率两个方面,对当前算法进行了比较与分析。在此基础上,本文根据文本特征约简的根本目的,以及粗糙集理论关于决策属性相对于条件属性的依赖程度的基本原理,提出了新的文本特征属性重要度的计算方法,该文本特征属性重要度是基于特征权重在文本类内方差和类间方差而计算得到的。这种文本特征属性重要度的计算方式,可以根据文本特征属性的分类能力确定该特征属性的重要度。在文本预处理阶段,本文的基于WordNet将文本词条向量提升为文本概念向量,解决了“同义词”问题。为了进一步提高文本特征的约简率,本文提出了属性相关度分析方法,该方法可以确定两个特征属性相对文本分类所起到作用的近似程度,并在此基础上剔除相关度较高的属性,从而提高属性约简率。结合WordNet、新的特征属性重要度定义,以及属性相关度分析理论,本文设计了一套完整的文本特征约简算法(Text Feature Extraction based on Rough Set,TFERS),该算法充分提高了文本特征的约简率和文本正确分类率。
最后,本文在Reuters-21578测试集合上对经典的LSI算法、Songbo Tan等人的DB2算法、以及本文提出的TFERS算法进行了对比实验,并分析实验结果数据,每种方法的优劣及其形成的原因。为文本特征抽取算法的进一步研究积累了一定的经验。