论文部分内容阅读
随着互联网技术的蓬勃发展及其普及应用,用户迈入了信息快速发展的时代。一方面,如此庞大的信息库满足了用户对各类信息的需求,而另一方面,信息库中内容过于繁杂,想要准确检索到所需信息已成为一个难题。为了解决此类由信息过载引起的问题,文本分类技术被提出,文本分类是依据已标记类别的信息,判别新信息的类别,能有效处理和组织互联网上的海量信息,它可以让用户更加方便快捷地获得所需信息。目前,虽然已有很多针对分类性能改进的方法,但随着信息库的快速膨胀,执行分类算法时,面临着如何快速准确找出具备代表性数据的问题,特征选择和特征加权对该问题有着最直接的影响,因此,本文主要围绕这两个过程进行深入研究,并提出相应的改进方法为:基于蚁群算法的特征选择,以及结合类别先验信息和特征项分布情况改进的加权方法。本文的主要工作可概括为:1.重点介绍了几种典型的特征选择方法和特征加权方法,分析了它们的优势与不足。2.针对文本分类中初始特征空间维数过高及特征冗余问题,结合蚁群算法和特征选择过程,采用了基于蚁群算法的特征选择方法。该方法基于对评估函数、状态转移规则和信息素更新规则的研究设计,并引入局部搜索机制,由此可有效排除大量的关联特征和冗余特征。3.针对传统的TF-IDF特征加权方法只是单纯的考虑到特征项的词频,而忽略了类别先验信息及特征项在整个训练集分布情况对分类结果的影响,本文分两步对传统TF-IDF加权方法进行改进:首先结合TF-IDF加权方法和TF-RF加权方法,提出TF-RFIDF特征加权方法;然后在TF-RFIDF加权方法的基础上,根据熵的概念,推出类内和类间信息分布熵的参数,由此提出一种有效的加权方法TF-RFIDFimp,进一步提高了特征项权重的准确性。实验表明,改进后算法的查准率、查全率及F测试值均比传统算法的值有所提高,从而进一步证实了改进算法提高了文本分类的性能。