论文部分内容阅读
随着互联网这一新型的信息传播方式的迅速普及,人们不仅可以轻而易举地获得全世界你想要的信息,还可以向全世界传递你所拥有的信息,人们在互联网上可获取的信息资源呈现爆炸式增长。同时,随着平板电脑、智能手机等网络终端的推出,以及各种社交网络的出现,如人人网、微博、微信、各种招聘网站和各种婚恋网站等等,更大大加快了互联网上数据信息增加的步伐。人们每天都会在这些应用上不断更新着各种各种的数据,文字、图片、视频信息等。有数据显示,互联网上每天都会有指数级的信息数据出现,人们已经处在一个信息极为膨胀的年代。面对这样如此庞大的信息资源,如何对其进行有效合理的管理,使人们获取目标信息更为方便快捷,已经成为研究的热点。而文本挖掘中的文本分类技术有效的解决了这一问题。文本分类是一项非常复杂的工程,本文在对其各个流程进行仔细了解分析之后,重点研究了特征降维和特征加权两方面的过程。经过文本预处理后的文本被表示为一个具有高维度和稀疏性的特征项向量空间,这不但增加了分类的时间复杂度和空间复杂度而且还大大影响到分类的精度。特征降维可以有效地解决这一难题,包括特征抽取和特征选择两种。相比较之下,特征选择算法因其过程比较简单,且可以取得比特征抽取算法更理想的降维效果,在文本分类系统中受到广泛应用。本文首先简要介绍了几种传统的特征选择算法,其中重点介绍被学者证明特征选择效果比较好的信息增益算法。分别从特征项频数在类内、类内位置和不同类间对算法的影响进行了分析,针对传统的信息增益算法对特征项频数考虑不足的弊端,提出一种改进信息增益特征选择算法IGimp。由于每个特征项对文本类别的分类能力都不一样,特征项的权重恰能体现其对文档表示能力的大小,而不同的特征权重算法对文本空间向量的构造会产生很大影响。本文首先简单介绍几种传统的特征项权重算法和它们的优缺点,随后详细分析传统特征加权算法TD-IDF的不足,首先针对IDF的不足进行改进,之后根据熵的概念提出类内和类间信息分布熵参数因子进一步对算法进行改进。为验证本文提出的改进信息增益特征选择算法和改进TF-IDF特征加权算法的有效性,文章在中文文本分类实验平台上进行两项对比实验。第一项实验是将改进的IGimp算法同另外四种常见的特征选择算法作比较,而第二项实验是将改进的TD-NIDFimp算法同传统的TD-IDF算法作比较。实验利用评价指标查准率、查全率和F1评估值对各算法进行分析比较,对比结果表明本文提出的IGimp和TD-NIDFimp改进算法都优于传统的算法,具有一定的有效性。