论文部分内容阅读
随着互联网的高速发展,人们可获取的数据量不断增大,大部分的数据是文本格式的数据,如何快速、准确、全面的从大量的数据中寻找到所需要的信息内容,已经成为了一项十分有意义的课题。文本分类可以对这些大量的文本数据进行组织和处理,目前在很多领域已经得到了广泛的应用。文本分类是一个复杂的系统工程,本文在分析和总结文本分类中文本表示模型、文本预处理、特征选择、特征加权、分类方法和分类性能评估的基础上,对特征选择和特征加权进行了深入研究。主要完成了以下工作:1.特征选择是文本分类过程中的一个重要环节,它不仅可以提高分类器的速度,节省存储空间,还能过滤一些无关特征,减少无关特征对文本分类的干扰。本文对目前常用的特征选择算法进行了详细的研究,通过比较得出了这些算法的优缺点。重点分析了其中的期望交叉熵算法,针对它的不足,并结合特征词的类间集中度、类内分散度,提出了一种基于类间集中度和类内分散度的期望交叉熵算法,将特征项在类间和类内分布的均匀程度有机地结合在一起,并通过实验证明,改进后的期望交叉熵算法有效提高了分类的准确性。2.特征加权可以对文本特征集合中的每个特征赋予不同的权重,类别区分能力较强的特征词的权重就较高,类比区分能力较弱的特征词的权重就较低。本文研究了经典的特征加权算法TF-IDF,并基于类间集中度和类内分散度对传统TF-IDF算法进行了改进,通过实验证明,改进后的TF-IDF算法有效提高了分类的准确性。3.设计并实现了中文文本分类实验平台,设计了三组实验对本文提出的基于类间集中度和类内分散度的期望交叉熵算法和改进后的TF-IDF-CD算法的有效性进行对比验证。实验结果表明基于类间集中度和类内分散度的期望交叉熵算法和TF-IDF-CD算法的分类效果比传统的期望交叉熵算法和TF-IDF算法更加优秀。