论文部分内容阅读
随着计算机网络技术的飞速发展,网络中各种电子形式的文本以指数级的速度增长,然而不同主题类别之间文档数量往往会出现指数级的差异。面对数据不均衡问题,传统文本分类往往会出现类别倾向性的问题,然而用户往往对少数类的分类效果关注度更高。特征选择作为文本分类的重要环节,如何在不均衡数据集下选择高类别价值的特征项,从而保证分类效果的前提下,提高少数类别的分类精度,是当前研究的难点和热点。 面对文本分类中数据集不均衡问题,本文主要对特征选择进行了一定的研究,特别是分析了卡方统计算法的不足,并在卡方统计算法的基础上提出了一种面向不均衡数据的概率方差 CHI特征选择算法。改进的内容如下: 1)引入频繁因子。高类别价值的特征项应该是经常出现的,由于卡方统计算法只考虑了文档频信息,忽略了词频信息,存在低频词倾向的问题。本文以词频概率度量特征项在不均衡数据集下的频繁程度,克服了低频词倾向和类别文档差异的问题。 2)引入类间集中因子。一个高类别价值的特征项应该集中出现在指定类中,然而卡方统计忽略了特征项在类间的分布信息。本文以文档概率为基础,计算类间文档样本方差,度量特征项在不均衡数据集下的类间集中程度,克服了类间分布信息缺失和类别文档差异的问题。 3)引入类内均匀因子。一个高类别价值的特征项应该均匀的分布在指定类各个文档中,然而卡方统计忽略了特征项的类内分布信息。本文以词频为基础,计算类内特征项样本方差,度量特征项在类内的均匀程度,克服了类内分布信息缺失的问题。 本文文本分类系统中选用SVM分类器,以一对一方法解决多分类问题。最后对复旦大学整理的语料库作为平衡和不平衡数据集下的两组实验数据,并对比分析卡方统计算法和本文改进算法在两组实验数据下的有效性。实验结果表明,基于概率方差CHI特征选择算法在均衡和不均衡数据集下表现效果更好,特别是不均衡数据集下,提高了稀有类别的分类效果。