论文部分内容阅读
文本分类中特征提取对分类效果有较大的影响,传统的特征提取方法在特征分布信息的量化方面存在不足。为此,提出一种基于特征词类内、类外平均词频的特征提取算法。算法通过特征词的平均词频类间集中度和文档频类间集中度来计算特征词的权重,能够更准确地反映特征词的分布情况。通过实验结果比较,可以证明,该算法有效地提高了分类效果。