论文部分内容阅读
词频-逆文本频率(Term Frequency-Inverse Document Frequency,TF-IDF)是一种经典的基于VSM模型的权重计算方法,其算法相对简单,非常便于计算,应用较多。但该方法比较粗糙,容易导致特征空间高维稀疏。基于传统的TF-IDF特征选择思想,本文引入类别描述因子,基于类内、类间信息修正TF-IDF权重因子,提出一种包含类别信息的TF-IDF-CD(Category Description,CD)模型。该模型的TF部分含有特征项的类内频数信息,IDF部分含有特征项的类间频数信息,突出类别贡献大的特征的权重,抑制次要特征权重。最后通过文本分类实验,将其在偏斜语料和均衡语料下分别与NB、KNN等分类器结合进行文本分类实验,比较其与TF-IDF、CTD等几种方法的分类精确度。结果显示,TF-IDF-CD方法在特征项较少时已有很好分类效果。相比TF-IDF,在不同语料以及不同分类器下,其平均分类精度均有大幅提高,最低为14%,最高可达30%。相比性能较好的CTD,TF-IDF-CD与NB、SVM及DT结合,其平均分类精度均有1%~13%的提高;而在非均衡语料下,与KNN结合时其性能较CTD低2个百分点。TF-IDF-CD与对语料不均衡性较敏感的KNN结合时,其抗数据偏斜能力仍需改善。实验结果表明TF-IDF-CD特征选择方法有效,对TF-IDF的改进具有一定借鉴意义。