论文部分内容阅读
文本特征选择是在文本自动分类中最重要的一个环节。为了更好地解决维吾尔文文本分类中特征空间的高维性和文档表示向量的稀疏性问题,提出一种基于特征的类别分布差异和信息熵的维吾尔文文本特征选择方法。该方法不仅要考虑特征在类别间的分布情况,而且也要考虑特征在类别内的分布情况。采用本方法对维吾尔文文本语料进行了分类实验,并与一些传统的特征选择方法进行了比较。从结果来看,本方法在所选特征数更少的情况下,达到了比其他方法更高的分类MacroF1值85.3%,比传统的IG和CHI等方法在MacroF1值上分别高出了4