论文部分内容阅读
为了提高支持向量机用于解决中文交集型歧义的能力,研究了用于表示特征向量的4种统计量.首先,分别用互信息、附属种类、二字词频和单字词频单独描述特征向量,然后将其他的统计量分别与分类性能最佳的统计量结合以进一步提高分类的正确率.实验结果表明,采用互信息、单字词频和附属种类表示的特征向量所取得的分类性能最优,正确率可达94.39%.与常用的词概率模型相比,正确率提高了6.62%.由此证明了特征的选择和表示方法对提高分类性能的有效性.