论文部分内容阅读
针对维吾尔文文本分类中的"标注瓶颈"问题,研究半监督文本分类。将期望最大化(expectation maximization,EM)算法和基于质心向量(Centroid vector)的分类算法相结合,提出一种半监督文本分类算法Centroid-EM,解决在Centroid分类器下,结合少量已标注样本和大量未标注样本来提高分类器性能的问题。在维吾尔文文本数据集上的实验结果表明,未标注样本的加入能够改善基于Centroid的分类方法在维吾尔文文本数据集上的分类效果。