论文部分内容阅读
在PU文本分类中,针对文本分类中可信反例获取困难,使文本分类器性能低下的问题,提出了一种基于支持向量机的Pu文本分类器的构建。该方法采用改进的特征词权值提取方法进行特征词提取,利用OB—PCZ算法从未标识文本数据集中尽可能多地移除正例,从而获得更多的可信反例。结合支持向量机和改进的Rocchio构建了高效的文本分类器。实验表明,该方法比目前其它的面向PU学习的文本分类方法具有更高的分类质量。