论文部分内容阅读
随着互联网的快速发展,每时每刻都产生着大量有价值的数据,数据的自动分类已经成为研究热点之一。针对不同的数据和不同的需求,往往需要不同的处理方法。本文针对评论数据提出了基于增强语义的分类算法SeMep,针对多标签数据提出了基于随机游走的分类算法MLRW,主要工作包括以下三点:1.提出了基于增强语义的分类算法SeMep。以乐评数据为例,除了评论自身携带的文本信息,SeMep还通过分析与被评论音乐对象相关的语义音乐信息来增强乐评分类的预测精度。对于类别未知的评论,我们提出一种启发式算法,用于给出该评论属于不同类别的概率。同时,我们给出了一种通过度量分类器类别散度来有效合并多分类器输出结果的方法。此外,SeMep还包括了一个可选的基于规则的语义后处理过程,用于调整某些类别的预测概率。2.提出了基于随机游走的分类算法MLRW。MLRW将多标签数据映射成随机游走图,并在图上应用随机游走过程,其输出结果表征了标签未知数据与每个标签的相似性。MLRW同时提供了多标签分类和多标签排序问题的解决方案。作为多标签排序问题的解,MLRW在预测类别未知数据时,通过结合条件概率模型,给出该数据具有每个标签的概率分布;作为多标签分类问题的解,MLRW将原始的多标签问题转换为若干的二值分类问题,进而应用传统的单标签算法得到预测结果。3.基于Weka平台,本文设计并实现了SeMep和MLRW的原型系统并进行了详细的实验。针对SeMep的实验结果表明SeMep能够有效且高效的预测乐评属于每个类别的概率,基于分类散度的分类器组合方法能够达到比子分类器单独使用时更好的分类结果。我们在公开的文本、图像、视频和生物化学数据集上将MLRW和许多最新提出的多标签算法进行了细致的对比。实验结果表明,MLRW能够有效并且高效的解决多标签排序和分类问题,综合来看,MLRW的输出结果优于已有的多标签方法。