论文部分内容阅读
信息技术的快速发展带来了信息过载的问题,它使人们很难从海量的数据中找到所需的信息。自动分类技术作为解决信息过载问题的有效方法,已经在许多领域得到了广泛地应用。传统的分类假设实例仅与一个标签相关,而类似图像、文本、生物信息等领域中,实例往往都与多个标签相关,传统分类并不再适用,因此多标签学习成为重要的研究课题。此外,传统分类假设所有分类错误的代价是相同的,但是在现实世界的应用问题中,不同的分类错误往往会造成显著的不同代价,因此,代价敏感学习在此类应用中具有重要意义。社会标签推荐作为近来研究的热点问题,由于其标签的相关性和包含噪音信息两大特点,使得多标签分类和代价敏感分类得以应用于社会标签推荐。本文主要研究多标签分类算法和代价敏感分类算法,并根据社会标签的特点,对多标签分类算法和代价敏感分类算法及其两者结合在社会标签推荐中的应用展开了相关研究。首先,本文对多标签分类与代价敏感分类的概念进行了阐述,分别总结了多标签分类和代价敏感分类的相关算法,并分析了主要算法的优缺点。然后,提出了基于标签聚类的多标签算法,该算法通过标签平衡k-mean聚类来挖掘那些隐藏在训练集的重要标签组合,并将其按照一定方式添加到原训练集形成新的训练集,再对新训练集进行学习得到分类器,以此改进原有基于LP的多标签分类算法。经过在多标签数据集上的实验表明,该算法能够有效发现训练集中隐藏的重要标签组合,提高算法的分类性能。最后,根据社会标签推荐的两大特点,本文将社会标签推荐的问题分别建模成多标签分类问题和代价敏感分类问题进行了研究,在此基础上,结合代价敏感分类与提出的多标签分算法,并应用于社会标签推荐。经过在社会标签数据集上的实验表明,结合算法相较于单独使用代价敏感分类或多标签分类算法,无论是从常规评价指标还是代价敏感评价指标,都具有更加优越的性能。