论文部分内容阅读
在现实世界中,很多时候一个事物可以同时和一组标签相关联,这种情况可以被建模为多标签学习。多标签学习是指一个实例可以同时关联多个标签而不是单个标签。近些年多标签学习在越来越多的应用场景中被广泛运用,包括文本分类、图像领域、生物信息学、web挖掘等领域。多标签学习由于其数据集的特殊性,还面临着很多困难和挑战。其中一个最常见的问题是潜在可能的输出标签空间的巨大规模。为了缓解这个问题,一些方法选择利用标签相关性来减少预测过程中的输出空间。然而,如何挖掘标签相关性是一个很大的问题。此外,标签不平衡是多标签分类中普遍存在的另一个问题,当前的不平衡校正方法经常直接使用单标签方法,不能考虑标签相关性。针对多标签学习的相关问题和挑战,本文的主要工作有:1.针对标签之间关联性,提出了基于主题模型的多标签学习算法MLLT。首先本文利用主题模型去挖掘标签和标签集中隐含的标签主题,从而进一步的利用标签主题作为额外的标签之间关联信息,将其引入学习过程中,使其成为新的特征,构成新的多标签训练集。最终在得到一部分从标签主题得到的关联信息后,本文借助了BR算法的思想,直接将多标签学习拆分为多个单标签学习过程进行学习。且不难发现,该算法的时间复杂度很低,基本是接近BR算法的。实验表明,该算法在多个不同规模不同领域的标准数据集上,均取得了不弱于目前先进算法的效果,而从算法效率来说,它和算法BR接近,大大优于现在主流的多标签学习算法。2.基于算法MLLT,本文进一步提出了相应的扩展和改进,使其可以更加灵活,准确,且使用范围更加广泛。首先,考虑到多标签学习算法MLLT是通过标签主题来引入一部分标签关联信息,本质上其实是对多标签数据集的改造。本文将任意现有的先进的多标签学习算法作为基分类器引入,这样一来多标签学习算法MLLT就被扩展为一个多标签学习框架MLLTM,该框架可以适用于绝大多数已有的多标签算法,可以在原有算法性能的基础上得到额外的提升和突破,同时算法的时间效率和原算法接近。接着,本文具体讨论了标签主题个数的选取策略,本文采用一个递增的主题个数序列来取代固定的主题个数,从最小值开始依次选取作为标签主题个数,依次将预测得到的主题加入到特征中为更大值的标签个数的预测提供额外信息,这样一来前面预测的标签主题就可以为后面待预测的标签主题提供额外信息,从而提升准确率。迭代的重复上述过程直至序列终止,以最终生成的数据集去预测标签,从而使得算法可以随着序列的增长性能得到稳定的提升,同时所花费的时间复杂度也和原算法基本接近。最后,本文针对在包含过多单类别样本的多标签数据集上很难挖掘标签关系这一问题,我们进一步扩展框架,构建一个二元分类器的训练集,将是否为多标签样本作为类标,以此分类器作为一个前置处理。实验表明,通过该策略改进和优化框架,使得对单标签样本过多的数据集上效果不好的问题得以很好的解决,也使得框架具有更好的完备性和普适性,同时所花费的时间复杂度也和原算法基本接近。3.针对多标签类别不均衡的问题,传统的多标签类别不均衡的处理策略往往伴随着牺牲了标签关系信息,所以本文希望在前文工作的基础上针对类标不均衡问题进一步扩展算法框架,从而兼具考虑标签相关性的发掘和类别不平衡的处理。本文提出了一种面向多标签不均衡问题的算法框架MLLTC-IMB。我们针对每一个标签,将其与每一个主题构建一个多类分类器,去评估每一个标签和每一个标签主题的共生关系。最终再以MLLT框架的结果和多个多类分类器的结果集成得到最终结果,计算合适的阈值,得到最终的分类模型。这样一来,该方法同时兼顾了标签的关联性和类别不均衡问题。实验表明,该框架一方面可以在原有的基础上继续提高性能,同时非常擅长处理多标签的类别不均衡的情况。唯一的弱点在于由于额外训练了多个多类分类器,使得时间的成本有所提升。4.以实际的中医帕金森诊疗的应用场景为例,将中医量表诊断帕金森这一问题抽象出来,建模成一个多类标问题,并构建相应的多标签数据集。分析数据集特点,发现数据集中单标签样本比例过高,且有着严重的类别不均衡问题,符合本文的研究场景。通过实验分别对比了传统多标签算法,框架MLLTC,框架MLLTCS以及框架MLLTC-IMB上的结果。实验证明,本文提出的框架在处理多标签问题的标签关联性,单类别样本过多以及类别不均衡问题上都有着很好的应对模式,最终取得了具有突破性的结果。同时,利用本文提出的框架建立了帕金森量表诊疗的分类模型,从而为医生在诊断过程中提供一个标准化的参考和辅助,同时在挖掘的过程中得到的一些潜在可解释规律可以由医生做进一步的研究和分析。