基于主题模型的多标签学习问题研究

来源 :南京大学 | 被引量 : 0次 | 上传用户:haoaini0413
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实世界中,很多时候一个事物可以同时和一组标签相关联,这种情况可以被建模为多标签学习。多标签学习是指一个实例可以同时关联多个标签而不是单个标签。近些年多标签学习在越来越多的应用场景中被广泛运用,包括文本分类、图像领域、生物信息学、web挖掘等领域。多标签学习由于其数据集的特殊性,还面临着很多困难和挑战。其中一个最常见的问题是潜在可能的输出标签空间的巨大规模。为了缓解这个问题,一些方法选择利用标签相关性来减少预测过程中的输出空间。然而,如何挖掘标签相关性是一个很大的问题。此外,标签不平衡是多标签分类中普遍存在的另一个问题,当前的不平衡校正方法经常直接使用单标签方法,不能考虑标签相关性。针对多标签学习的相关问题和挑战,本文的主要工作有:1.针对标签之间关联性,提出了基于主题模型的多标签学习算法MLLT。首先本文利用主题模型去挖掘标签和标签集中隐含的标签主题,从而进一步的利用标签主题作为额外的标签之间关联信息,将其引入学习过程中,使其成为新的特征,构成新的多标签训练集。最终在得到一部分从标签主题得到的关联信息后,本文借助了BR算法的思想,直接将多标签学习拆分为多个单标签学习过程进行学习。且不难发现,该算法的时间复杂度很低,基本是接近BR算法的。实验表明,该算法在多个不同规模不同领域的标准数据集上,均取得了不弱于目前先进算法的效果,而从算法效率来说,它和算法BR接近,大大优于现在主流的多标签学习算法。2.基于算法MLLT,本文进一步提出了相应的扩展和改进,使其可以更加灵活,准确,且使用范围更加广泛。首先,考虑到多标签学习算法MLLT是通过标签主题来引入一部分标签关联信息,本质上其实是对多标签数据集的改造。本文将任意现有的先进的多标签学习算法作为基分类器引入,这样一来多标签学习算法MLLT就被扩展为一个多标签学习框架MLLTM,该框架可以适用于绝大多数已有的多标签算法,可以在原有算法性能的基础上得到额外的提升和突破,同时算法的时间效率和原算法接近。接着,本文具体讨论了标签主题个数的选取策略,本文采用一个递增的主题个数序列来取代固定的主题个数,从最小值开始依次选取作为标签主题个数,依次将预测得到的主题加入到特征中为更大值的标签个数的预测提供额外信息,这样一来前面预测的标签主题就可以为后面待预测的标签主题提供额外信息,从而提升准确率。迭代的重复上述过程直至序列终止,以最终生成的数据集去预测标签,从而使得算法可以随着序列的增长性能得到稳定的提升,同时所花费的时间复杂度也和原算法基本接近。最后,本文针对在包含过多单类别样本的多标签数据集上很难挖掘标签关系这一问题,我们进一步扩展框架,构建一个二元分类器的训练集,将是否为多标签样本作为类标,以此分类器作为一个前置处理。实验表明,通过该策略改进和优化框架,使得对单标签样本过多的数据集上效果不好的问题得以很好的解决,也使得框架具有更好的完备性和普适性,同时所花费的时间复杂度也和原算法基本接近。3.针对多标签类别不均衡的问题,传统的多标签类别不均衡的处理策略往往伴随着牺牲了标签关系信息,所以本文希望在前文工作的基础上针对类标不均衡问题进一步扩展算法框架,从而兼具考虑标签相关性的发掘和类别不平衡的处理。本文提出了一种面向多标签不均衡问题的算法框架MLLTC-IMB。我们针对每一个标签,将其与每一个主题构建一个多类分类器,去评估每一个标签和每一个标签主题的共生关系。最终再以MLLT框架的结果和多个多类分类器的结果集成得到最终结果,计算合适的阈值,得到最终的分类模型。这样一来,该方法同时兼顾了标签的关联性和类别不均衡问题。实验表明,该框架一方面可以在原有的基础上继续提高性能,同时非常擅长处理多标签的类别不均衡的情况。唯一的弱点在于由于额外训练了多个多类分类器,使得时间的成本有所提升。4.以实际的中医帕金森诊疗的应用场景为例,将中医量表诊断帕金森这一问题抽象出来,建模成一个多类标问题,并构建相应的多标签数据集。分析数据集特点,发现数据集中单标签样本比例过高,且有着严重的类别不均衡问题,符合本文的研究场景。通过实验分别对比了传统多标签算法,框架MLLTC,框架MLLTCS以及框架MLLTC-IMB上的结果。实验证明,本文提出的框架在处理多标签问题的标签关联性,单类别样本过多以及类别不均衡问题上都有着很好的应对模式,最终取得了具有突破性的结果。同时,利用本文提出的框架建立了帕金森量表诊疗的分类模型,从而为医生在诊断过程中提供一个标准化的参考和辅助,同时在挖掘的过程中得到的一些潜在可解释规律可以由医生做进一步的研究和分析。
其他文献
氮沉降作为一个主要的全球变化问题,已经成为社会和科学界关注的热点。自上世纪中叶以来,随着化石燃料燃烧、化肥的生产和使用、畜牧业发展等人类活动的骤增,人为向大气中排
本文主要讨论公众与工程共同体之间的关系。他们之间的关系经历了从疏离、相关到紧密的演变过程。在历史早期,“公众参与”是工程共同体之外的议题。随着工程社会化趋势的到
目的观察饮水弯腰法对呃逆的干预效果。方法将46例胃癌呃逆患者分为观察组和对照组各23例,观察组采用饮水弯腰法,对照组使用盐酸甲氧氯普胺注射液治疗,比较两组患者接受程度及显
目的 观察康惠尔透明贴用于胃管固定的效果.方法 按随机数字表将105例脑卒中鼻饲患者分为A、B、C组各35例,A组胃管用棉绳固定,B组胃管用胶布固定,C组胃管用康惠尔透明贴固定,
随着我国电子商务的快速发展,众多零售企业优先通过线上渠道开展零售业务,而物流服务是影响线上渠道销售量和消费体验的重要因素。由于电子商务削弱了流通渠道的规模经济效应
标枪成绩的提高,与科学化的训练方法和技术的不断改进是紧密相关的。在训练与比赛中,左腿的落地支撑动作在整个投掷过程中有着重要的作用,并是动能传递的重要环节。正确的左腿支
总结14例有机锡中毒性脑病的护理。认为护理重点是做好一般护理、用药护理、心理护理、安全护理,重视出院指导。14例患者经治疗及护理,症状改善出院。
为提高高校学生体育舞蹈课的学习热情和课堂运动量,把东莞理工学院2010级体育舞蹈选项课的160名学生均分为实验组和对照组,进行为期16周32学时的课改比较实验,实验组学习精编
本文以《VFP程序设计》为例,介绍了基于Internet设计和实现的智能化网络试题库系统,为开展网络教学提供了实例。
随着城市规模的进一步扩大及私人小汽车保有量的不断增加,道路交通拥堵问题日趋严重。为缓解这一问题,提高道路运行效率,大力发展公交并提倡公共交通出行及促进其他出行方式