论文部分内容阅读
随着当今社会以及信息技术的快速发展,多标签分类学习问题成为现实社会中的一类重要的分类问题,其在实际中有着十分广泛的应用,比如文本分类、图片场景分类、生物基因功能分类等方面。多标签分类学习问题已经成为机器学习领域的一个研究热点,学者先后提出了许多种多标签学习算法来解决多标签分类问题,总的来看这些算法可以分为两类:问题转化法和算法改进法,问题转化法是将一个多标签分类问题转化为若干个单标签分类问题,算法改进法是改进原有的单标签分类算法使它可以用来处理多标签分类问题。本文介绍了多标签分类学习,然后重点讨论了一些重要的多标签分类算法:基于集成学习的多标签分类算法,基于支持向量机的多标签分类算法,基于神经网络的多标签分类算法,基于覆盖算法的多标签分类算法和k近邻多标签算法;分析了这些算法的优点与不足,针对k近邻多标签算法的某些不足进行改进,从而提出一种新的多标签分类算法。主要完成一下内容:1、对多标签学习以及一些重要的多标签分类算法进行综述,阐述这些多标签分类算法的具体过程,指出它们在实际应用中的成功之处与不足,对某些算法今后的改进工作做了初步探讨。2、针对k近邻多标签分类学习算法(ML-kNN)中的在每次学习的过程中都预先指定样本的样本近邻点个数而不考虑样本近邻点的具体的分布情况,对其中的不足进行了分析,提出改进型算法。3、将粒计算的思想引入到k近邻多标签算法的样本近邻点集的选取过程中,提出基于粒计算的K近邻多标签学习算法(ML-GkNN),通过对粒度粗细的调控来选择样本的近邻点集,使得领域内的样本点之间具有高相似,并且只有与中心样本点具有高相似性的样本点才能进入此中心样本点近邻点集,近邻点集中样本点的个数不是固定的,它是由粒度的粗细和近邻样本点的分布来决定的,实验结果表明该算法的大多数的评价指标优于现有的多标签学习算法。