多标签学习中关键问题研究

来源 :西安电子科技大学 | 被引量 : 6次 | 上传用户:a504468075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技的发展,越来越多的应用涉及到多标签问题,如文本分类、图像标注、基因功能分析等。与传统的单标签(二类分类或多类分类)问题不同,多标签问题中允许一个示例可同时与多个标签相关联,标签之间存在更丰富的标签关系,导致多标签问题的分析变得更加复杂。多标签学习研究的是如何给多标签问题中的待测示例赋予所有合适的类别标签。由于标签关系的存在,多标签学习比传统的单标签学习复杂得多,更加难以分析。出于应用需求,越来越多的研究人员开始多标签学习研究。多标签学习研究已成为机器学习和模式识别领域的研究热点之一。虽然多标签学习研究已经取得了很大的进展,但其仍面临着一些关键问题的挑战,如已有多标签分类算法的分类性能仍有待提高、较高的标签空间维度导致较高的训练和测试时间成本以及较高的特征空间维度容易导致训练模型过拟合等亟待解决的挑战性问题。因此,多标签分类、标签空间降维和多标签维度约简是目前多标签学习研究中的三个重点研究方面。其中,多标签分类算法研究以提升分类性能为目标;标签空间降维算法以降低标签空间的维度为手段利用标签关系,以期提高分类性能,同时减少训练和测试时间;多标签维度约简用于解决多标签学习中的“维度灾难”问题,通过降低特征空间的维度,以获得更好的示例表示。本论文正是围绕这三个方面开展多标签学习研究,主要工作包括以下几点:1.鉴于标签间常常有簇状标签关系,提出了基于簇状本征标签关系的多标签分类算法。该算法中每个标签的权值向量由公共分量和独有分量两部分构成。公共分量是所有标签共有的部分,对应示例中的背景信息;独有分量归单个标签所有,对应示例中该标签的独有信息,标签之间的本征关系反映在独有分量之间的关系上,而标签之间往往有簇状关系。本文所提出的方法基于上述权值向量结构对支持向量机进行扩展,在所有标签的独有分量上通过施加簇状关系正则项利用簇状标签关系提高分类性能。通过放松正交约束条件,文中将非凸问题变为联合凸的半正定规划问题,并利用基于交替迭代更新规则的块坐标下降方法提出了该问题的一种优化方法。实验结果表明,所提出算法的分类性能明显优于相关多标签分类算法。2.针对现有多标签分类算法中所有标签用同一示例进行训练的问题,提出了一种利用示例分布情况为每个标签构造更易判别的新示例表示的多标签分类算法。由于同一示例表示无法较好地反映各标签的特点,为此,所提出的算法基于一对所有策略将多标签分类问题转化为多个二类分类子问题,每个标签对应一个子问题。每个子问题中正、负示例局部结构之间的关联关系对构造高效分类模型有着很重要的作用,为挖掘这些关联关系,本文提出了一种新的谱聚类方法一谱示例校准。所提出的多标签分类算法利用谱示例校准算法得到聚类结果为每个标签构建更符合标签特点的示例表示,然后基于新的示例表示训练二类分类模型。实验结果验证了该算法的有效性。3.为在标签空间降维过程中充分利用示例信息,提出了一种基于依赖最大化(Dependence maximization)的标签空间降维算法。该算法的目标函数包括两部分:编码损失和依赖损失。编码损失衡量用主成分分析方法对标签矩阵压缩过程中的信息损失。当标签向量经过降维变成码字向量后,还需学习从特征空间到码字空间的回归模型,故示例和码字向量之间的关系很重要,依赖损失便是用来衡量两者之间依赖关系的损失情况。为利用示例信息,所提出的算法首次用希尔伯特-施密特独立标准来衡量依赖损失,以能更充分地挖掘并利用示例和码字向量之间的依赖关系。此外,我们还探讨了两种不同示例核矩阵对所提出算法性能的影响,其中一种示例核矩阵基于全局结构信息,另一种示例核矩阵基于局部潜在结构信息。实验结果表明,该算法不仅大大缩短了训练和测试时间,还能有效提高分类性能:利用后一种示例核矩阵的算法具有更好的分类性能,而其训练和测试时间与利用前一种示例核矩阵的算法相当。4.针对示例和标签向量中的孤立点问题,本文提出了一种基于l2.1范数的鲁棒标签空间降维算法。由于数据采集设备的问题,数据集的示例中往往存在孤立点问题;标签向量孤立点是指与标签空间降维算法中所利用的主要标签关系明显不符的标签向量。目标函数包括编码损失和依赖损失两部分。编码损失衡量用主成分分析方法对标签矩阵压缩过程中的信息损失。依赖损失衡量示例和码字向量间线性回归关系的损失情况。为解决孤立点问题,该算法目标函数中的编码损失和依赖损失均采用l2.1范数。所得到的目标问题是一个非光滑问题,本文提出的变形交替迭代更新方法有效地解决了该问题,并对其进行了收敛性分析。实验结果表明,所提出的鲁棒标签空间降维既能缩短训练和测试时间,又能提高分类性能。此外,在标签受污染的数据集上的实验结果表明,与其它标签空间降维算法相比,该算法具有更好的鲁棒性。5.现有多标签维度约简方法没有利用局部潜在结构,而传统维度约简方法研究已表明这些结构的有用性。为此,本文提出了一种新的多标签维度约简方法一多标签局部判别嵌入。该方法利用与实际情况更符合的非对称标签关系矩阵,这样既赋予了包含信息量多的示例更大的权重,又克服多标签学习中的过计数问题;通过构建两个邻接图集合来分析局部潜在结构,以更好地挖掘并利用数据内部的几何结构,使维度约简结果有更好的类内紧致性和类间可分性。通过对得到的优化问题施加正交约束条件,获得一组正交投影向量。实验结果表明,与相关多标签维度约简方法相比,该方法的维度约简结果更合理,能产生更有判别信息的特征,从而取得更好的分类精度。
其他文献
随着社会的进步和护理学专业的发展,护理早已不在是辅助的女性特质的专业,从20世纪中期开始,护理学专业逐渐发展为集科学性与艺术性为一体的综合性应用学科。作为一项高技术、科
今天对话的主题是实践企业的公民责任——如何成为一个好的企业?今天我们强调的是实践,强调的是方式,强调的是如何成为。今犬的论坛分两节进行.第一节是请各位嘉宾就自己公司的企
<正>又是一年深秋,又是一个落叶缤纷的日子。校园里的银杏灿烂地黄了,又潇洒地落了。记得春天我提醒孩子们,畅学园有一棵美丽的银杏树的时候,他们还不怎么在意,因为那时绿色
相对于传统的Sn-Pb焊料,无铅焊料更容易氧化,润湿性较差,从而影响波峰焊接质量。N2保护可以降低无铅焊料的氧化,提高无铅焊料的润湿性,从而提高波峰焊接质量。从润湿性的机理
<正>&#39;每一个机会都是一粒种子,珍惜它,培育它,或是参天大树,或是一缕馨香,或是茵茵碧草,即便到最后,得了个空花盆,也可以收获内心的成长。&#39;身为青年教师的我,总怀着
主要根据环氧树脂的固化反应机理,从环氧树脂固化过程中产生的固化热等方面,对闪烁光纤阵列在研制过程中用环氧树脂灌注时出现“沸腾”的现象进行了重点分析,同时提出了预防措施
目的探讨与新生儿呼吸窘迫综合征(neonatal respiratory distress syndrome,NRDS)发生相关的因素,从而为降低NRDS发病率提供临床资料。方法2011年1月-2014年3月期间选择在本
12月27日,十二届全国人大常委会第三十一次会议表决通过了全国人大法律委员会、教育科学文化卫生委员会、华侨委员会、环境与资源保护委员会分别提出的关于十二届全国人大五次
报纸
<正>为适应垃圾分类工作开展的需要,近日,合肥市城管部局出台了《关于规范合肥市生活垃圾分类收集容器配置要求的通知》(下称《通知》),对分类垃圾桶技术参数、设置密度、设
超声技术是声学发展中最活跃的技术领域之一,在国防、生物、医学及航空航天等众多领域得到了广泛应用,而超声传感器是实现力电声多场耦合与能量转换的关键部件。随着集成电路