论文部分内容阅读
多视图多标记学习作为机器学习中最具潜力的技术之一,近年来备受关注且已被广泛应用至异质多媒体数据分析和生物信息学等诸多领域中。该技术旨在从不同的角度出发,对有多个特征表示的事物进行描述。在多视图多标记学习中,一个对象拥有多个属性视图且被多个概念标签所标注。传统的多视图多标记学习方法旨在通过对同一对象的多个属性视图进行整合以获取其所对应的标记,且这些多视图数据融合方式大多都是监督式的,在模型训练过程中需要大量的有标记样本作为输入。然而,在真实世界中,对多视图多标记对象进行标注代价十分昂贵,需要耗费大量的人力和财力,且同一对象的多个视图之间信息的交流与传递对于该对象的学习表现力也会产生很大影响。进一步地,为了更好地解决多视图样本学习过程中每个对象在不同视图上多个子样本之间存在的语义鸿沟,衍生出了另外一种更为复杂的多视图多示例多标记学习框架。该框架的学习目的是通过整合一个样本(包)在多个视图中所含子样本(示例)的特征来获取该样本所对应的多个概念标签。传统的多视图多示例多标记学习算法大多都是监督式的,且忽略了包、示例以及标记这3种类型对象之间所存在的多种关联关系对样本学习表现力的影响。此外,这些算法也无法适用于部分包在多个视图上的匹配信息未知,以及标记不完整的弱监督场景。针对这些不足之处,本文围绕多视图多标记学习框架,并结合协同训练算法、矩阵分解、半监督学习和主动学习等技术对多视图复杂对象进行建模,完成的主要工作如下:1.提出了一种新的多标记协同训练算法(Multi-label Co-Training,MLCT),通过引入大量的未标记样本,来更好地探索多视图多标记这一复杂对象多个视图之间信息的交流与传递对样本学习表现力的影响。MLCT首先利用成对标记之间的共现信息来解决协同训练与多标记学习结合过程中常见的类别不平衡问题。然后设计了一种新的信息交换策略,通过找出对每个视图而言具有较高预测置信度的样本及标记,并将该信息传递给其它分类器以提升样本的预测表现力。在多个公开的多视图多标记基准数据集上的研究验证了该模型的有效性。2.设计了一种新的基于协同矩阵分解的多视图多示例多标记学习算法(Multi-view Multi-instance Multi-label Learning Based on Collaborative Matrix Factorization,M3Lcmf)来探索包、示例和标记这3种对象之间存在的复杂的关联关系以及这些对象在不同视图上内部结构的差异性对样本学习效果的影响。该方法首先对由包、示例和标记节点所构成的多视图异构网络中多种不同类型的关联关系数据进行编码;然后再协同这些关联关系矩阵进行协同分解来获取关于包、示例与标记的低秩表示;并通过对这些关联关系矩阵进行选择性整合来探索样本与标记之间存在的潜在关联。在多个多示例多标记基准数据集上的实验结果证明了该方法可以在包级别和示例级别上取得较好的预测表现力。3.提出了一种更灵活更开放的弱监督多视图多示例多标记学习算法框架(Wealy-supervised Multi-view Multi-instance Multi-label Learning,WSM3L)来解决包在多个视图上匹配信息部分未知以及标记缺失的问题。该模型首先利用多视图字典学习为多视图多示例多标记对象学习一个多视图共享字典以及与每个视图相对应的编码矩阵;其次WSM3L结合样本在包级别上的标记相似度与特征编码相似度来对不同视图中匹配关系未知的包进行匹配;最后利用多个视图中包的近邻信息以及示例级别上的标记预测信息来补全包的缺失标记。在多个基准数据集和真实数据集上的包级别预测结果和示例级别预测结果显示了该模型的有效性和灵活性。4.通过结合主动学习和多视图多示例多标记学习,提出了一种新的算法框架(Multi-view Multi-instance Multi-label Active Learning,M3AL)来降低未标记多视图多示例多标记复杂对象的标注成本。M3AL先利用多视图自表达学习来捕获所有样本在多个视图上的共性与差异性,并结合未标记样本在多个视图中示例的分布情况来设计不确定度量策略以筛选出最不确定的样本-标记对。通过对这些筛选出来的样本-标记对进行查询从而在提升分类器学习性能的同时来降低多视图多示例多标记复杂对象的标注代价。在多个公开数据集上的结果表明,使用该方法可以有效地降低多视图多示例多标记复杂对象的标注成本,提高分类精度。