多视图多标记学习方法研究与应用

来源 :西南大学 | 被引量 : 0次 | 上传用户:joylisten
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多视图多标记学习作为机器学习中最具潜力的技术之一,近年来备受关注且已被广泛应用至异质多媒体数据分析和生物信息学等诸多领域中。该技术旨在从不同的角度出发,对有多个特征表示的事物进行描述。在多视图多标记学习中,一个对象拥有多个属性视图且被多个概念标签所标注。传统的多视图多标记学习方法旨在通过对同一对象的多个属性视图进行整合以获取其所对应的标记,且这些多视图数据融合方式大多都是监督式的,在模型训练过程中需要大量的有标记样本作为输入。然而,在真实世界中,对多视图多标记对象进行标注代价十分昂贵,需要耗费大量的人力和财力,且同一对象的多个视图之间信息的交流与传递对于该对象的学习表现力也会产生很大影响。进一步地,为了更好地解决多视图样本学习过程中每个对象在不同视图上多个子样本之间存在的语义鸿沟,衍生出了另外一种更为复杂的多视图多示例多标记学习框架。该框架的学习目的是通过整合一个样本(包)在多个视图中所含子样本(示例)的特征来获取该样本所对应的多个概念标签。传统的多视图多示例多标记学习算法大多都是监督式的,且忽略了包、示例以及标记这3种类型对象之间所存在的多种关联关系对样本学习表现力的影响。此外,这些算法也无法适用于部分包在多个视图上的匹配信息未知,以及标记不完整的弱监督场景。针对这些不足之处,本文围绕多视图多标记学习框架,并结合协同训练算法、矩阵分解、半监督学习和主动学习等技术对多视图复杂对象进行建模,完成的主要工作如下:1.提出了一种新的多标记协同训练算法(Multi-label Co-Training,MLCT),通过引入大量的未标记样本,来更好地探索多视图多标记这一复杂对象多个视图之间信息的交流与传递对样本学习表现力的影响。MLCT首先利用成对标记之间的共现信息来解决协同训练与多标记学习结合过程中常见的类别不平衡问题。然后设计了一种新的信息交换策略,通过找出对每个视图而言具有较高预测置信度的样本及标记,并将该信息传递给其它分类器以提升样本的预测表现力。在多个公开的多视图多标记基准数据集上的研究验证了该模型的有效性。2.设计了一种新的基于协同矩阵分解的多视图多示例多标记学习算法(Multi-view Multi-instance Multi-label Learning Based on Collaborative Matrix Factorization,M3Lcmf)来探索包、示例和标记这3种对象之间存在的复杂的关联关系以及这些对象在不同视图上内部结构的差异性对样本学习效果的影响。该方法首先对由包、示例和标记节点所构成的多视图异构网络中多种不同类型的关联关系数据进行编码;然后再协同这些关联关系矩阵进行协同分解来获取关于包、示例与标记的低秩表示;并通过对这些关联关系矩阵进行选择性整合来探索样本与标记之间存在的潜在关联。在多个多示例多标记基准数据集上的实验结果证明了该方法可以在包级别和示例级别上取得较好的预测表现力。3.提出了一种更灵活更开放的弱监督多视图多示例多标记学习算法框架(Wealy-supervised Multi-view Multi-instance Multi-label Learning,WSM3L)来解决包在多个视图上匹配信息部分未知以及标记缺失的问题。该模型首先利用多视图字典学习为多视图多示例多标记对象学习一个多视图共享字典以及与每个视图相对应的编码矩阵;其次WSM3L结合样本在包级别上的标记相似度与特征编码相似度来对不同视图中匹配关系未知的包进行匹配;最后利用多个视图中包的近邻信息以及示例级别上的标记预测信息来补全包的缺失标记。在多个基准数据集和真实数据集上的包级别预测结果和示例级别预测结果显示了该模型的有效性和灵活性。4.通过结合主动学习和多视图多示例多标记学习,提出了一种新的算法框架(Multi-view Multi-instance Multi-label Active Learning,M3AL)来降低未标记多视图多示例多标记复杂对象的标注成本。M3AL先利用多视图自表达学习来捕获所有样本在多个视图上的共性与差异性,并结合未标记样本在多个视图中示例的分布情况来设计不确定度量策略以筛选出最不确定的样本-标记对。通过对这些筛选出来的样本-标记对进行查询从而在提升分类器学习性能的同时来降低多视图多示例多标记复杂对象的标注代价。在多个公开数据集上的结果表明,使用该方法可以有效地降低多视图多示例多标记复杂对象的标注成本,提高分类精度。
其他文献
由于大量的工件存在着缺陷且绝大多数以工业CT(Computed Tomography)图像的形式呈列,因此,工业CT图像缺陷的检测(识别与定位)及分割是一个重要的研究课题。目前,利用DL(Deep
随着物流业的不断发展,各地煤炭物流企业如雨后春笋般出现。面对蓬勃发展的市场前景和残酷的竞争环境,作为煤炭物流企业,只有转变原有观念,积极分析快速响应,才能在激烈的竞争中保持领先。然而,物流经营在具体实践仍然存在诸多风险,假设没有完善的风险防控体系,一旦出现问题,将给物流企业造成难以估量的损失。因此,如何全面地识别和监控物流业务开展过程中可能出现的风险,并进行有效地防控,已然成为物流企业所必须应对的
20世纪末是人类历史发展的重大节点之一。一方面,经济全球化到来,各国的经济活动突破了国家的界限。主要表现为:商品贸易自由往来,人才和资金频繁流动,跨国公司也在世界范围
不平衡学习是机器学习的重要研究内容之一。不平衡数据在类别分布上呈倾斜分布,通常情况下少数类具有更高的价值,但在多数类的影响下,传统的机器学习算法对少数类的识别率较
眼睛不仅是观察世界的重要窗口,也肩负着反映身体表征特性的重要职责。眼睛底部的视网膜血管特征是多种疾病判断的重要依据。然而,视网膜血管的结构复杂多样,常常导致难于观
空间技术的发展极为迅速,在现代化战争中空间平台的作用愈来愈显著。各国都在大力地研发空间技术和空间武器,以提高本国在信息化战争中的实力。本课题以空间攻防中采用反卫星
网络技术与计算机技术的快速发展,便捷了地理空间数据获取与分发,使得地理空间数据广泛应用于卫星导航、城乡规划与建设、防震减灾系统等国民经济与国防建设的众多领域。地理
高通量基因微阵列技术的出现,产生了大量的基因表达数据。这些数据在追踪生物过程,基因规则发现以及病理分析中有着至关重要的作用。通常,研究人员通过聚类来挖掘相关的基因
机车电源是电力机车上重要的设备,其性能直接影响电气化铁道系统能否正常运行,研究具有数字化、智能化特色的先进的机车电源试验平台对提高机车电源可靠性、进而对电气化铁道
近年来,将随机系统的相关理论应用于生物系统已成为许多学者的研究重点。在现实生活中,大多数生物系统会受到随机因素的影响,从而发生行为上的改变。因此,研究随机广义生物经