开放环境下异构多任务多视图学习算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:tangzai521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在开放环境的大数据背景下,通常会有许多相关的学习任务。同时,对于每个任务,可以利用不同的手段获得不同种类的数据,就是每个任务具有多个视图的属性。在每个分类任务包含的带标签训练样本数量较少的情况下,每个任务单独学习并不能得到一个令人满意的分类模型。如果存在多个相关的分类任务,那么可以在多个任务之间共享一些知识,这样可以为每个任务得到一个更好的模型。  本文主要研究开放环境下包含多个相关分类任务和多个视图的特征的情况下的学习问题。针对不同的应用问题,由于多个任务的数据分布、不同任务的特征空间、不同任务的分类体系以及数据是否是实时产生的等不同特点,需要考虑如何针对每个问题的一些特点设计相应的算法。因此,本文研究了各种情况下的多任务多视图学习问题。本文的主要创新成果包括:  (1)提出多任务多视图学习问题的共享结构学习方法。许多实际问题同时具有多任务学习和多视图学习的特点。具体来说,问题中的每个任务都包含来自多个视图的属性,与此同时,多个任务通过一个或者多个共享的视图相互联系。为了解决多视图数据的多任务学习问题,本文提出了一个共享结构学习框架CSL-MTMV。它可以利用多个任务之间共有的视图来学习任务之间共享的预测结构,同时利用同一任务的不同视图的数据在无标签样本上的一致性来提高学习的准确性。通过将原始问题转化为一个凸优化问题,给出一种交替优化算法来求解这个模型。相比之前的归纳式多任务多视图学习算法,CSL-MTMV算法中多个任务是松耦合的,在计算过程中每个任务可以单独计算,只需要在任务之间共享少量的统计信息,显著地降低了算法的时间复杂度和空间复杂度。通过在真实的数据集上进行实验,证明了这种方法的有效性。  (2)提出了解决包含异构任务的多任务多视图问题学习方法。之前的多任务多视图学习方法都假设所有的任务包含相同的类别标签。然而,许多包含多任务和多视图特征的实际问题中,多个任务包含不同的类别标签集合。这种新的问题被称作包含异构任务的多任务多视图学习问题。针对这种问题,提出了一种多任务多视图判别分析方法(Multi-tAsk MUlti-view Discriminant Analysis,MAMUDA)。具体来说,这种方法可以使多个任务和多个视图进行合作来学习一些特征变换。在学习过程中,多个任务和多个视图之间可以共享一些问题特有的结构;同一任务的不同视图的属性可以共享一些任务相关的结构信息。对于这个问题,提出了一种交替优化算法来进行求解。另外,使用这种方法后,可以利用最近邻分类方法来方便的解决多类分类问题。实验表明,这种方法可以有效的在多个任务和多个视图之间共享知识。  (3)提出不同特征空间中的多任务学习方法。多任务学习(MTL)通过对多个相关的任务同时进行学习来提高相对于每个任务单独学习时的学习性能。目前绝大多数的多任务学习方法假设所有的任务包含相同的特征表示。尽管这种假设对一些应用来说是合适的,但是有许多问题是不满足这种限制的。异构特征空间中的多任务学习问题中,每个任务包含不同的特征表示。为了解决这种问题,首先构造一些二部图来将多个任务联系起来,每个任务对应一个二部图。然后,一种多任务非负矩阵分解方法被提出。在这种方法中,包含监督信息的带标签样本和一些无标签的样本被综合到一个统一的模型中来学习一个多个任务共享的隐含语义特征空间。最后,给出了一种交替优化方法来求解这个问题。实验证明,这种方法可以发现多个任务共享的隐含特征来帮助多任务学习过程。  (4)提出分布式在线多任务学习方法。在许多实际问题中,多个任务分布在不同的节点,同时,每个节点上,数据是不断产生的。针对这种问题,提出了一种合作式学习框架(Distributed Online Multi-tasks,DOM),它交替的进行局部学习和全局学习。首先,每个节点利用本地的数据进行本地的在线学习。然后,在触发条件满足的情况下,局部的节点会触发服务器的全局学习过程。针对全局学习,提出了一种异步的在线多任务学习算法。DOM学习框架可以有效地在分布在不同节点的多个任务之间共享知识,可以比每个节点分别学习得到更好的结果。DOM只需要在服务器和局部节点之间进行少量的数据传输,通信开销较低。算法中大部分的参数都可以很容易的进行设置,可以方便的进行使用。
其他文献
即时通讯是目前互联网上最重要的通讯方式之一,实时性和低成本是它最大的特点.然而,作为一种新兴的网络通讯方式,它不像电子邮件这种成熟的网络应用,还没有形成统一的标准规
生物免疫系统是一种高度并行的自适应信息学习系统,它能自适应地识别和排除侵入机体的抗原性异物,并且具有学习、记忆和自适应调节能力,能够维护机体内环境的稳定。近年来,人们逐
学位
随着集成电路进入SoC时代,功耗问题对芯片设计提出了严峻的挑战.功耗限制了移动计算设备的电池使用时间,消耗了巨大的电能,增加了芯片和系统的设计与维护成本,极大地影响了芯
数据挖掘是从统计学、机器学习、最优化方法等学科中发展起来的一门新兴交叉学科,目前已被广泛应用到电子商务、医学、科学研究以及工程技术等领域中,它具有重要的理论与应用价
程序要求的不同的访存模式不一定完全由硬件提供。编译器通常可以通过几个简单的模式来合成较复杂的寻址结果。这样既简化硬件的设计,又允许编译器根据程序行为进行访存优化。
浮动车(Floating Car)技术是智能交通系统(ITS)中实时获取交通信息的重要手段之一,然而目前的浮动车产品主要是基于Euclidean空间的,没有将车辆和行驶的路网联系起来,因此,难以在
学位
NGN通过开放式的业务接口来实现业务/控制的分离,使得业务开发独立于通信网的具体技术,已经成为通信行业研究和开发的热点。目前,Parlay/OSA API是在电信业界影响最大的开放网络AP
无线传感器网络综合了传感器技术、嵌入式计算技术、现代网络及通信技术和分布式信息处理技术等相关技术,能够通过各类集成化的微型传感器协作地实时监测、感知和采集各种环境
学位
面对变化迅速、竞争激烈的市场环境,现代企业需要有灵活、高效的业务过程来处理日趋复杂的业务。工作流技术利用计算机系统为现代企业提供了一种协同工作环境,可支持业务过程的