【摘 要】
:
基于卷积神经网络(CNNs)的多任务学习方法在计算机视觉的各种应用中取得了显著的成功,是目前重点关注的研究方向之一。多任务卷积神经网络是在单任务模型结构保持不变的情况下,学习多个任务的共享表示,该共享表示适用于不同但相关任务的训练目标,使多任务模型更具有泛化能力。随之各任务分支拟合各自输出,从而完成多个任务的联合预测,并取得整体性能的提升。对于有效的多任务卷积神经网络方法,最近的研究均是通过自动学
论文部分内容阅读
基于卷积神经网络(CNNs)的多任务学习方法在计算机视觉的各种应用中取得了显著的成功,是目前重点关注的研究方向之一。多任务卷积神经网络是在单任务模型结构保持不变的情况下,学习多个任务的共享表示,该共享表示适用于不同但相关任务的训练目标,使多任务模型更具有泛化能力。随之各任务分支拟合各自输出,从而完成多个任务的联合预测,并取得整体性能的提升。对于有效的多任务卷积神经网络方法,最近的研究均是通过自动学习各任务单个网络层特征的最优组合,以完成多任务学习结构的创新。然而,这些方法并不考虑各分支输入特征的特性,在模型训练结束后往往都是学习一个固定参数的特征组合方案。因此,本文为多任务卷积神经网络提供了一种自适应特征交互层,在该层中设计了一种动态交互机制,允许每个任务自适应地决定任务间知识的共享或保留程度。在自适应特征交互层中,本文引入了两种类型的特征交互模块,分别通过捕获不同任务在通道和空间维度上的特征依赖关系来实现特征的自适应交互。自适应特征交互层是即插即用的组件,具有较低的参数量和计算开销,在单任务学习结构不变的情况下将其扩展为多任务学习结构,从而实现性能提升。值得注意的是,多任务学习中的任务间梯度平衡策略也是多任务学习研究的关键。实际上,不同任务具有不同的复杂度和收敛速度,如果在没有任何平衡控制的情况下进行训练,那么多任务结构的梯度很可能被某个任务的梯度所主导,这是以降低其他任务性能为代价的。因此,本文根据多任务学习结构中各任务梯度量级的差异性,提出了一种新颖的任务间梯度平衡策略ReGrad,以保证多个任务在统一学习的框架下能够平衡学习,避免各任务学习方向产生偏差。多任务学习方法是通过探索任务间的内在关系,从而得到更一般的共享表示,使模型更具有泛化能力,最终提升所有任务的性能。受此启发,本文使用多任务卷积神经网络来探索图像美学评价和情感分析任务间潜在的相关性。图像的美学评价和情感分析分别使计算机可以辨认人类由受到图像视觉刺激而产生的审美和情感反应。近年来,现有的图像美学评价和情感分析的研究大多利用卷积神经网络自动的提取具有良好区分能力的图像特征。然而,目前的研究忽略了美学评价与情感分析的内在联系,通常将它们当作两个相互独立的任务,分离的看待图像领域的各类层次感知任务。因此,本文采用多任务学习的方法在统一的框架下完成图像美学评价和情感分析任务,探索任务间的内在关联。本文工作主要是进行多任务学习方法的研究与应用。本文首先完成对多任务卷积神经网络方法的创新,并对各任务的学习过程进行约束,提出了新颖的自适应特征交互网络。其次,本文使用多任务学习方法进行图像美学评价和情感分析应用的联合预测,从而实现整体性能的提升。在方法设计结束之后,本文进行了详细的消融研究,以便进一步理解所提出方法的细节和作用。同时,本文还与近期典型的方法进行了细致且全面的性能对比,包括在像素级别和图像级别任务上进行实验、采用多种准确合理的评价指标,以证明本文方法的可行性。实验结果表明,本文方法优于目前的最先进的多任务学习方法。上述工作的具体细节和代码模型已经公布:https://github.com/zhenshen-mla/AFANet.https://github.com/zhenshen-mla/Aesthetic-Emotion-Dataset。
其他文献
葛根是江西道地药材之一,在江西具有悠久的种植历史。作为药食两用价值极高的中药植物,葛根在江西的产业规模已初步形成,但发展却有所停滞。此文通过总结分析江西葛根的使用价值和产业现状,针对江西葛根产业目前发展存在的主要问题提出相关建议,旨在通过葛根发展战略制定、资源库构建、技术提升、相关保健产品重点研发、立体化生态产业建立等多种手段,促进葛产业的健康化、系统化及规模化发展。
随着信息技术的发展以及网络社交平台的普及,互联网上出现了海量的图像数据,对这些图像数据的快速检索是互联网相关产业的核心任务之一。哈希学习是图像快速检索的重要方法,因其良好的性能,近年来引起了研究者的广泛关注。基于哈希学习的图像检索方法通过将图像数据映射为具有固定长度的离散二进制码,可以实现高效率、低存储的图像近似近邻检索。但是,随着图像采集设备软硬件技术的发展,海量的图像数据在满足用户需求的同时,
随着科学与经济的发展以及“工业4.0”概念的提出,制造业开始纷纷向着“智能化、智慧化”的方向发展。基于AGV的“货到人”拣选系统是当前物流行业的主流选择,该系统中以自动导引小车(Automated Guided Vehicle,AGV)为搬运工具。本文所研究的多仓位机器人存取系统(Muti-position Robotic Storage and Retrieval System,MP-RSRS)
戒毒所作为一个人员聚集的场所,需要更加方便快捷的监管方式,从而提高监管人员的监管效率。同时,消防安全知识和消防技能是如今社会每个公民都必备的一项重要内容,因此,除了常规的监管操作,戒毒所也需要监管消防安全问题。随着虚拟现实技术的发展,其拥有的沉浸感较强、不受实际场地限制、可多次重复的特点,受到了人们的广泛欢迎,进而应用于各行各业。使用虚拟现实技术对戒毒所进行监管和消防演练比起传统方式具有成本低、可
复杂网络的链路预测一直是复杂网络领域一个非常重要的研究方向。链路预测既有着对未知但已存在的边的预测,也有着对未来的可能存在的边的预测。将复杂网络从静态网络扩展到动态网络可以有效区分未知和未来的边预测,而链路的权重预测也将链路预测的链路存在有无扩展到链路的正负以及可能形成的链路的值。在交易系统中,尤其是像使用比特币进行交易的这样匿名性强,欺诈风险较大的交易系统中,提前对交易对方的可靠性有一个大致的估
树覆盖问题是一个基本的组合优化问题,在电话机房、网络机房及发电厂等规划方面有着重大的研究价值。树覆盖问题主要包括四类,包括最小最大树覆盖问题、有根的最小最大树覆盖问题、有界树覆盖问题和有根的有界树覆盖问题。对树覆盖问题的研究,不只是对问题本身关联的实际有促进作用,对其他相似的问题而言也有重要的研究价值,例如圈覆盖问题、车辆寻路问题、路径覆盖问题和集合覆盖问题等。本文中主要研究的树覆盖问题是最小最大
基于人体骨架序列的动作识别是人工智能应用范畴中一个热门且非常具备应用性的研究问题。目前,该问题在视频监管、体感游戏、病人监护、无人安防、人机互动、机器作业等领域有着大量的应用。随着人体骨架数据获取设备及动作捕获传感器的发展,传感器可以有效地获得动态人体骨架序列。因此,迫切须要设计一个能够充分且合理利用人体骨架序列的动作识别算法。人体骨架序列充分表示了人体信息的时空特征表示,但初始的人体骨架序列往往
在如核电运行维护、大飞机生产制造等工业领域中,存在大量操作流程复杂、工作强度大、灵活性要求高、难以实现机械化与自动化的工作任务,执行这些任务只能依靠人为操作。在作业执行过程中,作业人员的工作效率与人身安全难以保证。因此,能够与人协同运动,实现部分作业任务自动化的外肢体辅助机器人成为解决上述问题的新型技术手段。外肢体辅助机器人是一个多工况、多任务空间的高维系统,针对该系统的多任务运动规划与控制方法是
当今时代,随着计算机软件技术的飞速发展,人们越来越依赖于各种计算机软件来方便的处理事务,各种各样的软件也是不断地推陈出新。在软件开发过程中,开发人员经常会重复使用大量第三方库函数。对于逆向分析工作来说,准确地识别在软件中复用的库函数具有重要意义,例如检测已知漏洞、对恶意软件进行反向分析等。如果能够使用自动化的方法有效标记出各种复用的库函数,就可以显著提高软件逆向分析的效率,减轻逆向分析人员负担,并
当今社会,随着互联网的迅速发展,来自互联网、工业生产、企业内部的数据成为了一项重要资产,迸发出巨大的商业价值,而企业需要掌控这些数据来赢得机遇、抢占商机。因此,它们迫切需要运用大数据分析技术挖掘其背后的规律并加以利用,从而为企业提供更有价值的信息,以便在市场竞争中夺得先机。同时,企业对数据分析应用的多样性需求,为数据分析平台的快速开发、重构与即时运维技术带来了巨大挑战,需要针对不同数据分析的应用层