【摘 要】
:
近年来,多源数据的获取变得越来越容易,大规模的多源数据集为研究多模态学习提供了便利。同时深度学习的发展帮助多模态学习完成了巨大的飞跃。多模态学习是深度学习技术应用在计算机视觉领域的常见方法,例如跨模态的图像识别任务、多媒体内容分析与理解任务等。多源数据的普遍性和深度学习技术的发展使得研究多模态深度学习具有重要的理论意义和实际价值。多源特征融合作为多模态学习最早的研究方向之一,也是目前应用最广的研究
论文部分内容阅读
近年来,多源数据的获取变得越来越容易,大规模的多源数据集为研究多模态学习提供了便利。同时深度学习的发展帮助多模态学习完成了巨大的飞跃。多模态学习是深度学习技术应用在计算机视觉领域的常见方法,例如跨模态的图像识别任务、多媒体内容分析与理解任务等。多源数据的普遍性和深度学习技术的发展使得研究多模态深度学习具有重要的理论意义和实际价值。多源特征融合作为多模态学习最早的研究方向之一,也是目前应用最广的研究方向。本论文以基于多源数据的深度特征融合学习为具体研究对象,展开了两项研究工作。第一项工作提出了一种新颖的基于多源特征融合的多视图对抗度量学习方法,其主要针对包含同一个对象不同的表现形式的多源数据,采用了混合融合的特征融合方式;第二项工作则从多模态视频数据出发,提出了一种基于多源特征融合模型的视频人物识别方法,主要采用了后端融合的特征融合方式。在第一项工作中,本论文提出了一种多视图的对抗度量学习方法。该方法充分考虑了多源特征视图内和视图间的关系。视图内度量旨在通过合成难区分负样本来混淆当前度量,从而提高每个特定视图的辨别能力。而视图间度量旨在消除视图不一致并生成具有挑战性的视图间样本,从而挖掘多个视图间的共享关系。该方法将两个对抗模块结合起来,形成用于后续任务的最终特征表示,提高处理具有挑战性的多视图数据任务的性能。在多个基准多视图数据集上进行的大量实验证明了该方法有效性。此外,该方法在多源RGB-D识别任务和人脸漫画识别任务的实验,显示了该方法在基于深度网络提取的特征上也具有出色的性能。在第二项工作中,本论文针对视频人物识别问题,提出了一种基于深度学习的多模态特征融合算法。该方法的网络结构由多个单模态多层感知机识别模块和一个多模态特征融合模块组成。该方法首先预处理视频生成的多模态数据,然后使用不同模态数据训练多个深度网络,在此基础上将多个子网络生成的特征加权融合完成最终的识别任务。模型通过特征加权融合模块结合不同的模态的信息可以达到更好的识别效果。该方法能够克服视频数量巨大、包含信息复杂等困难,适用于多模态数据的分类或识别任务。在大规模的明星人物视频数据集的实验表明,该方法的特征融合策略有效地提高了模型对视频人物的识别性能,无需多模型集成,单个模型的平均精度均值达到了89.52%。
其他文献
借助计算机软件及硬件的普及和发展,学习方式从线下也慢慢向线上转移,并且从以往千篇一律的题海战术开始转向思维方式的学习。而且,实行多年的教育信息化,积攒了大量的数据基础,这些数据中潜藏着大量能够提高教学质量的信息,辅助决策教育过程中遇到的各类难题。面临现今日益庞大的知识体系,“如何提高学习效率”这一课题也逐渐进入各相关学科学者的研究范围中。不少学者从个性化学习路径着手研究,但收效甚微,其实学习过程并
随着广播电视技术和网络技术的发展,各种不同的智能终端得到广泛应用,网络中存在多种互动电视终端设备和视频点播平台。但这些终端设备不能跨平台使用,且互动点播平台只能为一种终端提供服务,互动平台与终端互不兼容。这造成重复建设多套互动系统,造成点播的媒体资源无法共享,增加运营商的管理和运营难度,增加运营成本。这就需要能兼容不同终端设备的互动平台门户系统,实现业务功能和用户界面的统一管理。为了兼容不同终端设
血栓性疾病是威胁人类健康的主要成人病之一,其中急性心肌梗塞(AMI)患者由于冠脉血管会在短时间内被血栓阻塞而具有高猝死率。目前AMI患者可通过PCI治疗或溶栓治疗去除血栓恢复
随着全球现代化进程的不断推进,化石能源大量消费,从而导致大气中CO_2浓度剧增,引发了严重的温室效应。开发清洁能源和探索低碳环保生产工艺成为当前科学界的研究热点。CO_2也是自然界最丰富的碳源,采用化学固碳技术将其转化为燃料及化工产品不仅能有效缓解温室效应,也可实现碳资源的循环利用。高温熔盐电化学技术以其反应速率快、电导率高、产物绿色环保等优势在CO_2节能减排和资源化利用领域引起了广泛关注。本文
实际生活中众多图像都具有相似性,利用图像部分与整体之间相似性来实现图像的压缩编码算法,还有后续提出的利用图像部分与部分之间相似性,都可以被认为是基于分形理论的图像压缩编码算法,算法因其高的压缩比和良好的图像恢复质量而备受关注。然而,在编码过程中,基本分形图像编码算法需要消耗大量的时间去进行全局搜索,不利于编码效率的提高,同时,采用的减少码本数量的方法来优化编码时间,会给恢复图像带来块效应的不良效果
荧光共振能量转移(Fluorescence resonance energy transfer,FRET)是指供体分子以非辐射能量转移的形式将能量转移给受体分子,使供体分子荧光减弱,受体分子荧光增强或猝灭的光谱分析技术。近年来,基于荧光共振能量转移技术设计的生物传感器,具有噪声低、灵敏度高、抗干扰能力强等优点,备受医疗、农业、军事安全等领域研究人员关注,是目前的科研热点之一。通常,利用有机荧光染料
随着《中国制造2025》理念的提出,智能化制造技术成为工业界未来十年的主流研究方向。工业机械臂作为具有代表性的高端制造产业,具有更为广泛的应用场景。基于示教器编程的机械臂,自动化和智能化水平低,而将机械臂与视觉融合,使得机械臂更加灵活。虽然融合了视觉的机器人能够完成很多出色的任务,但是对于一些特殊任务需要人的参与,因此可以采用人机协作的方式来完成。为了提高人与机械臂的交互能力,提升机械臂的智能化水
本试验旨在研究在奶牛围产期添加不同水平的过瘤胃氯化胆碱(RPC),对其产奶量﹑奶成分以及部分血液生化指标的影响,探究RPC对奶牛相应血液指标的影响,为RPC在奶牛生产实践中提供
作为5G的关键技术之一,超密集网络的结构复杂,部署节点数量众多。若出现故障不及时消除影响,会导致网络性能显著下降。自组织网络的自治愈功能可以自主检测网络并对故障进行定位与恢复,而小区中断补偿作为自治愈的关键因素可以自动调整网络参数以消除故障的影响。因此,研究超密集网络(UDN,Ultra Dense Networks)场景下的小区中断补偿问题是非常重要的,但现有工作主要针对4G场景下的小区中断补偿
在我国经济发展步入新常态阶段后,城镇化、扩大内需是实现经济进一步增长的重要举措。2014年浙江省首次提出特色小镇这个概念,并结合当地实际进行了有效探索,被证明是行之有