基于位置注意力机制的多模态学习方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:ooo2005net
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习研究的发展,各种人工智能技术正逐步应用于社会生活,人物识别是人工智能领域中的一项重要内容。在实际应用领域中,视频中的人物识别任务已经成为待解决的现实问题。相比静态图像数据,视频数据包含了更为丰富的动态时序信息,如多变的图像信息和音频信息等,充分利用这些不同的模态信息能对视频中的识别任务提供帮助,而如何充分利用视频数据丰富的模态信息正是多模态融合方法所研究的一个重要方向。本文提出了一种基于位置注意力机制的多模态学习方法,其中注意力机制模块的主要思想是让系统更加关注重要的模态信息,而忽略相对无关的模态信息。该方法主要包括单一模态特征优化处理、多模态特征融合和多模态模型融合三部分。(1)单一模态特征的优化处理能提升算法的识别精度。因为特征提取算法不足,提取到的人物特征会存在缺陷。如果将原始人物特征直接馈入神经网络,进行分类训练,最终的识别结果可能达不到预期。对单一模态特征的优化处理可以改善这一情况。本文提出的利用位置注意力机制模块的方法可以增强相似特征、抑制离群特征,进而提高人物识别精度。(2)多模态特征融合方法可充分利用视频数据所包含的多种人物模态信息,以处理多种极端情况。例如,就人物识别任务而言,我们将重点利用人脸特征进行研究,并以头部、人体和音频特征作为辅助,进行多模态特征融合,可得到新的视频特征。在多模态特征融合过程中,利用位置注意力机制模块进行融合实验,将放大与人脸特征关联度较高的模态特征的影响,而与人脸特征关联度较低的模态特征的影响将被抑制。在保证人脸特征占主要影响的前提下,该方法能充分多种模态信息,进而提升算法的识别精度。(3)多模态模型融合方法能一定程度解决人物特征缺失的问题。在多模态模型融合过程中,我们通常会先训练多个弱学习器,并用于解决相同的问题。再将多个弱学习器进行组合,我们就可能得到一个更为精确、鲁棒的模型。当出现无法提取某些视频人物特征的极端情况时,本文将会对该类视频做场景特征提取实验,并分别把实验获得的场景特征和经过多模态特征融合获得的视频特征馈入神经网络进行训练,最后将训练所得模型进行多模态模型融合,以此改善人物识别效果。本文将介绍一个用于多模态人物识别的大型视频数据集——i QIYI-VID数据集,它由600K视频剪辑组成。在i QIYI-VID数据集上的实验结果表明,该算法的识别结果与其他算法的识别结果相比是最优的。
其他文献
遥感影像融合是遥感影像应用的核心技术之一,其目的是通过补足不同影像源的劣势,合并处理将多源影像融合成一幅清晰度和可识别性较高的影像。由于遥感影像具有数据量大且冗余度高的特点,其分析和处理比较复杂。传统遥感影像融合的空间信息来自高分辨率的全色影像(PAN,Panchromatic Image)而色彩信息来自低分辨率的多光谱影像(MS,Multispectral Image),其未能充分利用MS图像的
合成孔径雷达(Synthetic Aperture Radar,SAR)目标自动识别(Automatic Target Recognition,ATR)是从SAR图像中提取目标特征来确定其类别属性的过程,可应用于战场侦察、军事打击、资源勘测和气象预测等多方面,具有重要的军事价值和民用价值。近年来,SARATR技术得到了众多国内外专家学者的关注,是SAR领域研究的热点问题。在SARATR过程中,待识
漆器制品凭借其强大的实用性与绚丽的装饰性等独特的艺术魅力,经过八千多年的历史变迁,成为了中国传统工艺文化的主要代表之一。本文就纸胎漆器陈设品的开发与应用,提出两个不同层面的研究:一方面笔者将目光聚焦于应用范围较为广泛的陈设摆件上,其目的在于丰富室内空间的装饰性。另一方面,现代陈设工艺需要更加注重器物由内到外的文化特征,使观赏者领略到非凡的文化体验。漆器的发展不应停滞不前,纸胎漆器的开发本质在于对传
阿尔茨海默氏病是当今许多人中最常见的痴呆类型。痴呆症患者会健忘或记忆力减退,这可能会影响他们的日常活动。祈祷是穆斯林每天必须做五次的重要活动。然而,对于那些在祷告中面临健忘问题的人来说可能是困难的。这通常是由于缺乏专心,重叠和多个并发想法而发生的。我们将此与阿尔茨海默氏病的早期阶段相关联。内置基于传感器的应用程序的智能手机设备的进步使我们能够以充满满足感和信心的方式帮助人们进行日常活动。穆斯林人口
DNS隧道是一种存在多年的DNS攻击,它经常被用于数据窃取和隐蔽通信。DNS隧道中的数据经过编码后封装在DNS请求中,从而规避入侵检测。正是因为DNS协议在设计初没有安全上的考虑,才导致与DNS协议相关的攻击层出不穷,除了DNS隧道攻击之外,还有拒绝服务攻击、DNS缓存中毒和僵尸网络C&C通信等。随着DNS隧道工具的开源,更多的人能够轻易的获取这些工具,并使用这些DNS隧道工具绕过运营商网
由于钢铁行业存在产能过剩现象,钢铁产品价格不断下滑,而产品原材料价格和劳动力等方面却在不断上涨,这使得传统钢企的运作方式面临着极大的压力。为提升经济效益,钢企不断调整产销策略,从而催生出钢铁物流园区的出现。在对某钢铁物流园区实地走访调研后发现,现如今钢铁物流园区货物存储与作业调度过程大多由工作人员凭经验完成,而钢铁物流园区货物存储与作业调度过程涉及影响因素多,约束条件复杂,计算工作量大,导致园区存
近年来,国内旅游市场高速发展,出入境市场平稳发展供给侧结构性改革成效明显。国内旅游人数以每年约15%增长率上升,其中自驾出游约占旅游总人数的60%,自驾出游市场的蓬勃发展,带来了停车困难、交通拥堵以及环境污染等问题。从旅游业角度来看,自驾出游带来的交通污染不利于景区的可持续发展。因此,为解决小汽车停车难、考虑到景区污染严重和景区可持续发展等问题,必须大力发展旅游公交通行。同时,合理科学的旅游公交票
5G及后5G时代,大量新型产业化应用的出现将会为社会带来生产力的巨大变革。光纤网络凭借着传输速度快、通信距离远、抗干扰能力强等优势被用作大规模承载网以保障基础的数据通信。然而,面对多元化应用带来的海量数据处理和异构需求承载等问题,光承载网亟需优化承载逻辑,在降低网络运维成本的前提下增大承载容量、提高资源利用率并提升资源管控的灵活性和智能性。本论文围绕光承载网面向未来大量且多样业务接入的演进需求,研
近年来P2P网络借贷行业迎来井喷式发展,它对于我国金融体系的完善,中微企业资金缺口的弥补,以及个人现金流的补充具有重要的意义。但自2014年开始,我国P2P开始频繁爆出庞氏骗局、跑路等事件,且涉案金额巨大,社会影响极其恶劣。仅2015年7月一个月,我国爆出的问题P2P平台就有171家之多。在这些数据背后,是无数个因为平台跑路而支离破碎的家庭以及国家公安经侦部门极大的破案压力。我国目前金融监管在编人
XX网络是网络空间中信息传输的重要环节,具有重要的军事和战略意义。由于XX网络具有间歇链路、传输高时延、时延方差大、通信协议存在安全缺陷等特点,传统的网络安全技术并不能有效地抵御XX网络的安全威胁。针对这些问题和难点,本文研究并设计了一个面向XX网络的自免疫防护系统,利用自免疫的方法,让网络形成智能化的防御体系,使得XX网络能够迅速感知攻击并做出准确高效的应对策略,以快速恢复到网络的稳定状态。本文