基于迁移学习的跨域人体行为识别研究

来源 :西安电子科技大学 | 被引量 : 2次 | 上传用户:wwwlucky2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是计算机视觉研究与应用领域的重要课题,在医疗监护系统、智能家居系统、虚拟现实、人机交互系统、智能安防、基于内容的视频检索、运动员辅助训练系统等领域具有非常广阔的应用前景。在传统的行为识别模型框架中,通常要满足两个条件:(1)训练样本数量足够多,这样才有可能学习到一个良好的分类模型;(2)测试样本和训练样本具有相同的分布。但是,实际场景中往往无法满足这两个条件。一方面,随着大数据时代互联网的快速发展和深度学习技术的出现,视频数据量每天都在快速地增长,对海量视频数据进行人工标注,将会耗费大量的人力、物力和财力。另一方面,一些新兴模态的行为数据也不断涌现,如由不同环境(背景复杂度、光照、场景等)下采集到的视频、不同相机视角(正视、侧视、俯视等)采集到的视频、不同传感器采集到的视频(如可见光视频、热红外视频、包含深度信息视频等)、不同媒体类型的行为数据(如图像、视频、各种传感器采集到的运动数据等)。对于这些不同模态的视频,训练样本的采集难度差异较大,导致某些模态的训练样本数量匮乏,并且不同模态的视频间存在较大的分布差异。如果使用传统的分类方法进行跨域行为识别,即利用有限的训练样本在其中一个模态学习一个分类模型,并直接将这个模型应用到另一个模态数据中进行分类,分类模型将不具有准确性和可靠性,分类性能会明显降低。本文设计针对性的迁移学习方法解决跨域人体行为识别问题,可以有效减少不同数据域中数据分布差异,减少初始化一个新的行为识别系统所需要的训练时间和工作量,使得行为识别系统泛化能力更强、更加鲁棒,并且能够有效地利用现有数据域的知识。本文着重于研究跨域行为识别中的以下三类问题:(1)跨光谱行为识别;(2)跨视角行为识别;(3)跨媒体行为识别。主要研究内容和贡献如下:1.针对现有红外人体行为识别视频数据匮乏的问题,提出一种基于特征对齐与归纳的可迁移表征学习算法来解决红外行为识别问题,该算法利用来自可见光的行为视频辅助红外视频,其中红外视频数据库作为目标域,将自建的可见光视频数据库XD145作为源域。采用核流形对齐方法将源域和目标域的特征映射到同一个隐含特征空间,得到对齐后的特征表达。然后设计一对对齐到归纳的编码器进行特征归纳,用源域和目标域归纳后的特征训练分类器。实验表明,该算法在公开的红外识别数据库InfAR上的识别率优于大部分主流的迁移学习和域适配算法。2.针对现有红外人体行为识别算法仅考虑空域或者局部时域信息而忽略全局时域信息的问题,将主流的可见光行为识别方法的CNN结构迁移到红外行为识别框架中,并提出一种新的全局时域表征,称作光流组合差分图像,然后在该表征的基础上构建了三通道卷积神经网络结构来提取鲁棒的特征。该网络的输入分别为光流图像,光流运动历史图像和光流组合差分图像,分别用来提取局部,空时和全局时域信息。然后采用轨迹约束池化技术分别从这三个通道的卷积层中提取特征,串联之后得到一种新的特征,称为三通道轨迹池化深度卷积描述子。实验表明,本文提出的光流组合差分图像能够较好地描述红外人体行为的全局时域信息,并且与局部时域信息(光流图像)和空时信息(光流运动历史图像)具有互补性,提取到的特征能够显著地提升红外人体行为识别性能。3.针对不同相机视角下人体行为外观差异带来的挑战,提出一种基于分层学习的视角不变表征。首先将一个样本相似度矩阵组合到边缘化去噪自编码器中来获取共享特征,然后和私有特征组合构成一种鲁棒的特征。为了让不同视角下行为的特征可迁移,采用可迁移字典学习方法使得不同视角下同一个行为拥有相同的稀疏特征。然而,当视角差异过大时,存在唯一的子空间使得不同视角下的同一个行为拥有相同的稀疏表达这个假设不再成立。因此,提出一种新的分布适配方法,该方法针对每个视角分别学习各自的映射,将不同视角映射到各自的子空间,同时使得这些子空间的差异尽可能小。最终,映射到这些子空间的特征便是最后的视角不变表征。实验表明,本文提出的基于分层学习的表征是视角不变的,能够对视角差异具有很好的鲁棒性,即使视角差异过大也能很好地适应,且识别率能够优于大部分主流算法。4.针对视频采集与标注的难度远大于图像的问题,利用图像和视频特征的互补性,提出一种基于深度适配融合网络的图像到视频跨媒体行为识别算法,该算法是一个组合域不变表征学习和跨模态特征融合的统一的深度学习框架。该算法利用视频关键帧作为媒介,将图像的信息迁移到视频中,提升视频行为识别性能。首先,设计了一种跨模态相似度度量来减少图像、关键帧和视频三个模态之间的分布差异。为了有效融合图像和视频的信息,设计了一种自编码器,该自编码器的隐含层表征被约束成等于行为类别名称的语义特征。然后同时将域不变关键帧特征、视频特征和它们的串联特征输入三个自编码器中进行跨模态特征融合。最后,将这三个自编码器的语义表征串联起来,得到最终的行为视频表征。实验表明,该算法能够有效利用图像信息提升视频行为识别性能,并且能够在视频训练样本匮乏的情况下取得不错的识别性能。
其他文献
在外国刑法中,通常的做法是根据犯罪行为应判刑罚的轻重而在立法上对犯罪进行不同分类,这种罪等划分的方式不仅有利于惩治犯罪、落实好刑事政策,还有利于维护司法公正、彰显出刑罚威严。2019年最高人民法院工作报告中要求,要不断促进司法效率的提高,深入推进刑事犯罪主动认罪认罚从宽政策的落实。但是,从我国刑事法律实际来看,我国在立法领域和司法实践领域都还存在许多问题:如罪刑配置不均、刑事处罚较重、法律判决差异
民办高等教育作为我国高等教育事业的重要组成部分,经过20多年的发展,为国家培养了大量的建设者和接班人。但是,民办高校长期依靠兼职教师进行教学的做法严重制约了民办高等教育
目的了解和评估平湖市羊养殖场所布鲁氏菌病(布病)的传播风险。方法对平湖市23家羊养殖场进行现场卫生学调查与分析。结果 23家羊养殖场均未设病畜隔离室,仅有3家设产羔室但
院在对昆明云南白药森林公园旅游资源及开发建设条件评价进行分析的基础上,遵循技术标准、规范及总体设计原则,结合当地自然景观和人文景观的特色,同时满足游览观光、休闲度假和
采在原有化工碳五分离的基础上增加了再脱间戊二烯塔,利用ASPEN PLUS模拟软件建模进行模拟优化,模拟结果二聚反应器环戊二烯热聚为双五戊二烯以便于脱除转化率99.3%;脱碳六塔
人力资本的存量可通过人力资本投资得到增加。教育支出、健康支出和为获得更好工作机会而进行的内部迁移都属于人力资本投资的范畴。制约我国农村人力资本竞争力的主要因素是
在区域地质调查项目进行过程中,以几个典型地质剖面和钻孔为基础,讨论了里下河区域全新世地层的分布规律.研究了地貌分布特征:探讨了全新世古植被、古气候与古环境变迁以及历史时
介绍了一种建筑石膏制品用胶粘剂及该胶粘剂的原材料、基本配方、性能和使用方法。
利用超声波结合正交试验研究超声波提取对甜瓜多糖(提取液为水)的最佳工艺条件。结果表明:对多糖得率的影响顺序为浸提温度〉总浸提时间〉液料比〉超声波处理时间。根据各因素不
目的了解评价本地区传染性疾病突发事件的应急防控体系。方法对2011年本地区传染病传染性疾病报告资料及数据进行描述性流行病学分析。结果2011全年本地区报告传染病11种1250