论文部分内容阅读
人体行为识别在智能监控、人机交互、虚拟现实、视频检索等方面有广泛的应用前景,而受到学术界和工业界的广泛关注。传统的基于可见光(RGB)图像序列的人体行为识别极易受到光照变化、阴影以及复杂背景等因素的干扰。随着价格低廉以及容易操作的彩色-深度(RGB-D)摄像机(Kinect)出现,越来越多研究学者将Kinect所采集的深度(Depth)图像用于人体行为识别研究。与RGB图像相比,Depth图像对光照、阴影以及其它环境变化不敏感,但是Depth图像缺乏足够的颜色、纹理信息。因此,利用RGB和Depth图像之间的互补特性能够显著提高人体行为识别的精度和鲁棒性。而RGB和Depth图像的结合也为人体行为识别带来新的挑战,如不同模态图像之间潜在的语义关联性、互补性以及它们的显著差异性、表达内容多样性等。面对以上挑战,国内外研究学者围绕RGB和Depth图像的融合开展人体行为识别的研究。然而,现有的行为识别方法仍存在以下问题:(1)传统底层特征方法由于需要人工设计,使得其对行为数据拍摄场景、光照、姿态等因素的泛化能力不足,同时由于不同模态图像表现差异,使得RGB底层特征对Depth图像中目标的纹理、边缘、形状等描述能力不足;(2)非流形学习的多模态关联表达方法忽略了多模态数据间的拓扑结构,导致学习到的联合表达不能充分表达原始多模态数据间的语义关联;(3)已有的深度学习方法需要构造远大于原样本数量的样本对来学习RGB和Depth模态数据间的语义关系,从而使得获取语义一致表达的过程复杂且耗时。针对上述问题,本文将RGB与Depth图像之间的语义相关性作为潜在信息,以关联学习为切入点开展了 RGB-D人体行为识别研究。论文的主要研究内容和创新工作如下:(1)在特征提取阶段,提出了一种基于耦合二值特征学习和关联约束的RGB-D行为特征提取方法。首先针对传统3D LTP无法获得持续变化的时空外观信息和运动信息,基于多个相邻帧的像素值变化研究了一种三维像素差(深度差)向量计算方法。其次,在提取的像素差和深度差向量基础上,针对传统三维二值特征的泛化能力和在Depth图像上的描述能力不足问题,在耦合二值特征学习算法中加入新的关联损失项,减小二值特征在RGB和Depth图像上的差异。在三个RGB-D数据集(包含几百个样本数据)上的实验结果表明,基于学习到的局部二值特征和VLAD编码方法得到的全局时空纹理特征对拍摄场景固定、较少类内变化的行为具有显著识别性能。(2)在特征表达阶段,提出了一种基于多图约束的RGB-D多模态特征联合表达方法。针对同一行为的RGB和深度模态数据具有相同的语义信息问题,本文提出一种双层非负矩阵分解方法将RGB和Depth图像的多种特征分解到同一个共享语义子空间。针对样本在不同模态数据间存在的拓扑结构,利用稀疏表示模型和图相似度理论创新性地提出两种稀疏图构造方法,并将稀疏图正则约束加入到双层非负矩阵分解模型。通过在四个不同规模的数据集上进行实验,验证了该多模态特征联合表达方法不仅能有效提升单一的RGB或Depth图像序列下多种复杂人体行为的识别性能,也能用来区分RGB-D图像序列下多个相似的人体行为。(3)在行为识别阶段,提出了一种基于双流Siamese网络的RGB-D行为识别方法。为了能够解决人体行为在同一模态和不同模态下的类内差异、类间重叠问题,本文基于Siamese 3D CNN和对比损失函数提出一种跨模态深度特征的语义度量方法。针对Siamese网络和对比损失需要构造大量样本对和训练时间过长问题,引入类内参照样本,并基于距离关系的传递性设计了两种中心对比损失函数。通过在NTU RGB+D数据集以及两个RGB-D手势数据集上的实验,验证了所提出的Siamese 3D CNN能够用来识别多重类内变化因素(拍摄视角、光照、拍摄背景)下的人体行为或动作。同时相比于传统的对比损失函数,基于中心对比损失函数的Siamese 3DCNN在计算速度上有着巨大优势。本文提出的RGB-D行为特征提取及表达方法从不同角度解决了当前RGB-D行为识别中存在的问题,不仅提升了人体行为在RGB和Depth模态下的语义一致表达,而且显著提高了 RGB-D行为识别的性能。此外,本文的研究成果对多模态数据的语义一致性研究是一种很好的探索和尝试,为跨模态数据的语义探讨提供了重要参考。