基于RGB-D图像序列的人体行为识别研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户：zy198187

【摘要】

：

【作者】

：

翟正元

【机构】

：

北京邮电大学

【出处】

：

北京邮电大学

【发表日期】

：

2019年01期

【关键词】

：

RGB-D图像人体行为识别多模态语义关联数据融合耦合二值特征学习非负矩阵分解 Siamese网络中心对比损失

【基金项目】

：

国家自然科学基金项目《基于三维视频多视觉任务协同分析研究》（编号:61402046）；北京市自然基金项目《大规模农田多径环境定位反演信道畸变模型与自组织网区域分形方法》（编号:1472024）；

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人体行为识别在智能监控、人机交互、虚拟现实、视频检索等方面有广泛的应用前景,而受到学术界和工业界的广泛关注。传统的基于可见光（RGB）图像序列的人体行为识别极易受到光照变化、阴影以及复杂背景等因素的干扰。随着价格低廉以及容易操作的彩色-深度（RGB-D）摄像机（Kinect）出现,越来越多研究学者将Kinect所采集的深度（Depth）图像用于人体行为识别研究。与RGB图像相比,Depth图像对光照、阴影以及其它环境变化不敏感,但是Depth图像缺乏足够的颜色、纹理信息。因此,利用RGB和Depth图像之间的互补特性能够显著提高人体行为识别的精度和鲁棒性。而RGB和Depth图像的结合也为人体行为识别带来新的挑战,如不同模态图像之间潜在的语义关联性、互补性以及它们的显著差异性、表达内容多样性等。面对以上挑战,国内外研究学者围绕RGB和Depth图像的融合开展人体行为识别的研究。然而,现有的行为识别方法仍存在以下问题:（1）传统底层特征方法由于需要人工设计,使得其对行为数据拍摄场景、光照、姿态等因素的泛化能力不足,同时由于不同模态图像表现差异,使得RGB底层特征对Depth图像中目标的纹理、边缘、形状等描述能力不足;（2）非流形学习的多模态关联表达方法忽略了多模态数据间的拓扑结构,导致学习到的联合表达不能充分表达原始多模态数据间的语义关联;（3）已有的深度学习方法需要构造远大于原样本数量的样本对来学习RGB和Depth模态数据间的语义关系,从而使得获取语义一致表达的过程复杂且耗时。针对上述问题,本文将RGB与Depth图像之间的语义相关性作为潜在信息,以关联学习为切入点开展了 RGB-D人体行为识别研究。论文的主要研究内容和创新工作如下:（1）在特征提取阶段,提出了一种基于耦合二值特征学习和关联约束的RGB-D行为特征提取方法。首先针对传统3D LTP无法获得持续变化的时空外观信息和运动信息,基于多个相邻帧的像素值变化研究了一种三维像素差（深度差）向量计算方法。其次,在提取的像素差和深度差向量基础上,针对传统三维二值特征的泛化能力和在Depth图像上的描述能力不足问题,在耦合二值特征学习算法中加入新的关联损失项,减小二值特征在RGB和Depth图像上的差异。在三个RGB-D数据集（包含几百个样本数据）上的实验结果表明,基于学习到的局部二值特征和VLAD编码方法得到的全局时空纹理特征对拍摄场景固定、较少类内变化的行为具有显著识别性能。（2）在特征表达阶段,提出了一种基于多图约束的RGB-D多模态特征联合表达方法。针对同一行为的RGB和深度模态数据具有相同的语义信息问题,本文提出一种双层非负矩阵分解方法将RGB和Depth图像的多种特征分解到同一个共享语义子空间。针对样本在不同模态数据间存在的拓扑结构,利用稀疏表示模型和图相似度理论创新性地提出两种稀疏图构造方法,并将稀疏图正则约束加入到双层非负矩阵分解模型。通过在四个不同规模的数据集上进行实验,验证了该多模态特征联合表达方法不仅能有效提升单一的RGB或Depth图像序列下多种复杂人体行为的识别性能,也能用来区分RGB-D图像序列下多个相似的人体行为。（3）在行为识别阶段,提出了一种基于双流Siamese网络的RGB-D行为识别方法。为了能够解决人体行为在同一模态和不同模态下的类内差异、类间重叠问题,本文基于Siamese 3D CNN和对比损失函数提出一种跨模态深度特征的语义度量方法。针对Siamese网络和对比损失需要构造大量样本对和训练时间过长问题,引入类内参照样本,并基于距离关系的传递性设计了两种中心对比损失函数。通过在NTU RGB+D数据集以及两个RGB-D手势数据集上的实验,验证了所提出的Siamese 3D CNN能够用来识别多重类内变化因素（拍摄视角、光照、拍摄背景）下的人体行为或动作。同时相比于传统的对比损失函数,基于中心对比损失函数的Siamese 3DCNN在计算速度上有着巨大优势。本文提出的RGB-D行为特征提取及表达方法从不同角度解决了当前RGB-D行为识别中存在的问题,不仅提升了人体行为在RGB和Depth模态下的语义一致表达,而且显著提高了 RGB-D行为识别的性能。此外,本文的研究成果对多模态数据的语义一致性研究是一种很好的探索和尝试,为跨模态数据的语义探讨提供了重要参考。

其他文献

左心房CT参数对房颤射频消融术后复发的预测价值

目的研究左心房(LA)相关CT参数对心房颤动射频消融术后复发的预测价值.方法选择2019年5月～2020年5月接受射频消融治疗的80例房颤患者,随访术后1年房颤复发情况并分为复发组(n=28)和未复发组(n=52).比较两组患者术前LA容积(LAV)、LAA容积(LAAV)、LAA开口面积(LAA CSA)、右上PV开口面积(RSPV CSA)、右下PV开口面积(RIPV CSA)、左上PV开口面积(LSPV CSA)、左下PV开口面积(LIPV CSA)的差异,采用ROC曲线分析不同指标对房颤复发的

期刊

心房颤动射频消融术复发预测左心房容积左心耳容积

磁共振NODDI联合DSC-PWI在成人脑胶质瘤分级诊断中的应用价值

目的研究分析磁共振神经突定向扩散与密度成像(NODDI)联合T2*加权磁敏感动态增强灌注加权成像(DSC-PWI)对脑胶质瘤分级诊断的临床价值.方法选取2019年12月～2021年5月我院临床高度怀疑胶质瘤并术后病理明确的患者29例作为研究对象,其中Ⅱ级及以下为低级别胶质瘤(LGG)共12例,Ⅲ级、Ⅳ级为高级别胶质瘤(HGG)共17例.患者于干预措施前行常规MRI扫描、NODDI及DSC-PWI扫描,利用后处理软件获取患者NODDI各参数图[神经突内容积比(ICVF)、神经突起方向分散程度(ODI)和

期刊

脑胶质瘤磁共振成像神经突定向扩散与密度成像T2*加权磁敏感动态增强灌注加权成像分级

胸腺实质性肿瘤的影像诊断思维

病例资料患者,女,65 岁,2 个月前无明显诱因下出现咳嗽,胸骨下轻微疼痛,无咳痰咳血等,自行口服止咳药未见好转.遂于当地医院行CT 检查示胸腺区域肿块,考虑胸腺瘤可能.为求进一步诊治,遂来院收治入院.rn影像表现:CT 增强显示前纵隔胸腺区域肿物,大小约4.0 cm×3.0 cm,密度尚均匀,形态不规则,可见分叶,平扫约53 HU ,增强后约 86 HU ,包膜欠光整,周围脂肪间隙模糊(图 1a、1b ) ,肿块局部与主肺动脉血管壁分界不清,与心包上缘分界不清,肿块上缘包绕侵犯左侧锁骨下静脉及左侧颈内

期刊

影像诊断胸腺肿瘤胸腺癌

基于图数据的模式挖掘研究

近年来,随着互联网技术的蓬勃发展,海量有价值的图或网络数据不断涌现。图中的节点或边之间普遍存在较强的关联性,例如,社交网络中用户间的消息传递,网络安全中网络节点间的攻防对抗,文献引用网络中文献间的引用等。该关联性可被表示为“序列模式”,针对其的挖掘研究具有重要的科学价值,不但能够总结出关联特性及分布规律,并用于分类、预测等实际应用场景;而且能够与图结构特征相结合,进而可提升图计算的效率与精度。基于

学位

图数据挖掘序列模式挖掘社团发现子图匹配子图同构

多目标的虚拟网络映射算法研究

近些年,互联网作为底层的基础设施也正在经历着重大的技术变革。为了能够保证在互联网之上运行各种各样的创新型应用程序,研究学者提出了网络虚拟化技术。利用网络虚拟化技术,能够对底层物理网络设施中包括计算、网络、存储以及频谱等多维异构资源进行抽象池化,支持以按需服务的方式为各种各样的终端用户提供满足一定服务质量的网络服务。虚拟网络映射问题是网络虚拟化技术中的核心问题之一,其主要目的在于在有限的物理网络资源

学位

虚拟网络映射能耗感知算法安全感知算法服务感知算法多目标优化算法

基于RGB-D图像序列的人体行为识别研究

其他学术论文