基于相似图卷积网络的三维交互性动作识别

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:May-02
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
动作识别是计算机视觉研究中一个具有挑战性的问题,特别是对于动作识别逐渐从二维到三维,从非交互到交互的转变。如何从多人甚至更加复杂的场景中有效地进行动作的识别、分类甚至预测正在逐渐变为动作识别领域中越来越值得研究的问题。动作识别在过去的研究中,已经在传统的手工特征上取得效果,主要针对特定数据集和动作,设计特定的特征再进行识别。但是,随着动作场景的复杂化,更多的对象参与到一个动作的表示中,不同的对象之间有了更多的关联与交互性;同时数据的表现形式也从2D的视频上升到3D的骨架形式。但骨架的非欧氏距离结构却无法用2D的方法处理,给深度学习神经网络的设计带来巨大的挑战。如何在维度为3D的骨架数据上,处理双人和多人之间的交互动作的识别,是未来三维交互性动作识别中亟待解决的难题。本文针对上述挑战,在动作识别的领域下分别从多模态特征融合、图卷积的空域关系、图卷积的时域关系等不同的角度展开研究,并取得了一些进展,具体包括:(1)针对不同模态的动作数据,提出了一个基于超图的多模态特征融合的方法,首先通过深度序列滤波提取关键字,利用Alexnet网络提取深度信息特征;其次利用多规模CNN网络提取骨架特征;最后利用超图的高阶相关性,在提取的不同模态特征中寻找关联性并进一步融合特征,达到最终的识别率的提高。超图不仅用来进行多模态融合,也会在后续工作中用来融合我们所提取的骨架模型的不同特征。(2)针对动作的交互关系,提出了一种包含两人交互信息的相似图卷积网络,在进行交互动作识别时,以往的研究是基于一个固定的骨架图,只捕捉单个动作中局部身体运动的信息,而不处理两个或多个人之间的骨架关系。而该模型可以表示两个人之间的关系,同时,对于不同的身体部位(如头和手),相似图卷积网络也可以很好地处理这种关系。该模型具有骨架图和相似图两种构造模式,超图较好地融合了两种合成模式的特征。其中相似图是通过两步构造得到的:首先,设计一个编码器,将关节的不同特征映射到同一个向量空间;其次,计算不同关节之间的相似度,构造相似度图。最终通过两张图的构造实现对于交互性三维动作的识别。(3)针对动作中的帧间关系,提出了一种相似图卷积LSTM网络,该模型也是同时具有骨架图和相似图两种构造模式,最终运用超图融合其特征。由于在相似图卷积网络中,我们对于一个动作的所有序列帧的相似图构建是基于一帧一帧的骨架帧来进行的,每一帧的构图都是分开的,对于动作的帧间关系并没有很好地进行处理。针对此构图问题,我们加入了LSTM框架,处理时域上的相似图构建。通过对每一帧骨架构造单独的相似图,在LSTM-Cell中加入图卷积的思想。对于不同时间序列帧,处理的骨架点的重点不同,最终达到处理动作之间交互关系的目的。最后我们在NTU的骨架数据集上进行实验,验证了模型的有效性。从超图融合的结果来看,可以很好地融合多模态的特征。最后的结果表明,相似图卷积网络可以很好地处理人与人之间的交互信息,最终在实验模型中可以达到85.7%的识别率,而基于帧间关系的相似图卷积LSTM网络则进一步提升了效果,可以达到88.5%的识别率,超过了先前的识别方法,可以有效解决三维交互性动作识别中的关系建模问题。
其他文献
脑动脉瘤是脑部动脉血管局部凸起或膨大形成的类似瘤状的物体,其对应位置血管壁较薄,破裂风险高,一旦破裂容易导致颅内出血并威胁生命。目前医学上常用的快速诊断脑动脉瘤的技术是计算机断层扫描血管造影(CTA)。该项技术在带来快速成像的便利(广泛用于急诊)的同时,也包含了复杂的背景噪声,这增大了放射科医生阅片的难度。面对机器获取到的复杂3D CTA影像,放射科医生往往需要花费较长的时间进行阅片诊断。对于一些
学位
近年来随着深度学习的兴起,图像处理分析的研究日新月异,在许多领域取得了瞩目的应用和研究进展。在医学临床实践中,患者影像数据是诊断治疗的重要参考,大规模的医疗影像数据处理分析需求与日俱增,自动化的影像分析工具和算法具有重要的临床实用价值。在医学图像分割任务中,医学影像常常面临图像数据对比度低,组织器官边缘模糊且难以分辨,导致图像分割过程中容易出现类内不一致和类间不易区分的问题,进而损害分割结果的完整
学位
通过耦合基于反应类的全局敏感性分析方法、组分敏感性分析方法、解耦法及遗传算法,构建了RP-3航空煤油模型燃料(14%正癸烷/10%正十二烷/30%异十六烷/36%甲基环己烷/10%甲苯,摩尔分数)的简化反应机理。以甲基环己烷为例(其它组份类似),详细论述了其骨架反应机理的构建过程。采用基于反应类的全局敏感性分析方法,对甲基环己烷的燃料相关子机理中重要反应类进行了识别,并基于组分敏感性分析方法对重要
期刊
视频目标分割和补全是计算机视觉领域的重要问题,其目的在于对视频中的特定目标进行像素级跟踪和补全被遮挡部分,它是视频编辑、无人驾驶、影视特效生成等应用中的关键技术。视频目标的分割和补全这两个任务的共性在于其都需要一部分已知的目标信息(第一帧目标掩码和目标可见部分)去推断后续帧目标位置和当前帧目标被遮挡的外观,如何利用视频中的时序信息和目标的内在结构等先验信息来设计对应任务的深度神经网络是本文的主要研
学位
免疫失衡机制在慢性荨麻疹的发病机制中占据主导地位,既往认为Th1/Th2失衡是慢性荨麻疹发生的主要免疫机制。但近年来,研究发现Th17/Treg失衡亦是导致慢性荨麻疹发生的重要免疫机制。中医对慢性荨麻疹病因病机的认识比较全面,一般多认为其发病多为先天禀赋不足,卫表不固,复感六淫之邪;或饮食失节,积热生风;或久病虚弱,气血失养。故治疗上,实证宜疏风散邪,清利湿热;虚证宜补益气血,扶助正气;虚实夹杂则
期刊
时下,人们对视频服务的要求越来越高,对超高清、高帧率、沉浸式视频的需求日益增长,随之而来的便是海量视频数据存储和传输的巨大挑战。尽管在5G时代中,网络传输速率更快,但通过提升视频编码技术性能,更高效的压缩海量视频数据,才是解决存储和传输问题的根本。由于时域相关性是视频信号最重要的特性,因此帧间预测编码成为了视频编码的核心。高效视频编码(High Efficiency Video Coding,HE
学位
随着计算机技术的快速发展,人工智能热潮迅速兴起。自动驾驶、移动机器人和无人机导航避障等技术成为研究热点。这些智能化应用往往需要使用相机去感知场景中物体的运动信息和绝对深度信息,即通过预测连续时刻图像稠密的光流,获取场景中物体的运动信息;通过预测双目相机左图和右图的视差,计算场景的绝对深度。这些信息既可以作为无人驾驶和自主机器人的指导信息,也可以用于场景的三维重建与增强现实等领域。在现有的光流和深度
学位
随着人工智能技术的蓬勃发展,机器智能水平不断提升,人机协作场景的应用越来越受到人们的关注。在人机协作应用中,人和机器位于同一场景中互相合作,不仅要求机器智能被动执行人的指令,更希望实现机器智能对人类行为意图的主动观察和理解,以实现自然交互与协同工作。但是,人类行为意图属于高级语义层面,对其进行计算和预测是一项非常具有挑战性的难点问题。考虑到在一般情况下,人的思维意图和人的视觉注意行为息息相关。因此
学位
近年来,随着视频应用愈发广泛,视频数据量爆炸式增长。视频数据量的急剧增加造成视频在存储及传输中面临巨大压力,因此对视频压缩效率的要求不断提高。国内外视频编码标准组织在上述背景下,不断为视频编码流程中的各功能模块提出更为高效的编码技术,以提升视频压缩效率。现有传统视频编码标准中所采用的编码技术,主要以提升客观性能指标为目标,而感知视频编码技术可在传统视频编码标准基础上,结合人眼视觉感知特性进一步去除
学位
燃料在高温条件下发生的热裂解反应能有效提高燃料再生冷却过程中的吸热能力,然而由于裂解反应与传热传质过程相互耦合影响,因此传统的换热关联式模型在描述燃料裂解反应过程的换热特性时存在较大偏差。本文对控制方程进行无量纲化推导,寻找无量纲数之间的联系,引入关于反应速率常数的修正系数,从而提出了一种考虑裂解反应影响的换热关联式模型建立方法。通过与数值仿真结果对比发现:传统关联式模型预测值与数值仿真结果的最大
期刊