结合深度学习与时空约束的人体骨架行为识别方法研究

来源 :华侨大学 | 被引量 : 0次 | 上传用户:Waaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能技术的飞速发展和计算机硬件设备的更新迭代,计算机视觉任务在很多领域都有广泛应用,包括视频监控、医疗诊断、无人驾驶以及虚拟动画等众多领域。针对人体骨架数据本身存在的固有优势,基于人体骨架数据的行为识别方法正在被越来越多的研究者研究。特别地基于图卷积网络的人体骨架行为识别方法是解决该问题的主要方案。然而目前很多方案未能考虑骨架拓扑图中更远节点之间的相互影响,也未能更彻底的利用原始数据信息。本文基于领域内的研究现状,探索数据本身的规律,重新设计图卷积结构,同时融合多流数据,在特征提取与特征融合等两个方面进行深入研究,研究过程的具体内容介绍如下:(1)提出人体骨架数据预处理与数据增强方法:1)在行为识别过程中,并非所有数据帧均对行为识别结果有贡献,主要取决于关键帧部分。因此本文采用差分取帧技术进行关键帧筛选;2)同时针对人体骨架运动数据中视角偏转问题,文中采用旋转矩阵对骨架数据节点的每一个维度进行选择旋转;3)进一步地为了提高整体模型的表现力,文中建立joint数据、bone数据、joint motion数据以及bone motion数据等多数据融合操作方式。(2)基于图卷积网络的人体骨架行为识别方法,本文提出了多流多层自适应时空图卷积模型方法,经过数据预处理后建立多流网络模型结构,同时基于现有图卷积操作方式,文中建立多阶邻接矩阵结构,提出多阶图卷积操作方式,解决了远距离节点之间信息交流,并且为了提高模型的泛化能力,引入网络自学习矩阵。(3)基于视频与深度(骨架)数据多特征融合的行为识别方法,本文首先提出时序金字塔网络去提取视频层级特征,所形成高级视频语义与进行了关键帧筛选以及视角旋转后的深度(骨架)特征进行并联融合,同时对每一个深度(骨架)动作样本,都利用同一动作标签的视频动作样本进行特征互补,这种特征融合的方式解决了当前数据特征不足等问题,并且利用前文介绍的关键帧筛选以及数据样本视角旋转选择等操作步骤,解决了数据预处理过程中诸多问题。
其他文献
数据聚类是计算机视觉、数据挖掘、信息检索和模式识别等领域的基本无监督学习任务。为了更好地拟合非高斯数据尤其是正数据向量,并有效解决有限高斯混合模型的参数估计和模型选择困难的问题,本研究将基于逆贝塔刘维尔(Inverted Beta-Liouville,IBL)混合模型进行建模方法分析。首先,提出了一种具有Dirichlet复合多项式先验的有限IBL混合模型。在模型中,本文假设上下文混合比例服从Di
学位
随着互联网的飞速发展,微博、脸书(Facebook)等网络媒体平台已经成为反映社会舆情的重要载体。国内外网络舆情事件频发,网民发布、参与扩散(主要指转发)的信息不仅反映了网民对社会的态度和诉求,而且影响着舆论的发展。分析事件的传播趋势、预测事件的扩散过程对于维护社会安全稳定具有重要意义。已有的相关研究分析不够细致且不够深入,主要存在以下两个方面的问题:(1)采用仿真的离散数据进行传播扩散分析,与真
学位
视频中的人体行为识别是计算机视觉中一项非常重要的任务,其在人机交互、智能视频监控、康复医疗等领域发挥着重要的作用。随着深度学习的崛起,大量基于深度学习的方法应用于行为识别领域,并取得了不错的效果。但是现实生活中场景更加复杂,如何对数据进行有效处理并提取具有判别力的特征仍然是目前行为识别领域尚未完全解决的问题。因此,本文主要从增强特征学习的完整性和判别性两个方面展开深入的研究:1)提出了基于一致性约
学位
随着制造业市场结构由以产品为中心转向以产品服务为中心,消费者市场环境、企业竞争模式等发生变化。导致大量的企业在实际进行服务化转型中遇到了诸多挑战。如,(1)以产品服务为中心考虑产品服务价值水平如何影响产品服务供应链上决策双方定价、收益等问题;(2)在市场消费者影响下,产品服务供应链上决策双方的相关决策如何受决策者风险规避因素的影响;(3)伴随日趋网络化的发展趋势,产品服务供应链网络各成员收益如何受
学位
随着信息时代的高速发展,如何在用户和信息之间建立一种有效且直接的联系变得尤为重要。信息推荐应运而生,它着力解决信息迷航、信息超载等问题。目前,传统信息推荐算法主要存在以下三个方面的问题:(1)浅层模型挖掘不出项目的隐层特征,也无法对用户特征进行细致深度的刻画;(2)社交网络中蕴含了大量复杂的行为关系信息,作为网络用户特征中重要的部分之一却常常被忽视;(3)数据稀疏和冷启动问题在一定程度上影响了推荐
学位
视觉是人类感知和理解外界信息的重要方式,计算机视觉是对建立人类视觉观察系统与机器进行交流的桥梁,用于辅助工业化社会的生产生活。利用计算机对视频序列的目标跟踪是当前计算机视觉方向的一个重要研究内容,具体表现形式为在多帧连续的图像序列中估计出当前目标的具体位置,并以此确定出目标的运动轨迹信息,实现对有效目标的运动行为分析。经过诸多优秀专家学者们在目标跟踪领域的大量研究,目标跟踪的相关技术已经取得了长足
学位
随着社会发展和科学技术水平的提高,现实生活中的优化问题规模越来越庞大,搜索空间越来越复杂,求解难度也越来越大。这就使得传统的数学优化方法,如牛顿法、最速下降法、共轭梯度、凸优化等,无法对其进行有效求解。对于此类问题,进化算法凭借着操作简单、高鲁棒性、搜索力强、且不依赖求解问题信息的优点成为了一种高效的解决方案,并已被成功应用于求解许多复杂的优化问题。尽管进化算法发展至今已获得了极大的成功,但是,目
学位
细粒度图像识别专注于同一大类的不同子类的图像目标。随着图像识别技术在各个领域落地,对物体类别精细划分的需求日益凸显,细粒度图像识别逐渐成为研究热点。针对细粒度图像识别中类间差异小类内差异大的难点,目前的研究工作主要关注如何学习图像的判别特征,主流的研究方向包括定位判别区域、学习细粒度特征和数据增强策略。本文从定位判别区域和数据增强策略两个方向开展了以下研究:1)提出了一种基于通道注意力机制和区域增
学位
随着海量视频数据的爆发和人工智能技术的发展,视频描述任务逐渐成为研究热点。视频描述技术在生活中有着广泛的应用前景,如体育视频解说,电商商品描述,视频标题生成等等。在视频描述领域中,基于编解码结构的序列学习以及融合注意力及属性等信息的视频描述方法层出不穷。但这些方法存在两个严重的问题:一是视频时序建模表达力不足;二是忽视了视觉与语言的对齐。本文围绕上述两个问题,开展了以下研究:(1)提出一种基于多特
学位
一直以来,自然产生的正数据序列呈现维度高、噪声多、类别难以区分等特点。为了对正数据序列的复杂问题提供解决方案,本论文提出了基于连续HMMs(Hidden Markov Models,HMMs)与逆狄利克雷(Inverted Dirichlet)混合模型的数据建模方法。HMMs长期以来一直是最常用时间序列数据建模概率图模型之一。它已广泛应用于人脸识别、异常检测、医学基因检测等领域。在本文中,我们基于
学位