基于多模态空时特征学习的3D人体行为识别

来源 :厦门大学 | 被引量 : 0次 | 上传用户:tlkj168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习和成像传感器技术的快速发展,近些年基于RGB-D传感器的智能应用在许多领域受到了越来越广泛的重视,例如智能监控、智能检索、人机交互、自动标注等等,其中对运动目标的分析是关键技术之一。因此,在针对成像场景中的人体行为识别以及与此相关的时空特征学习受到了广泛的关注。从技术层面分析,基于RGB-D传感器的人体行为识别应该充分利用传感器能够提供的所有序列信息,特别是深度序列信息,并基于运动视觉分析理论,结合机器学习、人工智能、计算机视觉以及模式识别等领域的前沿,设计或学习得到最优的具有可区分性的空时特征来有效表征不同类别的行为动作,进而实现高精度和高可靠性的行为识别系统,因而具有较强的研究价值。本论文的主要工作如下:(1)设计一个双流的3D空时卷积神经网络行为识别框架,为了学习每种动作类别的全局的空时特征,我们考虑采用原始深度图序列数据作为一种模态数据的输入;为了学习动作类别之间局部细微的具有可区分性的空时特征,我们考虑人体行为动作本身的时域高度相关性,引入深度运动图序列作为第二模态数据输入到另一流3D空时卷积网络进行处理;同时,我们采用相应的3D骨架序列数据作为整个识别框架的第三模态的输入,考虑到骨架序列数据包含3D坐标的优势,及存在速率变化、时序不匹配和噪声等问题,我们使用人工设计空时特征的方法进行处理。这使整个识别系统能够从多个角度不同方面充分挖掘和利用人体行为的具有可判别力的空时特征,最终提高识别系统的分类精度。我们在不同的3D公开数据集上进行比较评估,说明了提出方法的有效性。(2)基于人体的关节点数据对人体骨架序列进行描述。首先利用特殊欧式群描述人体骨架各身体部位之间的旋转和平移运动,然后采用李群结构分别表达不同动作类别的骨架序列,由于其内蕴的黎曼几何关系,我们考虑在多任务学习框架中通过稀疏黎曼流形子空间的学习研究骨架序列的3D行为识别。最后,考虑到深度运动图的空时卷积特征、骨架的流形空时特征在局部可区分性方面的优势,而原始深度图序列、深度运动图序列有利于捕捉人体运动的全局空时特征,我们提出基于多种空时异构特征的多任务联合学习行为识别模型,在多种不同的公开数据集上证明了我们方法的有效性。
其他文献
《企业国有产权转让管理暂行办法》明确规定:拍卖是国有产权转让的重要手段之一。拍卖活动介入国有产权转让有效提高了变现率,增加了具体实施操作的透明度,极大地提高了产权处置
中小企业的财务管理是中小企业在现代化建设中发展壮大的重要途径。当前中小企业的财务会计管理还存在诸多的问题,需要引起足够的重视。本文首先分析中小企业财务会计管理的
忆阻器是典型的非线性器件,继电阻、电容、电感之后的第四种基本电路元件。忆阻器的记忆性、非易失性、高集成密度、纳米级结构等优点使其在信号处理、人工智能和混沌电路设
在改革开放的新形势下,工艺美术正面临着市场竞争、产品结构、消费心理、审美趣味一系列变化带来的影响以及外来文化艺术思潮的冲击。工艺美术研究所如何跟上社会前进的步伐
在模式识别技术近些年的迅猛发展中,它在农业检测中的使用范围也慢慢广泛,国内外已在水分、蛋白质、多糖、脂肪的检测等方面都做了大量的研究,但在环磷酸腺苷(cAMP)检测方面还未见有报告。本文讲述了红枣近红外光谱信号定量检测的科研价值和该技术在我国和其他国家的研究状况,并针对红枣近红外光谱信号的特点,实验验证使用PLS回归与SVR算法对红枣近红外光谱识别实现快速检测cAMP含量的准确度和稳定性。本文主要
随着图像成像技术的发展,图像的空间分辨率不断提升,使得图像中包含大量的信息,能够呈现更多的细节信息,例如空间布局和纹理结构信息。这对于识别图像中的内容有很大的帮助。
培养学生具有世界视野,成为现代化、国际化的人才,是我国高等学校建设世界一流大学的重要手段和奋斗目标。英语作为世界通用语言在国际性课程开发和高校国际化建设中发挥着重
介绍拖拉机电-液悬挂系统的结构及工作原理,建立该系统数学模型,并对该液压悬挂耕深自动控制系统进行了位置控制、牵引力控制和力位综合控制的试验研究,实现了拖拉机电控液压
<正>在幼儿园语言教育活动中,教师有意识地设计语言教学的情境,便于优化语言教学,也便于在情绪上感染幼儿,为幼儿提供尽可能丰富的语言环境,促进幼儿智力和语言能力的发展。
<正> 学好谚语,对提高学生的口头语言表达能力有很大帮助,作文中恰当运用谚语,可使语言更生动活泼,效果更佳。那么,如何学习和使用谚语呢? 一、理解谚语的深刻含义。学习谚语
期刊