基于3D骨架和RGB图像融合的动作识别算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:cathy1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着神经网络的发展,大量基于视频以及基于3D骨架的动作识别算法涌现出来。由于视频信息计算量大,而3D骨架因为维度小、运算速度快,所以基于3D骨架的动作识别成为人机交互的重要手段。但3D骨架缺乏细节的RGB像素信息,比如人物的肢体以及与人交互的物体信息。在相似的动作中,仅用3D骨架进行动作识别容易引起混淆。为了解决这个问题,使3D动作识别精度更高、更加稳定,本文尝试了将3D骨架信息和单张RGB图片进行融合。本文的融合方法受启发于视频动作识别种的双流网络算法,但做了很多改进。视频动作识别中,光流图片通常被用来表征运动信息,但光流图片需要事先提取好且计算耗时。本文拟用3D骨架替代光流图片,设计了多层双向LSTM网络来提取时间上的运动特征。该种替代既可省去提取光流图片的过程,又能减少计算量。对于RGB图像,视频动作识别通常提取一整张图片的抽象特征。为了使提取的特征更加具体,使网络能聚焦到图片动作中最显著的位置,本文设计了一个自注意力模块;为了解决3D骨架和RGB图像之间无法深度融合的问题,设计了一个骨架注意力模块。总体来说,模型分为两个流,一个网络流用来处理3D骨架序列,另一个网络流处理2D图片,最后再将二者进行融合,以提高识别精度。对于这两个网络流,本文分别单独进行了训练和测试。最后,本文将两个网络进行了融合,包括决策层的融合以及特征层面上的融合。相较于单独使用3D骨架的动作识别,本文的结果在NTU_RGBD数据集上平均提升了11.7%,在SYSU数据集上平均提升了9.8%。
其他文献
本文针对多智能体同步发电机的状态估计及其一致性跟踪问题提出了一种基于滑模控制器的高增益观测器。由于同步发电机被并入到分布式发电机单元时,微电网的稳定性和可靠性会受到很大挑战,因此本文通过利用滑模控制器实现了有限时间下同步发电机状态轨迹的收敛。此外,所提出的控制器还具有误差收敛速度快、抗干扰能力强等优点。另一方面,系统若要具备有效识别多智能体同步发电机非线性响应的复杂性,且通过为高增益观测器选择足够
学位
随着电力电子技术的发展,电力电子系统的运行功率等级越来越高,并且常常应用于复杂的工况下。为确保电力电子系统的安全运行,降低因意外故障带来的经济损失,对电力电子系统的可靠性进行综合评估测试并形成完整的可靠性理论评估体系具有重要的现实意义。其中,对占故障主导地位的功率半导体开关器件、电容器等元器件的深入研究也尤为重要。电力电子工况模拟技术可以更方便、更准确地对电力电子关键部件以及整个系统的可靠性参数进
学位
中文拼音输入法是一种便捷的计算机汉字输入解决方案,它的使用体验依赖于其核心组件:拼音汉字转换模块。近几年,随着相关模型和技术的发展,深度学习已经被广泛应用于各种自然语言处理任务中。然而在输入法相关的研究领域这一块几乎是空白的。本文主要针对相关深度学习技术应用于拼音输入法研究的可行性进行分析,从输入法音字转换模块、词典更新模块、模型预训练技术、辅助输入法构建四个方向对输入法进行改进,期望带来一定的用
学位
依存句法分析是自然语言处理中的核心任务之一,它通过分析词与词之间的依存关系来确定句子的句法结构,产生的结果可以用于强化许多下游任务。基于转移模型和基于图模型的方法是依存句法分析中的两类经典方法:前者以抽象状态机为基础,使用一系列转移动作构建句法树;后者以图论为基础,使用最大生成树算法在整个假设空间中寻找最优的句法树。本文探索了这两类方法各自的变体,简单优先模型和句法头选择模型,并分别提出了有效的神
学位
在信息化时代,理解不同语言的文字是人们获取国际化信息必不可少的途径。在跨语言交际中,专业化的人工翻译由于成本高、耗时长等因素难以普及,快速而又便捷的机器翻译应运而生,成为人们日常生活中难以或缺的一种工具,也为人工翻译提供了重要辅助。机器翻译是自然语言处理研究领域的一个重要分支,主要是依靠计算机从语料库的平行语言对中自动学习,然后利用所学的知识对其他句子进行翻译的过程。随着深度学习和神经网络技术的迅
学位
随着社会经济的高速发展和市场竞争的加剧,绩效考核对企业管理的作用愈发重要。传统的绩效考核采用填写考核报表等方式,存在报表数量多、工作效率低下和人工统计分析误差等问题。这些问题导致绩效考核失去原有的意义,不仅浪费了企业的时间和金钱,还未能为企业的竞争力和综合水平增添任何价值。因此,开发和设计一套符合公司实际需求、科学的绩效考核系统至关重要。该系统能提高企业自身的竞争力,促进员工的职业发展,并提高绩效
学位
喷水推进技术主要以船舶从船尾喷出反向水来获得推力。该技术的具有高机动性、噪声小及操纵性好等优点,并在国内外各领域得到了广泛的应用。本文以某型号的喷水推进船舶为建模对象,通过机理分析及系统辨识等方法建立喷水推进船舶矢量控制模型、喷水推进船舶操舵倒航模型和喷水推进船舶柴油机模型,并且基于上述模型进行船舶航向控制、路径跟踪和动力定位等航行任务的仿真研究。本文主要以日本操纵性数学模型研讨组(Maneuve
学位
随着超级计算机和数据中心的发展,其对处理速度和传输容量的要求越来越高,传统的电互连技术难以突破传输带宽、互连密度及功耗方面的瓶颈。光互连技术因为具有高带宽、低延迟、低功耗、低传输损耗和抗电磁干扰等优势,能很好的满足超级计算机和数据中心的需求,正逐渐取代电互连向板级甚至芯片级互连方向发展。聚合物作为制备光波导的一种材料,具有成本低、集成密度高、与传统印刷电路板(Printed Circuit Boa
学位
随着计算机网络的快速发展,社会的不断进步,空间上的距离已经不再是人们沟通交流的障碍。处在不同地域的人们,可以方便的使用音视频应用与其他人进行沟通交流。这些音视频应用提供了方便廉价的交流方式,给通信行业带来了翻天覆地的变化。大多数音视频应用依靠多媒体处理引擎来实现,音频引擎及其包含的音频处理算法是其中的重要组成部分。普通开发者独立实现一套音频引擎的难度是非常大的,需要把音频媒体的采集播放,音频编解码
学位
针对超级电容电极材料的开发,本论文聚焦于废弃物衍生碳基复合材料的制备,并探索了在超级电容中的性能。选取了生物质废弃物甘蔗渣和工业废弃物含氧化石墨烯废液,通过水热等方法制备得到了碳基复合材料,对所制备的材料进行了形貌、结构表征和电化学性能测试。初步探讨了材料的结构和电化学性能的关系。具体研究如下:1、首先,针对生物质废弃物甘蔗渣,通过简便的水热法,利用甘蔗渣制备了多孔碳,表征了其形貌结构,并且制备成
学位