论文部分内容阅读
随着机器学习和成像传感器技术的快速发展,近些年基于RGB-D传感器的智能应用在许多领域受到了越来越广泛的重视,例如智能监控、智能检索、人机交互、自动标注等等,其中对运动目标的分析是关键技术之一。因此,在针对成像场景中的人体行为识别以及与此相关的时空特征学习受到了广泛的关注。从技术层面分析,基于RGB-D传感器的人体行为识别应该充分利用传感器能够提供的所有序列信息,特别是深度序列信息,并基于运动视觉分析理论,结合机器学习、人工智能、计算机视觉以及模式识别等领域的前沿,设计或学习得到最优的具有可区分性的空时特征来有效表征不同类别的行为动作,进而实现高精度和高可靠性的行为识别系统,因而具有较强的研究价值。本论文的主要工作如下:(1)设计一个双流的3D空时卷积神经网络行为识别框架,为了学习每种动作类别的全局的空时特征,我们考虑采用原始深度图序列数据作为一种模态数据的输入;为了学习动作类别之间局部细微的具有可区分性的空时特征,我们考虑人体行为动作本身的时域高度相关性,引入深度运动图序列作为第二模态数据输入到另一流3D空时卷积网络进行处理;同时,我们采用相应的3D骨架序列数据作为整个识别框架的第三模态的输入,考虑到骨架序列数据包含3D坐标的优势,及存在速率变化、时序不匹配和噪声等问题,我们使用人工设计空时特征的方法进行处理。这使整个识别系统能够从多个角度不同方面充分挖掘和利用人体行为的具有可判别力的空时特征,最终提高识别系统的分类精度。我们在不同的3D公开数据集上进行比较评估,说明了提出方法的有效性。(2)基于人体的关节点数据对人体骨架序列进行描述。首先利用特殊欧式群描述人体骨架各身体部位之间的旋转和平移运动,然后采用李群结构分别表达不同动作类别的骨架序列,由于其内蕴的黎曼几何关系,我们考虑在多任务学习框架中通过稀疏黎曼流形子空间的学习研究骨架序列的3D行为识别。最后,考虑到深度运动图的空时卷积特征、骨架的流形空时特征在局部可区分性方面的优势,而原始深度图序列、深度运动图序列有利于捕捉人体运动的全局空时特征,我们提出基于多种空时异构特征的多任务联合学习行为识别模型,在多种不同的公开数据集上证明了我们方法的有效性。