论文部分内容阅读
随着机器人越来越多地参与到人类日常的生产与生活,人机交互问题引起了广泛的关注。在人机交互问题中,机器人感知外界环境的能力非常重要。与人类感知外界环境类似,机器人也需要通过视觉、味觉、嗅觉、听觉与触觉来感知外界环境信息。在目前机器人的应用场合中,较为常用的机器人感知方式是视觉、听觉与触觉。其中视觉尤为重要,人类获取信息的80%来自于视觉,因此学术界对机器人通过视觉获取信息的方法与技术的研究关注度最高。用于人机交互场景中的机器人通常依靠彩色摄像头感知与观察人体及其外界环境。本论文通过从视频中提取的信息来识别并理解人体的行为与动作等,可以快速建立人体行为特征数据库,为仿人机器人行为规划或人机交互提供基础数据和模型支持。本文提出了基于多级动态算法结构的人体姿态离线估计方法和全局-局部分层的人体姿态在线估计与跟踪方法;并在视频中人体姿态估计结果的基础上,提出了基于关键帧切割视频子段的人体运动行为识别方法和基于卷积神经网络特征编码的人体精细行为识别方法。论文的主要内容及创新点如下:1.构造出可分解与重构的二维人体姿态表达模型。该模型由全局层和局部层组成,称为全局-局部分层的人体姿态表达模型。模型的全局层用来表示完整的人体上半身姿态,局部层用来表示每个人体部位的独立姿态。此模型的优点是,在进行人体姿态的优化时,可以在局部层中对部位姿态进行单独的优化,并用最优的局部层部位姿态逼近最优全局层姿态;对于局部层得到的姿态结果,又可以通过全局层进行修正,从而使人体姿态优化问题更具有针对性。2.给出了实现视频中人体姿态离线估计的多级动态算法结构。该算法分为五级,在人体姿态估计的过程中,每一级的参数及数据动态变化,称为多级动态算法结构。在视频相邻帧中建立虚拟姿态,并利用虚拟姿态计算姿态样本在视频中的一致性损耗,构造评价姿态候选样本的代价函数,从而保证了视频序列中人体姿态的一致性。另外,通过对粒子群优化算法的有效使用,实现了用较少的人体姿态候选样本逼近最优人体姿态,在得到视频中精度较高的人体姿态估计结果的同时减少运算量。3.提出了全局-局部分层的视频中人体姿态在线估计与跟踪算法。首先,在视频第一帧中对人体姿态目标进行初始化,得到视频中目标人体的有效信息。其次,在人体姿态估计与跟踪的过程中,利用视频运动信息与图像表观信息,对目标进行边跟踪边校正。然后,构造一种惩罚发生漂移或误估计姿态的自适应惩罚函数,保证人体姿态在视频中的连续性,有效实现了视频中人体姿态的在线估计与跟踪。4.提出了基于多图像序列及视频切割技术的视频中人体运动行为识别方法。首先,采用人体姿态估计方法得到人体关键点在图像中的位置,从图像中提取出人体区域的图像块,增加了人体行为信息的有效像素。其次,计算光流图及其对应的人体区域图像块,共构造出四条图像序列,并用卷积神经网络进行处理。然后,提取视频序列中关键帧并构建二叉树对视频进行切割,得到了由粗略到精细的数个视频子段。最后,从每个视频子段中提取卷积神经网络特征向量并融合,构造出能够表达人体运动行为的特征,实现了视频中人体运动行为的有效识别。5.提出了基于行为细节信息的视频中人体精细行为识别方法。首先,给出一种基于人体关键点位置信息提取人体精细行为操作区域的方法,增加了视频中精细行为的有效像素。然后,利用卷积神经网络处理图像序列中的图像块,并对最后一个降采样层的输出特征进行编码,构造出能够区分不同人体精细行为的视频描述子,实现了视频中人体精细行为的有效识别。