论文部分内容阅读
人体行为识别的目标是使计算机能够从包含人动作的视频图像中识别、理解出人的行为,这需要计算机具备一定的计算机视觉、机器学习能力。目前,由于受到技术限制和相关理论限制,人体行为识别还停留在初级阶段,识别任务较为简单。这样,计算机就不能较好地通过摄像头理解人的动作行为,这限制了人机交互、智能家居、视频内容检索等领域的发展。本文提出了一种基于分层方法的人体行为识别架构,该架构分为三层:第一层为原子动作识别,采用深度学习范式——栈式降噪自编码神经网络进行建模学习。在第一层图像预处理阶段提取人体轮廓,标定其为感兴趣区域并进行缩放操作,降低数据维度。提出了金字塔型架构的网络层节点数选择方案,节省计算开支。同时基于训练均方误差提出神经网络学习率更新策略,提升识别精度。第二层为序列动作识别,它通过利用第一层的深度网络模型,将视频序列转换为观测符号序列。接着采用多序列HMM模型进行建模,改善了序列间的相关性。第三层为复杂、交互行为识别,采用上下文无关文法进行描述识别。依据第二层学习到的HMM模型,对新的视频序列进行分割提取子事件起止时间点。分割算法引入连续相同动作判定规则,提出了HMM估值定界算法,简化了分割过程。在上下文无关文法描述中,添加描述子信息,满足复杂的逻辑关系。最后实验分析了整个系统,具备一定的可用性和扩展性。本文利用Kinect设备采集数据,提供了良好的深度、骨骼图像,提升工作效率。与传统的人体行为识别相比,我们采用最新的深度学习技术提升原子层动作的识别,为后续工作奠定基础。采用上下文无关文法进行描述行为,能够描述识别更为复杂的动作,具备良好的扩展性。整个识别方法隶属于分层方法,各层可由相似算法、规则自由替换,灵活性较强。在保证底层识别精度的前提下,高层可以仅采用少量数据而获得较高的识别精度。