论文部分内容阅读
互联网技术日趋成熟,使得其在信息处理方面的应用愈加广泛。信息表现形式有多种,其中视频以信息量大、可视性好的优势成为当前信息的主要载体。通过分析和识别视频中的人体行为识别,进而实现人机智能交互、视频智能监控和医疗检测等功能,使其成为目前计算机视觉中的重要研究方向。但现实场景中的人体的行为是良莠不齐的,受不同的视角、杂乱的场景和模糊拍摄等客观因素的影响和人体行为高度复杂性以及多变性等主观因素的影响,准确的识别和分析真实场景中的人体行为仍然是一个具有挑战性的问题。因此,如何有效的提高视频的人体行为的识别率已经成为该领域研究的热点方向。因为有效的特征能够高效的表征人体当前行为,所以研究出一种先进的行为识别算法就有着至关重要的作用。本文针对基于视频的人体行为识别这一研究方向,在传统的方法和深度学习的方法上进行本文课题的相关研究和探索。本文主要的研究工作有:(1)基于随机投影和GMM-FV混合模型的改进型密集轨迹的人体行为识别本文引进了一种先进的矢量方法,即在使用改进型密集轨迹方算法(IDT)提取特征时,将其GMM-FV混合编码模型与随机投影相结合。首先通过移动边界采样的方法减少不必要的轨迹进而剔除冗余的轨迹特征,然后利用随机投影降维方法将提取到的高维底层特征描述子进行第一次降维,使用GMM-FV方法将底层特征进行聚类编码使之成为分类能力强的特征编码向量,同时为了降低计算复杂度再次使用随机投影降维方法对特征编码向量进行二次降维。实验结果分析表明,该方法不仅在一定程度上提升了视频人体行为识别的精度,同时也在一定程度上降低了计算复杂度和减少存储空间的开销。(2)基于C3D网络的多深度特征融合的视频的人体行为识别提取高效全面的行为特征是行为识别的关键所在。传统单一的行为特征往往只涉及到部分的行为数据,一些可以表征行为的信息被舍弃,从而导致了行为识别的精度受到一定的影响。因此本文提出了一种基于C3D网络的多深度特征融合的视频的行为识别的方法,在将C3D网络作为特征提取器提取RGB深度特征的基础上,同时提取了可以更好表征人体运动信息的光流深度特征,将这两种深度特征通过加权融合后构成最终的行为特征向量。最后使用libSVM分类器进行训练分类。实验结果表明,本文改进的方法较之传统的3D卷积网络更能有效的提高行为识别的精确度。(3)基于LRCN网络结构的视频的人体行为识别为了进一步研究视频的人体行为识别,本文评估了基于长效递归卷积网络(LRCN)的人体行为识别。LRCN模型结合了卷积层不仅能偶能够处理变长的输入序列也能够支持变长的输出并生成完整的语句描述,从而捕获时间序列上的信息。实验结果表明,尽管LRCN模型在处理变长的输入序列上有其优势,但是最后的分类准确率却是没有3D卷积网络好。