论文部分内容阅读
人体行为识别是当今计算机视觉领域的研究热点,该技术涉及图像处理、模式识别、机器学习、人工智能等多个学科,其应用领域包括社会治安监控、交通管控、智能家居、无人驾驶、智能机器人、人机交互等,因此,在这方面的研究具有深远的研究意义和巨大的应用价值。人体行为识别研究中的关键技术是对视频中人体行为的高效描述,是该研究领域的一个重要课题。人体行为描述是指视频序列中能够有效代表目标行为动作的特征信息,亦即特征描述子。常用方法中的特征描述子有方向梯度直方图(HOG)特征、光流(HOF)特征、运动边界直方图(MBH)特征、轨迹(Trajectory)特征、改进的密度轨迹(improved Dense Trajectories,iDT)特征、三维形状特征等,本文中采用的特征是iDT轨迹特征。当前人体行为识别领域的研究还存在许多挑战,比如复杂背景下的目标检测、类间差异性、高效特征表示、高效算法等,基于时间序列信息的方法已经有了很好的研究基础。视频达尔文(VideoDarwin,VD)是一种研究视频外观随时间演化信息的方法,该方法采用排序函数捕捉视频外观演化信息的方法进行人体行为识别,排序函数用来对变化的视频帧信息排序,每个排序函数通过排序机(ranking machine)从视频中学习得到,该方法将排序函数的结果参数作为原视频的等价表示序列,用这个等价表示作为视频中行为动作的表征进行行为分类,该方法容易理解并且能够快速有效的识别多种动作。本文提出一种视频达尔文方法结合人工神经网络(ANN)分类器的人体行为识别方法,采用正序、逆序、正-逆序三种方式的视频达尔文与神经网络组合的方式进行实验。本文基于HMDB51数据集进行人体行为识别的研究,HMDB51数据集中包含走路、奔跑、跳跃、拍手、拥抱等51种动作类型,其全部来自电影或者YouTube等公共视频库,共计7000多个动作片段。人工神经网络能够很好的解决多分类问题,其具有自适应学习、超强的泛化能力、能更好的拟合非线性关系的优点。本文实验中构造了一个含有三层隐层的神经网络作为视频达尔文方法中视频外观随时间演化信息的动作表征序列的分类器,并在训练集上采用交叉验证优化神经网络模型,然后在该模型上训练并测试数据集进行实验。本文实验中采用HOG、HOF、MBH、Trajectory四种特征,以及它们的融合特征iDT特征对视频进行特征提取,将提取的特征传给视频达尔文生成视频的等价表示序列,然后将此等价表示序列传入本实验中构造的人工神经网络分类器,并在人体行为识别数据集HMDB51上进行实验和对比分析。实验结果表明,这种结合神经网络分类器的方法在人体行为识别中获得了很好的识别效果,尤其是在采用iDT特征描述子和正-逆向视频达尔文组合的情况下,得到了更好的效果。