论文部分内容阅读
基于视频的目标跟踪是近年来计算机视觉领域十分活跃的研究方向,而行为识别算法实现了对视频内容的理解,在人机交互、视频注释和异常行为检测等场景有着越来越广阔的应用空间。随着模式识别和深度学习理论研究的不断深入,跟踪与识别算法也在推陈出新,并逐渐向实用化发展。但是,目前算法还有一些难点有待解决,如挖掘更强力的特征表达和应对实际复杂场景中可能遇到的遮挡和尺度变换等挑战。此外,尽管神经网络算法在当前领域被广泛应用,但其对于运算速度和输入样本数量的要求仍然有很大的提升空间。出于这些考虑,本文在已有目标跟踪和行为识别算法的基础上做了尝试改进。针对卷积特征对图像表征能力不足的问题,本文实现了一种基于相关滤波模板的深度特征与LBP纹理特征自适应融合算法。算法利用了卷积神经网络结构中不同卷积层对目标区域的不同表征,浅层特征描述位置信息,深层特征则包含更多语义信息。考虑到深度特征无法很好解决目标形变问题,故引入描述局部纹理特性的LBP特征来弥补该项不足,最终采取自适应融合的方式在算法决策层面将两种特征进行融合,该融合方式优于传统的加性或乘性融合。为解决密集轨迹存在噪声点从而影响识别准确率的问题,本文算法利用运动显著性强度对密集轨迹点进行提纯,去除图像背景区域和运动干扰区域中的轨迹点,并基于提纯后的密集轨迹训练双流神经网络,这种网络结构能够充分利用图像序列时间和空间上的信息,从而提取出更全面的视频行为表示特征,最终将特征输入支持向量机分类器,采用OvR策略输出多分类结果。经过实验验证,本文的目标跟踪算法在OTB-50数据集上获得了多项指标的提升,中心误差指标对比LBP特征法降低了52.2像素,对比DLT算法降低了50.1像素,而重叠成功率对比LBP特征法提高了36.9%,比DLT算法提高了28.4%,同时在光照变化、尺度变化、遮挡、平面内旋转和目标变形等问题上效果也更鲁棒。行为识别算法在HMDB和UCF101数据集上也取得了更高的分类识别率,对比基本双流神经网络分别提高了5.4%和3%。