论文部分内容阅读
人体行为识别(Human Action Recognition,HAR)是计算机视觉与模式识别领域内一个新兴的研究方向,目前已经在诸如视频监控、视频检索和异常行为检测等领域展现出极其广泛的应用前景。另外,对HAR的研究也间接的促进了步态识别、人脸识别和表情分析等问题的研究。然而,当前该领域的研究中存在着如下的问题:(1)单个特征表达能力不足;(2)当前行为识别研究主要是基于可见光成像的,而针对红外成像的行为识别的研究较少;(3)红外成像纹理缺失及边缘的不显著使得许多表达模型的有效性不足;(4)部分算法流程过于复杂,进而影响到识别系统的实时性。因此,为了有效的克服这些因素的不利影响,研究高效的行为识别算法一直是国内外研究的热点。本论文主要分析和探讨了人体行为的描述及建模,多特征融合构建,特征融合过程中融合策略的选取,复杂特征的约减及分类器的设计等,进而对基于计算机视觉的人体行为的表达与识别展开研究,取得的主要成果如下:(1)研究了基于融合特征的人体行为识别方法。为克服单个行为表达方法有效性上的不足,提出了一种基于剪影和光流信息的多特征融合行为表达方法:方向剪影光流直方图(HOSOOF,Histogram of Oriented Silhouette and Oriented Optical Flow)。该方法首先利用背景差分提取运动显著区域,然后提取运动显著区域的方向剪影直方图(HOS)和方向光流直方图(HOOF),提出一种表达层融合策略,构建融合特征HOSOOF结合支持向量机(SVM)识别人体行为,有效提高了人体行为识别的正确率。实验以广泛使用的公开行为数据集Weizmann为研究对象,正确识别率达到99.8%以上,验证了所构建融合特征HOSOOF的有效性。另外还考察了基于相同的融合特征结合不同分类器对识别性能的影响。(2)研究了基于稠密轨迹特征的红外成像的人体行为识别方法。提出并构建了基于稠密轨迹的多尺度融合特征(DTFF,Dense Trajectory-based Fusion Feature)来表达红外人体行为。该方法首先通过稠密采样获得输入行为视频的稠密轨迹(DT),以此计算基于稠密轨迹的3个描述子:方向梯度直方图(HOG)、光流直方图(HOF)和运动边界描述子(MBH);再采用词袋库模型和表现较好的表达层融合策略,构建了融合特征DTFF;最终作为k-NN分类器的输入,以IADB红外行为库为测试数据集,得到高达96.7%以上的正确识别率,明显优于其他方法。同时,验证了所提出融合特征(DTFF)及识别方法与其他方法相比,克服了常规单尺度及单个行为表达方法在面对红外成像纹理缺失及边缘不显著时有效性不足的问题。(3)针对当前许多行为识别方法流程复杂的问题,研究了对影响行为序列整体表达的关键问题,分析并探讨了基于模板匹配思想的人体行为识别方法,从而针对人体行为的视频片段在3D行为序列空间中通过滤波器组直接进行运动能量分解,提出了基于运动能量模板(MET,Motion Energy Template)的行为识别方法,可以避免诸如目标定位和分割等预处理操作;然后使用MET特征并结合SVM,在Weizmann和KTH人体行为数据库上进行相关测试;同时对选用不同特征降维方法、不同分类方法获得的实验结果(例如VEI模型、动态模板法和局部运动模式等)进行对比实验,结果表明本方法在识别率方面具有明显的比较优势。(4)更进一步,针对MET计算量较大且特征维数较高的问题,提出了基于MET简化模型(SMET)和多类相关向量机(m RVM)的人体行为识别方法。该方法首次在特征池化阶段使用两层8叉树最大池化方法(Max-pooling)简化了MET模型,并首次将m RVM和基于滤波器组的运动能量分解方法结合起来,应用到人体识别领域。在Weizmann人体行为数据库上进行了测试,识别率虽然比MET模型下降了1.1%,但仍取得了有竞争力的98.9%的识别效果,同时大幅减少了特征维数。基于以上结果,本文系统的研究了基于计算机视觉的人体行为识别问题。将上述成果应用到具体人体行为识别系统中,必将对系统性能产生积极影响。此外,它们对其他的动态场景理解及运动分析等技术的发展也具有重要的参考价值。