论文部分内容阅读
基于视频序列的行为识别(以下简称行为识别)是计算机视觉领域研究的热点课题之一,具有十分重要的理论研究价值和广阔的应用前景。由于人体行为的复杂性和多样性,目前仍有两方面的问题亟待解决,一是类内与类间的不确定性导致对相似行为的识别混淆程度较高;二是长视频序列中存在不规律的可预测性,特别是当主体行为由多个子行为共同构成时,子行为的分布状态对识别效果的影响较大。对此,本文主要从特征提取与行为分类两方面进行研究,本文的主要成果包括以下方面:1.提出了基于局部时空协方差矩阵特征的行为识别算法。传统的特征级联可以视作特征向量在单一维度上的简单堆叠,这种特征融合方式通常无法对时空域特征的关联性作出准确描述。为此,论文通过在局部范围内,对空域梯度特征与时域梯度特征作协方差矩阵融合,增强了外观信息与行为信息在同一时刻的联合表达能力,提高了特征的判别性,这对行为识别具有重要意义。但协方差矩阵属于黎曼空间,无法使用传统的欧氏空间的度量方式进行量化,通过研究发现运用对数欧氏运算可以将黎曼空间下的协方差矩阵映射至欧氏向量空间。实验证实了协方差矩阵融合特征明显优于传统的级联特征。2.提出了基于低秩稀疏联合表达的行为识别算法。局部约束线性编码用局部近邻可视词对特征样本作描述,代替了词袋模型中对无序可视词的简单统计,获取了局部特征的空间分布信息,但是这种局部描述具有噪声敏感性,且忽略了可视词的全局信息,会影响行为描述的充分性。为此,论文通过寻求特征样本关于模板的低秩稀疏表达,获取行为描述在全局范围内的显著性信息;同时,通过沿用之前提出的局部时空协方差矩阵特征设计实验,实验证实低秩稀疏表达相比于局部约束线性编码以及同类的线性编码算法,具备良好的显著性特征,实现了对无关特征的抑制,又能从背景噪声中提炼出关联信息,在公开数据集上,该算法取得了较好的效果。3.提出基于低秩约束的判别子空间学习的行为识别算法。低秩稀疏编码算法中的模板缺少更新机制,需要大量样本参与模板构建,以确保模型具有足够的泛化性能,但同时也增大了模板构建时的运算开销。为此,论文通过利用子空间的低维映射性质构建模型,降低特征维度,减小运算开销;同时模型显式地引入判别约束,联合低秩表达,既保留了模型的抗噪能力,又提高了行为表达的判别性,实现了对类内与类间良好的区分度,提高了识别效果。实验结果表明,判别约束对提升行为识别效果起到了积极作用,同时验证了该算法,相比同类型算法具备一定的竞争力。4.提出了基于改进的局部聚合向量网络的行为识别框架。长视频序列普遍存在信息冗余程度大,资源占用率高的特点,同时在这类视频中,主体行为通常由多个子行为共同构成,明确子行为与主体行为的时空结构特点,准确把握特征之间以及特征与背景之间的量化关系,成为处理这类行为识别问题的关键。为此,论文引入局部聚合向量网络,通过量化局部描述与聚合中心之间的残差关系,寻求子行为的特征分布状态,从而聚合出具有强语义信息的行为描述。在此过程中,论文主要从三方面对其作了改进,首先结合了划片采样的方式,使采样图像均匀分布于视频序列,确保了行为表述的完整性,同时相比密集采样又能提高处理效率;其次论文提出了基于时空软赋值的局部聚合向量网络,由于局部聚合向量网络运用二维卷积对软赋值实施计算,缺乏对时空特性的获取能力,为此构建了以3D卷积为主体的时空感知模块用以软赋值计算,增强软赋值的时空特性;最后论文提出基于自注意力加权的局部聚合网络,由于时空感知模块忽略了分布于序列片段间的关联信息,造成了时空感知范围的局限,为此构建了以自注意力模块为主体的软赋值计算方法。通过大量实验,验证了自注意方式计算的软赋值可以有效地扩大感受范围,获取更多上下文时空信息,相比于其他先进算法,该模型在UCF101与HMDB51数据集上取得了具备竞争力的识别效果。