论文部分内容阅读
人体行为识别是计算机视觉重要的研究方向,广泛应用于视频监控、视频检索以及人机交互等。本文针对词袋模型人体行为识别方法往往生成高维度特征向量,不利于分类的问题,深入分析了这些方法的特征向量生成过程,发现高维度特征向量中存在的结构模式,并通过结构化正则器将结构模式当成一种先验信息嵌入到分类器的学习过程中,以提高人体行为识别精度。本文的主要工作有:首先,研究了“硬指定”方法生成特征向量中的结构模式发现和利用问题。“硬指定”方法是一种最常用的词袋模型人体行为识别方法,通过词条聚类算法对词典中的词条进行聚类,根据聚类结果定义“硬指定”方法生成特征向量中的组结构,并通过组稀疏正则器来表示这一组结构模式,使用其替换SVM中的l2正则器,提出一种组稀疏正则化支持向量机(Group Sparsity Regularized Support Vector Machine,GSRSVM)分类器。提出一种基于交替方向乘子(Alternating Directions Method of Multipliers,ADMM)的优化算法,解决了GSRSVM的学习问题。多个数据集上的人体行为识别结果验证了方法的有效性。其次,研究了Fisher核方法生成特征向量中的结构模式发现和利用问题。通过对Fisher核方法特征向量的生成过程进行分析,发现该方法生成的特征向量中存在组结构模式,将特征向量中描述同一个高斯分量的变量定义为同一个组,描述不同高斯分量的变量定义为不同的组,并将这种组结构模式当成一种先验信息嵌入到GSRSVM中。提出一种基于对偶函数的GSRSVM优化算法,使GSRSVM能够应对极高维度的分类问题。该方法的有效性在多个人体行为数据集上进行了验证。再次,提出一种稀疏编码-时空金字塔方法,并研究了该方法生成特征向量中的结构模式发现和利用问题。该方法不仅降低了量化误差,也有效捕获了特征的时空结构信息。更重要的是,该方法生成特征向量中存在两种结构模式:组结构模式和层次结构模式。对于组结构模式,将其嵌入到GSRSVM中;对于层次结构模式,通过层次稀疏正则器来表示,并用其替换SVM中的l2正则器,提出一种层次稀疏正则化支持向量机(Hierarchical Sparsity Regularized Support Vector Machine,HSRSVM)分类器,之后在ADMM框架下提出一种优化算法解决了HSRSVM的学习问题。多个数据集上的人体行为识别结果验证了方法的有效性。最后,提出一种多级稀疏编码方法,并研究了该方法生成特征向量中的结构模式发现和利用问题。该方法不仅捕获了更加丰富的特征上下文信息,也有效防止了量化误差的传播。发现该方法生成特征向量中存在一种组结构模式,将其嵌入到GSRSVM中。多个人体行为数据集上的识别结果验证了方法的有效性。