论文部分内容阅读
人体行为识别在计算机视觉和模式识别领域仍然是一个很有挑战性的难题。但是,具有深度感知功能的类似Kinect等产品,能为存在互相遮挡、行为多样等诸多挑战的人体行为识别,提供含有RGB纹理、深度及点云和骨架等更丰富的RGB-D多模态视觉信息。本文设计了一种融合RGB-D视频中多模态视觉特征的人体行为识别方法。针对人体行为识别中单一模态视觉特征的局限性问题,本文面向多模态视觉特征融合提出了能稳健描述人体运动信息的DenseMP特征和感知几何信息的SHOPC特征。在传统MovingPose特征和稠密轨迹特征基础上,构建了所提的DenseMP特征;它可以有效解决传统MovingPose特征对运动区域覆盖不足且易受干扰的问题,也能避免传统稠密轨迹中易出现不稳定运动轨迹的现象。SHOPC特征借鉴了HOPC特征对点云信息的低层描述方式,并结合自适应空-时金字塔方案得到,能刻画与运动特征相互补的几何外观特征,以弥补DenseMP特征在运动相似类别分类贡献上的不足;其保留点云几何信息的空-时分布顺序且具有视角不变性。实验表明,相比传统方法,DenseMP和SHOPC特征能分别提取到有效的运动信息和几何信息,且采用多核学习MKL将两者与来自纹理的HOG3D特征融合,具有更好分类效果。针对人体行为识别中行为语义类内容易包含多种视觉类别的问题,本文提出基于多实例化的多核学习超限学习机Exemplars-MKL-ELM的分类判决模型。相比于传统K-means算法,获得代表性实例化Exemplars的对比数据挖掘方法,能得到描述行为类别的类内更加紧凑且类间区分度更大的实例集合。其中每个单实例化多核超限学习机采用加权多核学习超限学习机MKL-ELM来实现,能解决训练样本中类别个数分布不均的问题;采用多核学习策略有效融合每个样本的多种模态视觉特征进行分类判决。其中由单层网络构成的ELM判决器采用随机分配的隐层参数,在训练过程不需要调整,输出层参数学习采用线性求逆方法得到。实验表明,相比于类似的Exemplars-SVM模型,本文所提出的Exemplars-MKL-ELM分类判决模型在计算效率和识别准确度上均具有显著优势。针对Exemplars-MKL-ELM模型在测试阶段的分类效率与实时性要求有一定差距,利用由对比数据挖掘方法获取的具有类别代表性的Exemplars实例,本文采用了一种贪婪式分层分类预测策略来解决在线人体行为动作识别的问题。首先,采用结合多核K近邻MK-KNN方法对测试样本进行粗粒度分类判决;然后,采用Exemplars-MKL-ELM模型对MK-KNN判决置信度过低的测试样本进行细粒度判决。实验表明,相比于单一的Exemplars-MKL-ELM预测方法,本文贪婪式分层判决策略能有效地权衡分类精度和效率,更好满足实时性的要求。