融合RGB-D视频中多模态特征的人体行为识别

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:jq1983wyh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别在计算机视觉和模式识别领域仍然是一个很有挑战性的难题。但是,具有深度感知功能的类似Kinect等产品,能为存在互相遮挡、行为多样等诸多挑战的人体行为识别,提供含有RGB纹理、深度及点云和骨架等更丰富的RGB-D多模态视觉信息。本文设计了一种融合RGB-D视频中多模态视觉特征的人体行为识别方法。针对人体行为识别中单一模态视觉特征的局限性问题,本文面向多模态视觉特征融合提出了能稳健描述人体运动信息的DenseMP特征和感知几何信息的SHOPC特征。在传统MovingPose特征和稠密轨迹特征基础上,构建了所提的DenseMP特征;它可以有效解决传统MovingPose特征对运动区域覆盖不足且易受干扰的问题,也能避免传统稠密轨迹中易出现不稳定运动轨迹的现象。SHOPC特征借鉴了HOPC特征对点云信息的低层描述方式,并结合自适应空-时金字塔方案得到,能刻画与运动特征相互补的几何外观特征,以弥补DenseMP特征在运动相似类别分类贡献上的不足;其保留点云几何信息的空-时分布顺序且具有视角不变性。实验表明,相比传统方法,DenseMP和SHOPC特征能分别提取到有效的运动信息和几何信息,且采用多核学习MKL将两者与来自纹理的HOG3D特征融合,具有更好分类效果。针对人体行为识别中行为语义类内容易包含多种视觉类别的问题,本文提出基于多实例化的多核学习超限学习机Exemplars-MKL-ELM的分类判决模型。相比于传统K-means算法,获得代表性实例化Exemplars的对比数据挖掘方法,能得到描述行为类别的类内更加紧凑且类间区分度更大的实例集合。其中每个单实例化多核超限学习机采用加权多核学习超限学习机MKL-ELM来实现,能解决训练样本中类别个数分布不均的问题;采用多核学习策略有效融合每个样本的多种模态视觉特征进行分类判决。其中由单层网络构成的ELM判决器采用随机分配的隐层参数,在训练过程不需要调整,输出层参数学习采用线性求逆方法得到。实验表明,相比于类似的Exemplars-SVM模型,本文所提出的Exemplars-MKL-ELM分类判决模型在计算效率和识别准确度上均具有显著优势。针对Exemplars-MKL-ELM模型在测试阶段的分类效率与实时性要求有一定差距,利用由对比数据挖掘方法获取的具有类别代表性的Exemplars实例,本文采用了一种贪婪式分层分类预测策略来解决在线人体行为动作识别的问题。首先,采用结合多核K近邻MK-KNN方法对测试样本进行粗粒度分类判决;然后,采用Exemplars-MKL-ELM模型对MK-KNN判决置信度过低的测试样本进行细粒度判决。实验表明,相比于单一的Exemplars-MKL-ELM预测方法,本文贪婪式分层判决策略能有效地权衡分类精度和效率,更好满足实时性的要求。
其他文献
期刊
随着数字移动通信和多媒体通信技术的飞速发展,需要有低码率的语音编码器来解决宽带资源的限制。研究者们相继推出了多种基于参数编码和混合编码的中低码率的语音编码器,国际
随着信息技术的不断发展与成熟,特别是基于IP技术的互联网的出现和广泛使用,极大地改变了社会生活的每一个方面,使人类生活发生了根本性的变化。目前互联网已经成为国家信息基础
正交频分复用(OFDM)是一种特殊的多载波传输技术,它可以适用于高速无线系统多媒体传输的需求。信道估计作为OFDM系统中一个重要的环节,因此有必要对OFDM系统信道估计算法做深
电子技术的快速发展推动了智能卡界的发展,同时,智能卡的发展也涉及到许多领域,尤其在移动通信领域发展最为迅速的是电信SIM卡。SIM卡在2G时代的主要应用是语音业务和用户鉴权。
随着互联网的普及,VoIP技术在商业运营中的应用价值逐渐被人们发现并取得了爆炸式的增长。近年来,随着产业界的融合趋势,我国电信网络面临的压力越来越大,当前的PSTN,PLMN网络难以
语音转换技术实现的是两个不同说话人声音个性特征之间的转变,即以目标说话人的声音特征为导向,通过改变源说话人的个性特征使之具有目标说话人的特征,从而改变源说话人话音
传感器网络是当今国际备受关注的前沿热点领域。如今,传感器网络已经迅速普及,为人类对物理世界的监测提供了前所未有的空间范围。但是,现今的传感器网络彼此孤立,互相封闭,
近年来在计算机视觉研究领域中,视频目标跟踪成为重要课题,在人机交互、增强现实等诸多领域应用广泛。由于视频场景中包含许多诸如光照、遮挡、背景干扰等复杂信息,加上目标
期刊