基于Kinect和词袋模型的人体行为识别研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:kobe_lilei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体行为识别是计算机视觉的热门研究方向之一。低成本的深度传感器的出现,如微软的Kinect,可以有效避免光照、环境等因素的影响,同时,它还可以获取图像中的深度信息和骨架信息,为人体行为识别研究提供了好的数据来源。因此,在人体行为识别的研究中,研究人员逐渐倾向使用三维骨架信息。词袋模型作为一种机器学习方法,被广泛用于基于骨架关节点的人体动作识别。目前,该方法的识别准确率仍需进一步提高。根据目前的研究状况,本文主要进行了以下工作:(1)在基于Kinect的人体行为识别中,其识别准确率受测试者的体型、测试者与深度传感器之间的距离和夹角影响,因此,本文提出对骨架长度的自适应调整方法,并进一步对骨架动作的旋转角进行统一处理,该方法可以有效处理关节点数目和拍摄角度各不相同的动作数据集数据。(2)目前,构成动作特征向量的方法可以分为坐标、距离、方向三类。基于距离的表示法,其优点是不受人体相对于照相机位置和方向的影响。基于方向的表示法,其优点是不受人体位置、人体尺寸和相对于照相机方向的影响。本文结合这三种表示方法,利用关节点的坐标,骨骼向量之间的夹角,以及骨骼向量的方向角和仰角构成空间描述子,其次,利用帧间关节点坐标的差值构成时间描述子,并联合空间描述子和时间描述子构成动作特征向量。(3)在传统的词袋模型方法中,利用K-means算法构建视觉词汇,但该方法的效果受初始聚类中心的影响较大。本文对构建视觉词汇的方法作了改进,提出利用高维数据集的Hubness现象,将Hub值较大的数据点构成候选点集,并采用最大最小距离法确定视觉词汇。本文在CAD-60,UTKinect,MSR action 3D,UTDMHAD和MSRC-12五个公共数据集上与当前最新的动作识别方法进行了实验比较,实验结果表明,本文方法能够达到较高的识别准确率。
其他文献
为满足尖端技术领域对钨合金零件提出的高表面质量要求,需对钨合金零件进行精密/超精密加工。但目前采用切削等方式加工时存在严重的刀具磨损现象,使获得的钨合金零件表面质
随着工业制造等行业的迅猛发展,工艺水平不断提高,作为保证产品质量的测量定位工作也变得愈发重要,实现高精度的自动化定位成为研究热点和难点。相较于人工定位,激光定位具有检测精度高、安全性好、操作便捷等优点,但是传统的激光中心位置检测算法对光斑形态要求较高,在光斑出现一定畸变时,计算结果可能会出现较大误差。因此,需要提高复杂情况下的激光光斑中心检测精度,保证测量工作的顺利完成。本文的主要研究内容是激光光
论文主要研究塔里木盆地柯坪、巴楚、塔中和塔北地区寒武系盐下肖尔布拉克组白云岩,以碳酸盐岩沉积岩石学、石油地质学、储层地质学等多门学科为理论基础,结合野外露头、岩心
红外探测技术在军事、农业、工业、交通、航空航天、医疗等领域有广泛应用。作为红外探测技术的核心器件,红外探测器及其应用技术是各国争先发展的热点和核心。扩大红外探测器成像面阵规模、缩小像元尺寸是红外探测器发展的主流方向。对红外探测器的验证测试是检验红外探测器性能品质的重要环节,也是红外探测器后端工艺改进的重要依据和支撑。多通道大面阵红外探测器在天文观测、光度测量、对地观测等领域有着至关重要的作用。我国
长周期结构因其特殊的显微组织和优异的性能而广泛受到研究者们的关注。由于其堆垛结构的复杂性以及其独特的组织结构,人们在对长周期结构物质在进行EBSD分析时,发现电子束入
在日常表达中,我们使用隐喻表达抽象的认知体验或者传达审美感受。同时,我们的认知思维机制和概念系统是建立在隐喻之上。因此,隐喻机制的计算实现是自然语言处理任务中必不可少的一环。隐喻计算旨在发掘和表征语言中普适存在的隐喻机制,一般包含如下两个方面的内容:一是识别语料中的隐喻表达,与非隐喻表达进行区分;二是描述隐喻的表述意义,实现隐喻意义的有效理解。本文基于隐喻的认知与语言学特性,运用相关计算模型,解决
近年来,随着科学技术的进步,收集到数据的维数也越来越大。因此如何有效地从海量数据中挖掘出有用的信息逐渐成为科学研究的热点问题。尤其是在生物统计以及基因研究的领域,数据的维度通常都是远高于样本数量(n>>p),又称之为超高维数据。目前统计学中的多数方法以及很多机器学习中的算法只能适用于低维数据,而高维以及超高维领域的研究却相对较少。在超高维的研究范畴中,通常会先将数据的维度降低到可以处理
经历了多年的发展,人工神经网络演化出多种独特的结构。卷积神经网络(CNN)由于在计算机视觉、语音识别和自然语言处理等领域的出色表现引起了研究人员的广泛关注。然而,随着CNN的功能越来越强大其网络模型也越来越庞大,训练耗时,对硬件要求苛刻等一系列问题制约着CNN的发展。因此,对CNN模型压缩的需求应声而出。针对上述问题,本文提出了一种基于逐步修剪策略的CNN模型压缩方法。与前人通过对权重修剪以减少C
人群踩踏事件是现代生活中非常危险的事故之一,给人类的生存安全带来了极大的威胁,有效的抑制踩踏事故的发生对于现代化城市建设来说是必不可少。目前,通过将人群密度估计(或者人群计数)技术与人群行为分析相结合可以有效的分析场景中的异常事件,对危险做出预警,这也是目前比较有效的预防踩踏事件的措施之一。但人群计数任务本身容易受到图像中的透视、拥挤、遮挡、密度等因素的干扰,造成图像中的人头在尺度、外貌上出现比较
探测粒子发射源的时空信息是高能核—核碰撞实验的重要研究内容,而π干涉学分析是人们获取高能碰撞系统时空结构的有效方法。多相输运模型(AMPT模型)是模拟相对论重离子对撞