基于深度特征融合的人体姿态估计

来源 :西安理工大学 | 被引量 : 0次 | 上传用户:leolee4510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人体姿态估计是从图像或视频信息中获取人体各个关节部位具体位置的过程,目前已被广泛应用到人机交互、视频监控、虚拟现实等领域。基于彩色图像的人体姿态估计算法容易受到颜色、环境等因素的影响,而深度图像在人体着装、肤色和遮挡等影响下具有较好的鲁棒性,能够更好地适应复杂环境的挑战。本论文主要研究了基于深度图像的人体姿态估计方法,能够有效解决深度图像的噪声干扰、数据冗余等问题,从而提高人体姿态估计模型的预测精度。论文的主要工作包括:(1)针对深度图像含有大量非高斯噪声的问题,研究了一种面向深度人体姿态图像的层析去噪方法。首先依据直方图统计估计得到深度图像噪声强度和深度图像的探测距离范围确定图像的深度层级间隔,然后对每一层级的深度图像采用中值滤波进行去噪,最后对层析图像进行拼合并修复空洞,得到完整的去噪深度图像。通过在ITOP数据集上与其他去噪方法进行对比实验,验证了本文模型能够有效地去除深度图像中的非高斯噪声。(2)针对深度图像中人体信息提取不充分、特征存在冗余的问题,研究了一种深度图像特征融合模型。通过提取深度图像中人体的深度比较特征、BPOF特征和方向梯度特征,并以特征的信息熵、互信息作为评价准则进行特征融合,从而提升深度图像中人体信息表征能力,降低特征的冗余度。通过在ITOP数据集与其他特征融合方法进行对比实验,验证了本文模型能够有效地表征人体的关键信息并去除深度特征的冗余信息。(3)将本文所研究的层析去噪方法与深度图像特征融合模型应用于人体姿态估计,利用得到的融合特征进行网格划分,以流形高斯过程作为回归模型,从而实现人体的关节点信息的预测。通过ITOP数据集进行模型验证实验,结果表明本文的模型能够有效利用深度图像的深度信息,提高了人体姿态估计的准确性;同时基于流形高斯过程回归模型的人体姿态估计算法相比于随机森林、支持向量机和标准高斯过程等,在灵活度较高的人体关节部位具有更高的预测精度。
其他文献
目标跟踪是计算机视觉领域中的一个重要研究方向,已广泛应用在城市视频监控、城市智能交通、移动机器人目标跟踪、无人机飞行、虚拟现实和医学检测等多个研究领域。在实际应用中,常常出现目标遮挡、运动模糊、背景与目标相似、背景杂乱等情况,这些情况对跟踪算法的性能提出了很大的挑战。基于判别式分类器的目标跟踪算法因其效率高、效果佳的优势逐渐成为目标跟踪领域的主流研究方向,基于此,本文对基于判别式分类器的目标跟踪算
无人驾驶技术是一个庞大且复杂的系统性工程,但其核心始终离不开传感器、定位与导航技术。全球定位系统(CPS)作为目前主流的定位技术无法满足厘米级的定位和避障,且在室内和城市中无法做到全覆盖。而基于计算机视觉的定位技术很好的补充了 GPS这一短板。同步定位与建图(SLAM)旨在实现三维场景重建以及成像传感器的相机位姿估计。目前主流的SLAM算法对计算性能的要求较高,往往需要高性能图形处理单元(GPU)
结构光视觉测量法是一种基于光学的三维测量技术,现有的研究主要是针对静态对象的三维测量,这对于文物保护、医疗手术、工业元件制造等方面具有极大意义。但对于高铁轮毂、空气预热器转子这类测量精度要求高、停机损失大的动态旋转对象,三维测量技术并没有取得很大的进展。本文的研究重点就是实现对旋转物体的动态三维测量。本文基于线结构光法和双目立体视觉原理,提出了一种不干扰被测物体运行状态、操作简单、无需标定转轴的三
随着互联网上各种视频数据的爆发式增长,如何快速了解视频的主要内容,缩短浏览时长成为了一个亟待解决的问题。视频摘要通过提取视频中的重要帧或者片段,生成能代表原视频主要内容的短视频,可以给人们提供一种快速了解视频内容的方式,因此成为了目前的研究热点之一。本文基于对视频内容的分析来研究动态视频摘要生成算法,得到能够描述视频整体内容的摘要视频。将视频分为多个片段,估计所有视频帧的重要性从而衡量每个视频片段
智能可穿戴设备在近年来得到了迅速发展,各种各样的可穿戴相机在许多领域被广泛应用,提供了大量第一视角拍摄的视频数据。针对第一视角视频中的行为识别也逐渐得到更多研究人员的关注。对第一视角视频进行数据分析,可以实现对佩戴者的实时监控和状态评估,在医疗健康、虚拟现实、智能家居等方面具有重要应用。第一视角为分析人与物的交互行为提供了全新的观察角度。在第一视角视频中,无法获知第一人称的姿势信息,而且其头部运动
钢材作为最基础的生产原材料,在我们的国民经济和社会发展中扮演着重要角色。各个行业不仅对钢材等金属原材料的需求量急剧增加,对于钢材的精度要求也越来越高,尤其对于板材的横向和纵向厚度的精度要求提高。针对冷轧带钢工业现场的板形检测与控制的需求,提出一种基于图像传感器的板形检测方案,在合理的位置安装激光器与图像传感器,使激光器发出的线激光能够照射到带钢上,图像传感器能够拍摄到带钢以及线激光的反射光线。最终
近年来随着视频数量爆发式增长,视频内容理解的相关算法得到了广泛的研究。目前视频内容理解主要包括动作识别、时序动作检测和视频描述生成等任务。其中,时序动作检测是指在未剪辑的视频中定位出动作的起止时间并且判断动作类别。全监督的时序动作检测算法需要对视频数据进行详尽标注,极高的标注成本限制了时序动作检测应用于实际场景。弱监督时序动作检测算法仅需视频级的类别标签,标注成本低且非常容易获得,具有重大的现实意
基于视频的人体姿态迁移作为一种新兴的视频生成类任务,在人工智能产业中有着许多的应用场景。其可用于自动编辑视频中的人体姿态,同时也可以广泛应用在短视频制作、动画制作和虚拟现实领域中,从而提高多媒体内容智能生产技术的研究水平,推动计算机视觉科学与视频社交产业发展。目前,基于视频的人体姿态迁移算法的主流研究思路是以人体姿态估计与人体姿态生成这两个阶段来完成的。受姿态估计的精度及姿态生成网络构建方式的影响
我国经济已由高速增长阶段转向高质量发展阶段。从新发展理念包含的创新、协调、绿色、开放、共享五个维度考量发现,高质量发展的制约因素体现在自主创新能力不足,基础研究较为薄弱,科技创新的深度和广度不够;区域发展差距呈扩大趋势,国土利用空间布局不合理;工业化、城市化进程快速推进带来严重的环境污染,以及不合理的产业转移给生态环境带来负担;逆全球化和贸易保护主义抬头给我国带来了较大的贸易压力,而我国对外贸易相
集成成像技术是利用光学器件记录完整场景信息并实现显示过程的一种三维显示技术。由于该技术具有全部视差,显示色彩逼真和无视觉疲劳的优点,使其具有良好的发展前景。集成成像系统由场景信息记录阶段和场景信息显示阶段两部分组成,信息记录阶段利用透镜阵列将场景信息记录在微单元图像上,信息显示阶段利用光学或者计算重建的方法再现场景信息。利用稀疏相机阵列实现集成成像系统的记录和显示过程,可以简化系统的复杂度,提高分