人体姿态估计算法及其在跌倒检测中的应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:joshua5201314
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人口老龄化的加剧,对老人的安全监护逐渐成为社会的重要课题,意外跌倒是导致老人意外死亡的重要原因,若能够及时地检测出跌倒的行为,对挽救老人的生命有很大帮助。由于姿态估计提取到的人体骨架特征可以很好地编码人体的结构信息,能够帮助实现高效的跌倒检测算法。因此,本文首先对人体姿态估计的相关技术展开研究,再基于姿态估计设计一个轻量高效的跌倒检测算法,主要内容如下:(1)在姿态估计领域中,热图被广泛用于编码人体关键点的信息,然而它在生成过程中却面临着各关键点尺度变化的问题。为此,本文提出了尺度感知热图,在热图的生成算法中融入各类型关键点的相对尺度信息,从而依据关键点的尺度来调控其在热图中的特征表示。此外,由于人体各关键点在空间中的分布是稀疏的,热图中还存在前景元素与背景元素数目不平衡和元素检测难度不平衡的问题。为此,本文设计了权重再分配的损失函数,在神经网络的训练过程中给热图内不同元素分配不同的权重,并依据元素的检测难易程度来动态地调整其权重大小,从而提升网络的性能。(2)在设计跌倒检测算法时,考虑到算法在应用场景中高实时性的要求,本文对算法的卷积神经网络结构进行了轻量化改造,通过深度可分离卷积策略和残差网络结构来优化神经网络的参数量和计算复杂度,利用通道注意力机制来提升网络的性能,从而满足算法对性能和实时性的要求。此外,考虑到算法在多人场景下面临的视频帧间人物误匹配的问题,本文首先基于对人体结构的研究提出了结构中心点的概念,然后基于结构中心点设计了一个轻量的帧间骨架重匹配算法,能够对相邻视频帧间属于相同人物的骨架特征进行匹配,从而对视频内每个人物的行为进行分析。本文分别在姿态估计任务和跌倒检测任务的公开数据集上进行了实验分析。实验结果表明所提出的姿态估计算法能够在COCO数据集上达到69.4%的平均精确度,相比于基线方案获得2.3%的提升,跌倒检测算法能够达到97.7%的准确度,运行效率达到每秒20帧的处理速度,充分验证了算法的有效性。
其他文献
近年来,随着立体视频等应用的兴起,视频信号的数据量越来越大,给存储和传输带来了沉重负担。在存储或传输之前,视频信号通常会被压缩。主流的视频压缩算法,在变换与量化等模块中引入失真,压缩数据的同时也影响压缩后视频的质量。如何在尽可能降低数据量的同时保持尽可能好的视频质量是视频编码的永恒话题。为此,视频质量增强算法被研究者们引入到视频编码中,其中基于神经网络的方法近年来成为了智能编码优化的研究重点,目的
学位
自动驾驶系统是新一代工业革命的关键技术之一,道路分割在其中扮演了重要角色,它能保障智能汽车的安全行驶,具有极大的研究意义和应用价值。研究者们提出了大量的道路分割方法,这些方法取得了较好的分割准确性,但是存在计算量过大的问题,而智能汽车搭载的平台算力十分有限,无法做到实时运算,因此难以为下游的决策模块提供及时的反馈。本文深入探索了道路分割中的关键问题,设计了兼顾准确性和实时性的道路分割算法,主要工作
学位
屏幕视频主要由文本区域、计算机图形和其他计算机生成的内容组成。相比于相机拍摄的自然场景视频,具有独特的特征:在空域上,其具有更高的色彩纯度、更高的边缘强度;在时域上,场景切换更为频繁,且相邻帧之间的运动更加集中、剧烈。在屏幕视频的压缩与传输过程中,需要在尽可能不降低视频主观质量的前提下提升压缩率。针对这一需求,本文分析了屏幕视频的视觉感知特性,建立了屏幕视频的视觉感知模型。具体而言,这一模型包括空
学位
基于多视图的三维重建旨在从物体的多视角图片中恢复出物体的3D形状。随着深度学习的发展,基于深度学习的三维重建工作方兴未艾,但仍然存在以下两点挑战。首先,多视图之间存在一致性和互补性,如何建模多视图的一致性和互补性关系,是基于多视图三维重建工作的关键。其次,现有工作通常构建深层次的网络结构来提取更具辨识性的高阶特征,但是深层网络中几何信息逐渐丢失,导致物体的精细结构难以准确重建。针对上述挑战,本文基
学位
近年来行人轨迹预测的研究受到广泛关注,在诸如自动驾驶、智慧城市、智能监控等计算机视觉应用中起到了关键作用。在行人轨迹预测中,行人之间以及行人和场景之间的交互都会影响行人轨迹。交互的最优构建方式也会随着环境的变化而变化,从而造成预测轨迹的不确定性。因此,如何依据环境变化建模最优交互关系是行人轨迹预测的难点。针对这一难点,目前还面临以下三个问题:一是建模对象,即建模哪些交互;二是模型结构,即在确定建模
学位
经过数十年发展,冷冻电镜已成为研究蛋白质生化性质最有效的手段之一。通过冷冻电镜密度图构建蛋白质三维结构是该技术的最后一环。然而,该步骤目前大多由结构生物学家手动完成。为节省人力物力,本文以冷冻电镜密度图为研究对象,提出了一种基于深度学习的蛋白质三维结构预测算法。该算法主要包含三个子模块,分别是Cα原子目标检测、氨基酸目标检测和蛋白质骨架构建,具体内容如下:(1)设计了一个基于Retina Net的
学位
场景识别是计算机视觉领域的一个经典研究问题,其中室内场景的准确识别有助于室内机器人和增强现实等应用的发展。然而室内场景通常存在空间布局多样、光照复杂以及物体相互遮挡等问题,给室内场景识别带来挑战。提供场景空间信息的深度(Depth)数据结合可以提供颜色和纹理等信息的RGB数据,为室内场景识别带来新的研究契机。因此,近年来基于RGB-D的室内场景识别得到了广泛的关注。针对基于RGB-D的室内场景识别
学位
基于问题的教学法(Problem Based Learning,PBL)是一种以学生分享讨论为主的教学方法,该方法正被广泛应用于医学教育领域。PBL课堂教学中,教师需要提问引导、反馈并通过记录学生课堂发言情况给出评价。为保证评价客观性,教师需在课堂上记录很多内容,这对教师的要求很高。根据PBL课堂的需求,研究这类多人同屏场景下的发言行为检测问题,能自动统计学生的发言,辅助教师开展教学评价。发言行为
学位
跨模态图文检索任务旨在挖掘图像和文本两种不同模态数据之间的对应关系,并通过一种模态的输入数据在另一种模态中检索语义相似的数据。跨模态图文检索融合了计算机视觉和自然语言处理两个领域的相关知识和技术,例如特征提取、注意力机制等等,在自然灾害预警、军事侦察、资源勘探等诸多领域都起着关键作用。跨模态图文检索不仅需要分别对图像和文本进行特征提取和理解,还需要进一步建立文本语义和视觉图像之间的关系,并在两种不
学位
随着信息技术的发展,在线教育平台逐渐兴起,与传统课堂相比线上教学感知度较低,传统课堂中教学研究人员通常采用眼动仪收集眼动数据对学生学习行为进行测量分析,然而眼动仪不便在日常学习中推广应用,因此使用单目摄像头采集脸部图像进行视线估计成为较为常见的数据采集和行为分析方式。课程视频中幻灯片内容往往具有显著的信息传递意图,学生对课程视频的观看模式与其内容密切相关,而现有视线估计算法往往忽略了屏幕内容与视线
学位