论文部分内容阅读
人体动作是人类最主要的生物特征之一,让传感器和计算机学会像人类一样感知和理解人体动作具有重要意义。基于视觉数据的人体动作精细分类及评估以其非接触、低成本等优势,广泛地应用于智能安防、人机交互和康复医疗等领域。基于视觉数据的人体动作精细分类及评估指的是利用计算机视觉技术对视频中发生的人类动作进行动作类别预测、时间上的精细分类和动作质量评分,主要包括动作分类、动作检测和动作评估三大模块。目前的研究工作主要存在以下问题:(1)现有的动作分类方法大多数依赖于深度神经网络,难以对动作内部进行深入剖析和研究;(2)目前的动作检测算法没有考虑动作的完整性,定位精度低,难以满足实际场景下的需求;(3)在动作评估研究中,评估动作简单,且局限于对体育赛事的评估。针对以上存在的问题,本文从动作分类、动作检测和动作评估三方面入手,首先提出了可解释的动作分类算法,用于对视频中发生的人类动作进行类别预测。考虑到实际场景下获取的视频通常为未剪切的长视频,进一步提出了渐进式动作检测算法对未剪切长视频中的人类动作进行时间上的精细定位。然后,提出了精细动作评估算法用于对已知类别和精确定位得到的人体动作进行定量评估。最后设计了康复医疗场景下的数字化视觉动作追踪系统,应用提出的动作精细分类及评估算法实现相关疾病的辅助诊断和机制探索。主要研究工作总结如下:1.提出了一种可解释的基于关键片段描述子和步长矩阵模型的人体动作分类算法。将动作单元定义为由连续几帧具有相似空间结构的骨骼帧构成的骨骼片段,提取骨骼片段的时空特征进行聚类形成关键片段字典,将骨骼序列表示为词序列。构建步长矩阵模型,用于编码动作序列的多尺度全局时序信息,通过计算测试样本的步长矩阵与各类别动作的步长矩阵的响应实现动作分类。该算法在Northwestern-UCLA数据库、MSRC-12数据库和CAD-60数据库上的动作分类准确率分别达到78.96%、91.84%和91.18%。2.提出了一种基于深度残差网络和实例搜索的渐进式动作检测算法,专注于实现高精度的动作精细定位。提出用于量化表示当前帧动作进度的进度标签,设计了基于Res Net-50的53层进度标签预测网络LPNet-53,用于实现单帧图像的进度标签回归。提出渐进式动作搜索算法,基于进度标签序列精细定位动作实例发生的区间位置。构建DFMAD-70数据库,用于评估渐进式动作检测算法的性能。该算法在DFMAD-70数据库上的检测精度为:当t Io U=0.5时,m AP=97.0%,当t Io U=0.8时,m AP=76.0%。3.针对康复医疗场景下动作评估自动化的需求,提出了一种基于时域滤波卷积神经网络的动作检测方法,实现了交互过程中的精细动作评估。应用设计的视觉动作追踪系统记录实验对象在精细动作评估任务中的动作数据,构建动作评估数据库。实验结果表明,所提出的动作评估方法的预测结果与人工评分的平均误差为1.83,有效实现了精细动作的自动化评估。4.开发了一套无标记的低成本数字化视觉动作追踪系统,系统由Kinect和头戴式眼动仪组成,Kinect用于捕获记录实验对象动作数据的RGB图像、深度图像和骨骼数据,眼动仪用于捕获实验对象的眼动信息和第一视角下的动作数据。该系统可用于同步记录康复医疗场景下动作评估过程中的动作数据和眼动数据,实现了运动障碍相关疾病的辅助诊断和机制探索。