【摘 要】
:
动作识别任务拥有着很长的历史,近年来随着深度学习的发展,更是取得了长足的进步。但以往的动作识别任务都是基于RGB数据的,只是最近以微软的Kinect camera为代表的深度传感器的逐渐普及,才出现了基于骨骼点的动作识别方法。3D骨骼点数据相较于RGB数据而言,排除了人体形态、所穿衣着和光照等冗余信息,却纯粹保留了“人体动作”本身的关键信息,这使得基于骨骼点的动作识别任务吸引了越来越多研究者的注意
论文部分内容阅读
动作识别任务拥有着很长的历史,近年来随着深度学习的发展,更是取得了长足的进步。但以往的动作识别任务都是基于RGB数据的,只是最近以微软的Kinect camera为代表的深度传感器的逐渐普及,才出现了基于骨骼点的动作识别方法。3D骨骼点数据相较于RGB数据而言,排除了人体形态、所穿衣着和光照等冗余信息,却纯粹保留了“人体动作”本身的关键信息,这使得基于骨骼点的动作识别任务吸引了越来越多研究者的注意,也诞生了不少的文献方案。尽管如此,基于骨骼点的动作识别仍然存在着一些棘手的问题会对分类结果产生影响,例如:人体尺寸不同、观测视角不同和噪音问题等。针对这些问题,本文进行了如下工作:(1)针对长久存在的从人体关键节点的3D坐标信息中难以提取出有效特征的问题,本文通过统一坐标转换和尺度重定位的操作消除了骨骼点数据中角度不同和尺寸差异对特征提取结果的影响,从而提取出高效的表示特征。(2)本文提出了一种新颖的双层生长格网络架构,该架构对于数据建模具有更好的灵活性和适应性,通过与理论上相近的自组织映射方法进行对比实验,验证了其有效性和高效性。并且该模型架构的主体部分为无监督学习,更加适合在现实场景中应用。(3)针对骨骼点数据中存在的噪音问题,本文提出了一种基于生成网络的特征提取方法。该方法针对骨骼点序列数据具有较强时序依赖性的特点,改进了变分自编码器在循环神经网络中的实现,利用改进后的生成网络去提取骨骼点序列数据中的潜变量特征,经过实验验证,该特征具有更强的语义特征,提升了分类的准确率,并且在数据具有噪音甚至是帧丢失的情况下,展现出了更强的鲁棒性。(4)针对近期表现比较突出的图卷积类的方法,本文也探究了生成网络与图卷积类方法的结合方案。在图卷积类方法中将骨骼点数据看成是图数据结构,本文利用了图生成网络Graph VAE的基本思路,从骨骼点帧数据所构成的图中去提取潜变量特征,并将提取出的特征和图卷积类方法所提取的特征进行融合。通过选取具有代表性的ST-GCN和Js-AGCN两个模型进行了对比实验,验证了本文所提特征融合方案的有效性。融合后的特征不仅能够提高基线模型的性能,还增强了其鲁棒性。
其他文献
文本情感分类是一个自然语言处理领域中的常见问题。随着大数据时代数据规模的爆炸式增长,用户在互联网的使用中积累了大量的文本数据,如何从文本中有效提炼出用户的情感倾向成为了如今自然语言处理领域的一大挑战。而文本情感分类方法作为处理该问题的有效方法之一,也因此得到了研究者们的广泛研究。现有的文本情感分类方法主要使用神经网络相关技术及结构以提取到原始文本中的深层特征信息,进而根据提取到的特征完成文本情感倾
泛娱乐产业发展如火如荼,视频压缩作为基础业务,发挥着极其重要的推动作用。视频压缩的核心技术不断更新,但人们对视频的要求不断提高,有限网络带宽与超高视频码率之间的矛盾仍是未来很长一段时期的研究热点。码率控制与率失真优化技术作为视频编码端优化技术,不可或缺。视频转码能力作为视频服务提供商的硬实力的象征,长期以来各大厂商不遗余力地研发提升。为此,本文围绕多路并行码率控制、率失真优化和视频转码三项内容展开
人体动作识别通过分析人体运动数据来判断人体动作的类别,是典型的多分类任务。它是行为分析和理解的重要基础和前提,在人机交互、智能监控、智能运动、医疗保健等领域具有广泛应用,近年来已成为了计算机视觉领域的热门研究方向。根据人体动作的信息载体不同,人体动作识别可以分为视频动作识别和骨架动作识别。前者的信息载体是连续的图像序列,后者则基于光学估计、深度相机、动作捕捉设备或三维姿态估计算法等得到的关节三维坐
目标检测算法通常假设训练数据和测试数据服从相同的特征分布,但该假设在实际场景中很难达到。很多实验已经证明了域自适应方法可以减小域之间的数据分布差异,以获得更好的检测精度。将域自适应方法应用到目标检测网络中来减小域差异,这种方法称为域自适应目标检测算法。使用域自适应目标检测算法可以用于无监督或弱监督目标检测任务,减少数据标注需要的人力物力。本文使用深度域自适应目标检测算法,利用有标注的源域数据和无标
作为大数据时代最有效的信息过滤手段之一,推荐系统得到了学术界和产业界的深入研究和广泛应用。一个完整的推荐系统一般存在3方主要的参与者:用户、物品供应商和推荐系统运营商。传统的面向用户的推荐算法通常难以避免物品流行性偏差问题,这极大损害了推荐系统另一方主要参与者—物品供应商的物品推荐公平性需求。本文同时考虑物品供应商和用户的不同需求,开展面向推荐公平性和准确性的推荐算法研究,主要研究内容有以下三部分
视觉语义理解是计算机视觉中一个具有挑战性的课题。而场景图是图像语义信息的抽象表示,它是以图像中目标为顶点、目标之间的关系为边的图形结构。论文研究图像中目标之间的关系,围绕场景图生成任务,首先检测图像中所有的目标,然后识别它们之间的关系,最后将这些信息进行结构化表示以生成图像的场景图。场景图可以为图像理解提供丰富的语义解释,并且为下游的高级视觉语义任务提供理论与技术支撑,对视觉语义理解有着重大的意义
近年来,辅助生殖技术不断成熟,研究表明囊胚比卵裂期胚胎更加符合妊娠生理,移植一个高质量的囊胚,可以在保证顺利妊娠的同时,有效降低多胎妊娠的可能性,从而避免其并发症威胁母婴健康。因此,精确评估囊胚期胚胎形态学参数尤其重要。本文针对囊胚期胚胎数据稀疏的特点,设计面向数据扩充的图像预处理算法,搭建胚胎主体分割模型和细粒度特征识别模型,完成囊胚期形态学参数特征地快速准确识别,最终实现人性化的可视化特征识别
在我们的日常生活中,随处可见各类物联网设备,如何管理这些设备是物联网大规模应用中的一项重大挑战,解决办法之一是在这些设备上安装定位系统,以便实时了解设备的位置。此外,在物联网传感设备提供的应用中,大部分都是基于位置的服务,如果不知道设备的地理位置,那么传感器的数据将毫无意义。大多数基于位置的应用程序,通常会使用全球定位系统GPS来进行定位。然而,使用GPS带来的能耗非常高,并不适用于物联网中低功耗
随着互联网的发展,网络上出现越来越多的文本,人们迫切需要通过文本关键词快速获取文本的主要内容,以判断文本是否是自己感兴趣的。同时文本关键词提取作为自然语言处理(NLP)领域一项基本研究,其算法的效果直接影响到许多下游任务的效果。因此文本关键词提取算法得到了广泛的关注与研究。基于图的文本关键词提取算法不仅能通过词语之间的关系来衡量词语的重要性而且该类方法为无监督的方法,因此被广泛研究。然而该类方法在
近年来,由于民航乘务人员和旅客需求的不断更新,电子技术在民航客舱环境下的应用也在不断扩大和上升。民航客舱环境下,为了保证应用间通信的实时性和可靠性,对系统提出了非常高的要求。为了满足这样的实时应用程序的需求,对象管理组织通过发表DDS规范,提出了一个以数据为中心的发布/订阅通信模型,并使用这样的模型来进行数据分发。然而,目前国外诸如RTI DDS等应用于航空客舱环境的中间件大多为商用产品,开源产品