【摘 要】
:
随着深度学习与人工智能技术的不断发展,人体行为识别技术得到了越来越多的关注,其广泛应用于人机交互、无人商店、安防监控、病人护理、虚拟现实等领域。行为识别的目标是从场景中的视频图像序列中对人体动作进行理解分析,准确高效显得尤为关键。因深度传感器可有效的避免受到光照、遮挡,环境变化等因素的影响,基于骨骼数据的行为识别方法在模式识别领域成为了热门研究方向。在近几年的研究中,将人体姿态建模为时空图结构的图
论文部分内容阅读
随着深度学习与人工智能技术的不断发展,人体行为识别技术得到了越来越多的关注,其广泛应用于人机交互、无人商店、安防监控、病人护理、虚拟现实等领域。行为识别的目标是从场景中的视频图像序列中对人体动作进行理解分析,准确高效显得尤为关键。因深度传感器可有效的避免受到光照、遮挡,环境变化等因素的影响,基于骨骼数据的行为识别方法在模式识别领域成为了热门研究方向。在近几年的研究中,将人体姿态建模为时空图结构的图卷积网络(GCN)取得了优越的性能,但现有的方法中依然存在着问题,研究视频中人与物体交互的行为识别课题尚未取得突破。对于场景中存在人与物交互的动作相互错分概率较高,识别准确率低,影响了算法整体性能。人与物交互行为识别问题有待解决,并有着重要的研究价值。因此本文针对上述方法的不足展开研究,主要研究工作如下:(1)本文为解决人与物交互行为识别存在的问题,首先通过构建交互检测网络用来判断动作是否存在交互情况。因现有数据集缺乏除人体之外的可用信息,本文对存在交互的动作类,使用labelimg标注工具以及Siam RPN算法来准确获取动作数据集中人与物体的空间位置,用于交互检测网络的建模以及后续工作的展开。然后再利用人与物体相对关系编码进行特征表示,用于网络建模后位置特征的提取。最后通过网络调参以及人与物时空位置特征的学习来判断动作是否存在交互,这方便了后面研究人与物交互行为识别问题。该方法在现有数据集NTU RGB+D 60上进行测试,判断交互情况取得了 78%的平均准确率。(2)文本为解决筛选出的交互动作类存在的错分问题,基于GCN人体行为识别的研究基础上,针对人与物动作交互问题考虑多特征信息互补,提出了一种多模态深度融合的人与物交互行为识别方法。多种特征之间的联系难以挖掘,对视频中人与物存在交互的动作,此时利用场景中交互物RGB信息,人、物时空关系等对信息进行有效补充从而达到动作分类。在构建网络阶段,选取动作场景中RGB信息进行预处理,深度网络能提取有效的人与物像素轮廓特征,该信息作为补充完成最终动作识别。本文同时考虑交互过程中人、物时空变化关系,通过改变深度网络结构与特征编码方式,加入人、物时空特征信息建模来进一步对场景中动作信息进行有效补充。通过模型调优,最终利用特征间的潜在互补关系使用多模态深度融合策略进行模型融合达到交互行为分类效果的提升。在现有大型骨骼动作数据集NTU RGB+D 60上进行实验与分析,与现有算法进行对比,本论文提出的多模态人与物交互行为识别深度融合方法识别准确率有所提高,证明了本文方法的有效性。
其他文献
钢材作为最基础的生产原材料,在我们的国民经济和社会发展中扮演着重要角色。各个行业不仅对钢材等金属原材料的需求量急剧增加,对于钢材的精度要求也越来越高,尤其对于板材的横向和纵向厚度的精度要求提高。针对冷轧带钢工业现场的板形检测与控制的需求,提出一种基于图像传感器的板形检测方案,在合理的位置安装激光器与图像传感器,使激光器发出的线激光能够照射到带钢上,图像传感器能够拍摄到带钢以及线激光的反射光线。最终
近年来随着视频数量爆发式增长,视频内容理解的相关算法得到了广泛的研究。目前视频内容理解主要包括动作识别、时序动作检测和视频描述生成等任务。其中,时序动作检测是指在未剪辑的视频中定位出动作的起止时间并且判断动作类别。全监督的时序动作检测算法需要对视频数据进行详尽标注,极高的标注成本限制了时序动作检测应用于实际场景。弱监督时序动作检测算法仅需视频级的类别标签,标注成本低且非常容易获得,具有重大的现实意
基于视频的人体姿态迁移作为一种新兴的视频生成类任务,在人工智能产业中有着许多的应用场景。其可用于自动编辑视频中的人体姿态,同时也可以广泛应用在短视频制作、动画制作和虚拟现实领域中,从而提高多媒体内容智能生产技术的研究水平,推动计算机视觉科学与视频社交产业发展。目前,基于视频的人体姿态迁移算法的主流研究思路是以人体姿态估计与人体姿态生成这两个阶段来完成的。受姿态估计的精度及姿态生成网络构建方式的影响
我国经济已由高速增长阶段转向高质量发展阶段。从新发展理念包含的创新、协调、绿色、开放、共享五个维度考量发现,高质量发展的制约因素体现在自主创新能力不足,基础研究较为薄弱,科技创新的深度和广度不够;区域发展差距呈扩大趋势,国土利用空间布局不合理;工业化、城市化进程快速推进带来严重的环境污染,以及不合理的产业转移给生态环境带来负担;逆全球化和贸易保护主义抬头给我国带来了较大的贸易压力,而我国对外贸易相
集成成像技术是利用光学器件记录完整场景信息并实现显示过程的一种三维显示技术。由于该技术具有全部视差,显示色彩逼真和无视觉疲劳的优点,使其具有良好的发展前景。集成成像系统由场景信息记录阶段和场景信息显示阶段两部分组成,信息记录阶段利用透镜阵列将场景信息记录在微单元图像上,信息显示阶段利用光学或者计算重建的方法再现场景信息。利用稀疏相机阵列实现集成成像系统的记录和显示过程,可以简化系统的复杂度,提高分
人体姿态估计是从图像或视频信息中获取人体各个关节部位具体位置的过程,目前已被广泛应用到人机交互、视频监控、虚拟现实等领域。基于彩色图像的人体姿态估计算法容易受到颜色、环境等因素的影响,而深度图像在人体着装、肤色和遮挡等影响下具有较好的鲁棒性,能够更好地适应复杂环境的挑战。本论文主要研究了基于深度图像的人体姿态估计方法,能够有效解决深度图像的噪声干扰、数据冗余等问题,从而提高人体姿态估计模型的预测精
运算不仅是"数与代数"的核心内容,也与其他领域密切关联。数的运算是学生学习数学的基础,是每个学生必须具备的核心素养之一。教学中应重视理解数与运算的意义,在通透算理的基础上掌握算法,关注灵活运用简便算法,从而培养学生的运算能力。
随着社会的飞速发展、科技的不断进步和人民生活质量的提高,传统劳动密集型产业普遍出现劳动力紧缺、人工成本增高和急需生产技术研发升级的问题。本文针对浙江省永新集团建设智能袜业示范园区的目标,总结分析现如今袜业生产现状以及其存在的问题,提出了袜业智能生产线开发研究的总体思路以及生产线的生产工艺流程方案,设计研发出袜业智能车间设备的总体布局方案以及生产调度系统,对完成生产线需要的关键设备进行了研发设计,并
流数据具有实时、连续、动态变化的特点,其广泛存在于网络监测、金融交易以及传感器检测等领域。从流数据中挖掘信息、发现规律,并对系统行为进行分析,预测未来的变化趋势,可以提高生产生活中的决策和评判效率,具有重要意义。流数据海量实时的特点,要求处理系统需具备高负荷的处理能力。基于CPU(Central Processing Unit)的串行处理是当前处理流数据的主要方式。串行方式不仅耗时长,而且难以达到
针对袜企目前打样周期长、与袜品卖家沟通时间长等问题,探索对三维电子袜样的仿真模拟技术及相关软件开发。本人以Pierce模型为基础,对纬编针织物单位线圈进行建模,再对其组织结构进行分析研究,在Visual Studio环境下,使用VC++语言,借助3dsmax工具实现了三维电子袜样的模拟。模拟结果很好地表现了纬编针织组织在空间中的串套关系,同时直观展示了袜品的三维编织效果。主要完成了以下工作:(1)