论文部分内容阅读
一直以来,科学家都在探索如何赋予机器理解人类社会的能力,随着人工智能技术的发展,这一想法开始慢慢变成现实。例如在计算机视觉领域中,物体检测和识别可以帮助机器理解周围环境,人体姿态估计和动作识别可以帮助机器理解人类社会,自然语言处理可以帮助机器与人类进行交互。本文重点研究人体姿态估计和动作识别两个子任务。目前,多人人体姿态估计领域通常分为两类方法:自上而下和自下而上。其中自上而下方法是先利用检测器定位出人体位置,然后利用单人人体姿态估计的方法对每个人进行检测,但是在人群密集场景下,当前检测框中关键点估计仍然会受到其他人体的干扰。随着人体姿势估计领域的发展,基于人体姿势估计的动作识别方法越来越受到欢迎,因为人体动作本质上是由关节点发出的,并且该方法不会受到图片质量的干扰。但是利用人体姿态进行动作识别有一个缺点:不能建立端到端的网络对两个任务同时进行学习。为了研究和解决这两个问题,本文所做工作如下:1.本文提出一个有效解决人群密集场景下的多人姿态估计方法:融合自上而下和自下而上。首先利用检测器对人体进行定位,然后利用单人人体姿态网络预测出所有可能的人体关键点,包括其他人体关键点,最后利用本文提出的聚合算法筛选和组成单个人体关键点。2.本文提出的聚合算法具有树型结构,首先计算相邻关节点之间的置信度,然后找到从根节点到叶节点之间置信度和最大的那条路径,该路径上的关节点就是当前人体框中需要检测的关节点。该聚合算法并不会产生NP难问题,因为只需组合成单个人体关键点。3.在基于人体姿态估计的动作识别领域中,通常是利用人体关键点坐标进行动作识别,从而导致不能同时对两个任务进行在线学习。基于此,本文探讨基于人体姿态热力图进行动作识别,从而建立端到端的网络有效地解决这两个问题。4.本文提出一种时空注意力机制来优化时序信息和关节点信息的利用方式。在动作识别中,不同的关节点在不同的动作中起到不同的作用,不同的时序信息对动作识别的重要程度也不一样,因此本文提出一种时空注意力机制来对人体姿态热力图特征赋予不同的权值,使得网络关注更加重要的信息。另外,本文融合了图像特征和人体姿态特征进行动作识别。