【摘 要】
:
人与物体交互关系检测是计算机视觉领域的重要研究方向之一,是使机器人更深入地理解物理世界的重要一步。不同于物体检测、人体姿态检测、场景分割这些只对场景中物体进行独立检测分割的视觉任务,人与物体交互关系检测是进一步推断出场景中某人与某物体之间可能存在的交互关系,具体就是要在定位存在交互关系的人以及物体的同时推断出其交互动作类别。人与物体交互关系检测在人机交互、服务机器人、视频安全监控等多个领域有重要研
【基金项目】
:
广东省前沿与关键技术创新专项资助项目(2017B050506008); 广东省重点领域研发计划资助项目(2019B090915001);
论文部分内容阅读
人与物体交互关系检测是计算机视觉领域的重要研究方向之一,是使机器人更深入地理解物理世界的重要一步。不同于物体检测、人体姿态检测、场景分割这些只对场景中物体进行独立检测分割的视觉任务,人与物体交互关系检测是进一步推断出场景中某人与某物体之间可能存在的交互关系,具体就是要在定位存在交互关系的人以及物体的同时推断出其交互动作类别。人与物体交互关系检测在人机交互、服务机器人、视频安全监控等多个领域有重要研究意义。近年来,随着深度学习再次兴起,计算机视觉领域在多个方向取得了前所未有的快速发展,但人与物体交互关系检测的相关研究仍相对发展缓慢。过去很多科研人员设计了多种基于多通道架构的神经网络,通过融合视觉、空间、人体姿态等多种特征进行某人与某物之间交互关系的推断,但忽略了场景中“上下文信息”,也就是场景中其他物体对的关系在推理某物体对时能提供有效的信息。此外,研究发现更精细的特征(如人体姿态信息)能进一步促进人与物体交互关系检测,但多种特征的引入导致现有的神经网络模型更为复杂。为了解决这两个问题,本文的主要研究内容如下:采用合适的算法从原生数据(图片)中提取并构造多种特征用以神经网络的输入并训练。提出基于物体视觉特征、物体间空间特征以及物体类别语义特征输入的视觉-语义图注意力神经网络。通过设计两个平行的图注意力神经网络分别处理视觉空间特征以及语义特征,隐性地学习利用场景中丰富的主次要物体对关系以及交互关系本身固有的语义规律促进人与物体交互关系的检测。大量实验表明,该模型在两个共用数据集取得了很好的检测结果。为了进一步引入人体姿态信息,基于视觉-语义图注意力神经网络,通过构建绝对人体姿态特征以及相对空间姿态特征,设计了一个基于姿态特征输入的轻量级模块化神经网络促进人与物体交互关系的检测。实验结果证明了本文提出的两种姿态特征以及该模块网络的有效性,且可视化结果表明了该检测系统在相对密集场景下也有较好的检测效果。为了能在现实场景中检测人与物体的交互关系,基于Pytorch库现有的物体检测器以及人体姿态检测器,结合上述两个神经网络模型,构建一个基本满足在现实场景中实时检测并进行可视化的检测系统。
其他文献
当今社会经济不断发展,生活节奏不断加快,女性从未停止对美的追求,因此,女性彩妆市场发展势头迅猛并蕴含无限潜能。在快消模式的冲击下,要想使彩妆行业保持蓬勃活力并注入新鲜血液,其中最为关键的因素是创新。目前彩妆市场竞争激烈、同质化现象较为严重,如何使彩妆产品突出重围且更加符合用户真实需求,是企业保持优势的关键。彩妆产品市场正在步入成熟期,但针对女性用户需求的创新产品设计研究还处于初期阶段,对于彩妆市场
随着城镇化的发展,乡村劳动力慢慢涌入城市中,乡村中多数青年群体不得已离开家庭,独自在外打拼,在这一现象中,最受影响的群体,便是乡村儿童,使得乡村家庭中绝大部分的儿童会成为留守儿童。由于长期缺乏父母陪伴与关爱,其成长的过程中必然会产生心理与行为问题,本文主要围绕着留守儿童的心理与行为问题进行调查与研究,并提出乡村留守儿童康复性场地的设计原则与策略,运用于实际的设计实践中。由于乡村留守儿童群体庞大且人
城市道路交通繁忙,市政车辆荷载引发的交通振动与噪音污染问题日渐凸显,引起人体的身心健康问题,因此,对市政道路进行隔振降噪研究十分必要。参考轨道交通中浮置板隔振道床技术,采用钢弹簧浮置板隔振道路,在市政交通领域是一个重大创新。本文以广州市番禺区万惠一路的浮置板减振道路为研究对象,采用Ansys有限元软件,建立了浮置板道路长度、宽度、钢弹簧刚度和隔振器支承间距等不同参数组合下的钢弹簧浮置板的三维有限元
目前电动汽车的发展在我国获得了大力推广,正处于迅速发展的时期。电池管理系统作为电动汽车的动力源的管家,主要负责对电动汽车的动力电池组进行检测管理,保证电动汽车能够获得稳定的动力输出和安全的行驶过程。本文首先对锂电池的工作特性进行了研究,接着结合锂电池的工作特性对电池管理系统的功能及其实现方法还有电池管理系统拓扑结构进行了详细的探讨,为电池管理系统的设计提供理论支持。然后针对电池管理系统中的热点研究
由于失能老人身体机能逐渐衰退甚至丧失,生活状态会与之前形成较大反差,从而导致心理方面的问题。目前国内社区针对失能老人医疗和生活方面的服务发展十分迅速,但心理健康方向的服务却呈现出低靡的状态。在此社会背景下,本文以服务接触为理论切入,聚焦需求强度较大的“上门陪聊”服务,并通过设计改变服务现状。在理论研究阶段,通过对服务接触相关理论的查询,梳理其定义的发展历程、与触点的辨析、四种服务接触模型、与“顾客
在后摩尔时代,以晶圆级倒装芯片直接封装为代表的先进芯片封装技术不断发展,以应对电子产品小型化、薄型化和三维集成化的变革趋势。最新工艺表明,LED芯片焊球的最小直径仅为10μm左右,焊距103/mm2,这就对倒装芯片垂直互连过程中键合压力的精度(≤±5N)和定位精度(≤±500nm)提出了极其严格的要求。否则,芯片焊球与基板之间的结合力过大或过小都会导致芯片产生冲击裂纹、虚焊
21世纪是世界经济高速发展和科学力量大力加强的时代,物质生活日益丰富,但随着现代生活节奏的不断加快以及人们生活压力的增加,我国人民的整体身体素质水平也同时呈现出了下降趋势,人民对于提升身体素质水平的诉求不断提高。在“全民健身”战略和移动互联网技术兴起的背景下,移动健身应用顺应时代需求呈现在公众视野,但同时也面临着市场同质化竞争激烈的问题。人具有社交需求,因此基于以上研究背景,本文将以突出移动健身应
在微电子制造领域,垂直运动平台具有广泛的应用场景。随着白光干涉扫描等精密技术的发展,对垂直运动平台也提出了大行程高精度的定位要求,而传统的单驱平台难以同时满足大行程和高精度的要求。本文针对宏微垂直运动平台的高精度定位问题,开展宏微控制算法、宏微协同控制策略以及误差补偿研究,提出基于边界层超螺旋算法的直线电机宏动台控制,设计宏微复合定位和复合步进策略;同时,对垂直平台的位移转换误差进行位置补偿以及在
作为交流伺服驱动系统的典型执行元件,永磁同步电机拥有许多其他电机所没有的优势,比如体积小、结构简单可靠、控制性能好,因此在各个领域都得到了广泛应用,高性能的永磁同步电机伺服驱动系统也随之成为研究热点。目前,伺服驱动器有以单芯片MCU、DSP作为控制核心,或以ARM+FPGA、DSP+FPGA作为核心的多芯片方案,后者结合了FPGA配置灵活、并行执行、实时性高以及微处理器驱动丰富、开发难度低的优点,
电子税务系统有效解决传统线下办税耗时长、效率低等问题,但同时受到了办税业务本身复杂性的影响,电子税务系统存在操作复杂、难以理解等问题。为解决这一问题,本文提出了一种智能语音交互技术并将其应用于面向电子税务的语音交互式增强现实(Augmented Reality,简称AR,下同)操作指引系统中。智能语音交互技术主要涉及知识库的构建、语义分析、意图判断等多方面的内容。为此,本文针对办税业务这一领域,着