基于层级时空语义基元的视频人物交互识别

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:qiuxiang8288
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会逐步走向科技化与智能化,计算机视觉技术也迎来了前所未有的发展热潮。为了进一步理解视觉世界,研究者不再局限于像目标检测这样简单的场景识别任务,而是转向对复杂场景中各种视觉关系的理解。在多种视觉关系中,人和物体的交互关系最能体现一个场景中的主题。本文主要着眼于视频中的人物交互识别任务,相比于图像人物交互检测,视频任务的关注要点从空间关系转移到了时空关系上。目前的视频人物交互识别算法大多使用实例级的空间基元和帧级的时间基元,缺乏交互中的细节信息且忽略了基元的层级结构性和可组合性,难以取得良好的识别效果。因此,本文提出了一种基于层级时空语义基元的视频人物交互识别方法,利用细粒度的时空基元提供细节信息,并通过基元组合的方式构建表征能力更强的时空特征,从而提升人物交互识别的准确率。本文的主要工作包含以下两部分内容:首先,本文提出一种基于层级时空语义基元的人物交互识别方法,分别在空间和时间上完成对视频人物交互的建模。在空间上引入人体骨架关键点信息,结合人体躯干的层级结构将其组合为身体部位基元,分别构建物体-部位图和部位-部位图来描述身体部位基元和物体之间的交互关系,物体-部位图中隐含了身体部位与物体之间的交互特征,部位-部位图用来表示人在交互时的整体姿态,通过图卷积网络来学习空间上的人物交互表征。在时间维度,视频帧的空间特征被组合为时间段基元,并与一组可学习的隐式基元进行关联,使得时间段基元有了更丰富的语义表示。在CAD-120数据集上,本文的方法相较于最新方法的F1得分提升了0.3,证明了其有效性。其次,对于人物交互识别中的长时间建模,本文提出一种基于多尺度时序关系融合的长时间建模方法。针对现有3D卷积神经网络和循环神经网络在时间建模时存在网络过深难以优化以及缺少长距离时序依赖的问题,本文提出的方法融合了不同时间尺度上的特征,达到同时捕获局部信息和全局信息的目的,并且通过构建多个时间图实现时序关联建模,避免了在稠密图上难以优化和训练的问题。通过实验证明,多尺度时间特征可以使网络同时兼顾局部的连续时序依赖和长距离的跳跃时序依赖,在Vid HOI Long数据集上的性能相较于最先进的方法提升了1.6 m AP。综上所述,本文主要研究基于层级时空语义基元的视频人物交互识别方法,针对不同的场景和数据特点,结合层级时空语义基元的组合方式,选用不同的时空建模方法并设计对应的交互识别网络,提升对交互特征的时空表示能力,在不同场景下均能达到比较精确的识别效果,具有一定理论研究价值和实际应用价值。
其他文献
云计算技术的进步,使得云平台的种类朝着更加多样化的方向发展,产生了一些在网络环境、硬件架构等方面都具有显著不同的云平台。这些云平台通过混合部署方式构成了一种混合网络环境模式,使得云平台的环境变得更加复杂,进而导致云平台的监控和运维工作变得日益困难。传统的监控和运维平台可以完成基本的监控告警和半自动化运维工作,在一些实际场景中已经发挥了重要作用。由于这些监控运维平台不支持多云跨环境管理、多层次监控、
学位
生产制造业是国民经济的支柱性产业,我国工业生产制造逐渐向数字化转型,工业生产过程中会产生大量时间序列数据,对这些工业时序数据进行分析和挖掘可以有效保障生产安全、促进工业决策、提高生产效能。但是工业时序数据存在维度高、动态性强、噪声干扰多、非平稳的特点,导致现有时序挖掘方法失效。本文聚焦于工业时序数据挖掘中的多元时序预测及异常检测问题研究,旨在通过准确多元时序数据预测方法及有效多元时序数据异常检测方
学位
工业废水和生活污水等的直接排放严重危害人类生命安全以及生态环境的保护,对废水进行成分以及含量的检测具有重要意义。常用的对水体中重金属元素检测的方法大多需要对样品进行复杂的预处理,检测效率低,不能多元素同时分析,因此,亟需发展一种实时、原位、可以进行多元素分析的方法。激光诱导击穿光谱技术(Laser-induced breakdown spectroscopy,LIBS)是一种具有快速、实时、无需样
学位
随着云服务的发展,用户的需求日益增多,微服务体系架构成为了当今企业解决单体应用模式的主要方案,其将一个大型的单一应用程序和服务划分为几十上百个微服务。微服务系统架构中的各个部分责任明确,调用关系复杂,故障发生时,准确定位故障服务节点有助于排查系统故障原因。由于微服务系统的故障通常是由于内存利用率、CPU利用率等关键性能指标发生异常导致的,因此想要对微服务系统的故障进行检测,需要在定位微服务系统发生
学位
随着科技的不断发展,无人机逐渐成为生活中常用的电子设备,其充电主要通过传统蓄电池供电方式,需要在地面上对蓄电池进行充电,因此在偏远山区进行作业时其续航能力成为难点。微波无线输能(MPT:Microwave Power Transmission)技术利用微波在空间中传输功率,可以为无人机持续供电。整个系统包括发射、传输和接收三部分,发射部分作为系统的微波源,为终端提供功率能量,传输部分是空间中微波的
学位
传统的单体应用架构因具有部署容易、测试方便的特点被广泛运用,然而随着业务需求的增长和互联网技术的发展,单体应用逐渐出现部署效率低下、扩展性差、技术迭代困难等问题。微服务技术以其松耦合、高扩展性的特性解决了单体应用架构的困境,微服务架构根据项目的业务逻辑将其拆分为多个服务,每个服务被独立部署,都拥有独立职能,各自完成独立的功能逻辑,无需关注其他服务的开发,提升了开发效率。在微服务架构背景下,用户发出
学位
随着互联网与计算机科学技术的高速发展,运用软件系统来解决复杂实际问题的场景越来越丰富。然而随着业务访问量的不断增大,软件系统的负荷不断加重,性能不断下降,迫切需要提升软件系统的性能以适应更多的应用场景。软件系统的性能很大程度上取决于其本身的参数配置,很多组织依靠聘请专家来配置参数,费用往往十分昂贵;并且随着软件系统规模和复杂性的不断增大,传统人工优化参数越来越困难,如何实现自动优化软件系统参数配置
学位
步行作为最基本的出行方式,具有减碳和促进居民健康双重积极意义。本文聚焦于人体如何感知步行舒适度这一基础的研究议题。通过对北京市中心城区交通情况的分析,本文发现北京步行交通的需求正在不断提升。随后本文使用citespace软件对国内外城市可步行性领域的文献进行总体分析,发现在微观层面对步行过程中人体感知的研究文献总量有限。基于分析结果,本文从视觉感知、听觉感知、嗅觉感知和热感知入手,详细归纳总结在步
期刊
随着军事科技的发展和深空探测活动的不断开展,卫星作为探索太空的必要航天器,更容易受到强电磁脉冲武器的威胁,其中太阳能电池作为卫星中重要的供电组件,对卫星平稳安全的运行起到了不可或缺的作用。同时,由于小型卫星上有限的载荷空间和载重,很难安装大型反射器,所以可利用太阳能电池作为反射阵天线的阵列平面。因此,在强电磁脉冲武器的打击下,探究太阳能电池单元及用于反射阵天线的集成电池单元的耦合机理尤为重要。本文
学位
巴伦作为一种不平衡-平衡转换器,被广泛应用在天线、推挽放大器和倍频器的差分馈电和阻抗匹配上。随着通信技术的迅速发展,巴伦的高功率、超宽带和小型化等特性成为微波器件领域亟待解决的热点问题。不同于集总元件式巴伦和微带线式巴伦,同轴巴伦采用功率容量较大的同轴线为功率载体,具有更好的高功率处理能力,同轴线的宽带特性有利于巴伦的超宽带和小型化设计。因此,同轴巴伦的研究对高功率宽带巴伦领域具有十分重要的意义。
学位