弱监督学习下的细粒度视频动作识别与检测

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:ydaf7nh9
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的发展,每天都会产生海量视频数据,这些数据与我们生活有着紧密联系。如何有效利用这些数据为我们的生活带来便捷,是随之而来的问题。许多现实场景中,动作之间差异十分微小,使得它们具有细粒度的特征,所以细粒度视频行为检测和识别技术是一个有效解决问题的方向。细粒度动作识别和检测是一个非常具有挑战性的问题,近几年引起了学术界极大的关注。在视频中,细粒度动作类别之间的视觉差异非常细微,导致动作识别和检测变得异常困难。现有的方法在模型训练时常常需要视频帧级的强监督标签,使得训练的时间成本和经济成本非常高昂。为此,本文提出了一个新的弱监督动作检测算法,用于细粒度视频的动作识别和检测。为了捕捉细粒度视频中动作的发生区间,本文设计了一个可以同时在空间和时间维度上定位显著性区域的时空自注意力模块。尽管在强监督方法中已经有一些工作利用时空注意力机制进行动作检测和识别,但是这些方法通常将时空注意力的产生视为两个分离的步骤。本文认为动作特征在时空中是一个整体,不应该被分离成两个部分。因此,与这些机制不同,本文的时空注意力机制可以同时在时空中产生注意力信号。相较于强监督下,时空分离注意力模块可以使用帧级强监督信号训练,本文的时空自注意力模块仅有视频级别弱监督信号指导。为了防止自注意力模块因为监督信号不足,得不到充分训练,本文利用特定类别的注意图作为自引导信号,改进本文的自注意力模块的能力。最后,考虑到时空维度上动作特征和背景特征分布的复杂性,本文尝试同时学习多种时空注意力掩码,并使用多样性损失函数监督,增强这些掩码之间的解耦能力和多样性。在多样性损失函数的优化下,不同注意力掩码关注不同的区域,从而提高本文算法在建模细粒度类别动作方面的能力。综上所述,本文主要贡献点如下:1.本文设计了一个新的自注意力模块,可以同时在空间和时间维度上定位关键动作区域,捕捉细粒度动作的细微动作模式。2.本文扩展了类相关的信息,以此作为自引导信号,指导时空自注意力模块更好的学习。3.本文设计了一个具有多样性的多注意力模块,可以在复杂的特征分布中,更精确地捕捉动作的细微动作模式,且在多样性损失函数的监督下,多个注意力模块间可以解耦且更具多样性。4.本文的方法在两个具有挑战性的细粒度视频数据集上,即MPⅡ Activities和MLB-YouTube上进行了大量实验,实验结果也证明了与当前通用弱监督行为检测技术相比,本文所提方法的有效性。
其他文献
《祝福》是一篇具有浓烈悲剧色彩的文章,由于其与现代的学生具有很长的时代距离所以很难和学生产生心灵的共振。而在高中语文阅读教学中《祝福》又是一篇很有代表性的文章,教师以此文章为例,可以通过凸显教学目标导向、重视思路教学、鼓励学生质疑、激发学生求知欲的方式来培养学生的思维能力,同时让学生对这篇文章有更加深入的了解,并与之产生共振效应。
为应对高效低耗处理城市污水的需求,将全程自养脱氮工艺与反硝化除磷工艺相耦合,达到同步脱氮除磷去碳的目标。基于此,本研究采用连续流ABR-MBR反应器,启动耦合工艺处理城市污水,并探究不同有机负荷下的影响,以及运行实际城市污水时的效能。主要研究成果如下:(1)以人工配制的模拟城市污水为处理对象,运行ABR-MBR反应器,逐步降低进水底物浓度(NH4+-N=100 mg·L-1~50 mg·L-1),
近年来,随着各种传播媒体形式的不断丰富,通过运用来自多种模态的特征进行问答的方式越来越多地受到了关注。但是,针对图像、视频以及文本的问答场景,如何能更好地理解它们所组成的多模态内容是一项具有挑战性研究任务,因为多模态视觉的内容与多模态自然语言之间存在着完全不同的统计、语义特征,例如相似内容之间的连贯性,不同内容之间的相关性等,尤其是在视频问答任务中,数据处理的难度以及模态之间的噪声大幅增加,视频内
随着物理网技术的成熟与普及,物联网应用为人们带来了智能化的工作模式和生活方式,但随之而来的信息数据的隐私安全问题却不容忽视。物联网应用通过各种终端设备收集到的涉及用户隐私的信息数据,在生产、传输、处理、存储的过程中存在被泄露、丢失、篡改的风险,使得用户数据的隐私性和安全性得不到保障。而区块链自问世以来,就以其卓越的安全性而闻名,其所使用的密码学技术、独特的信任机制以及区块数据不可篡改的特性,为物联
非标准Lagrange函数,又称“非自然Lagrange函数”,不同于标准Lagrange函数的是,非标准Lagrange函数不以动能和势能之差的形式来表示,通过研究其变分问题可以描述标准Lagrange函数所难以描述的非线性系统。而Birkhoff力学作为Hamilton力学的自然推广,标志着分析力学进入了一个新的发展阶段。如果将非标准Lagrange函数的思想推广到Birkhoff系统,研究基
近几年,随着无线网络技术的日益完善和交通需求的不断增长,智能交通系统(Intelligent Transport System,ITS)得到了迅速的发展,车载自组织网络(Vehicular Ad-hoc Networks,VANETs)作为ITS的重要技术之一,被广泛应用到交通管理和移动娱乐等多种场景中,以此来提高道路交通安全并为驾驶人员提供娱乐服务信息。由于车载自组网的复杂特性,车联网路由协议设
作为最具代表性的Zn合金体系,超塑性Zn-Al合金以低流变应力、无加工硬化、高延伸率的特性可作为潜在的抗震材料。且该合金在室温高应变速率(10~500/s)下仍保持良好的塑性,延伸率达到30%。但由于双相组织的“老化”现象限制其进一步发展。近来细晶超塑性Zn-Mn和Zn-Ni-Mg合金展示了良好的高温超塑性。其中Mg元素添加可实现Zn合金的显著强化,Mn的添加可极大改善Zn合金的塑性。但对上述合金
带式输送机作为最重要的散状物料连续输送设备,广泛应用于矿山、港口、粮食和化工等领域,与汽车、铁路运输相比具有经济、高效、可靠、安全的优点。目前,有关带式输送机的进一步节能研究已经成为带式输送机研究的热点。压陷滚动阻力约占带式输送机总运行阻力的60%,因此,压陷滚动阻力计算方法的研究对带式输送机节能起着关键的作用。对带式输送机压陷滚动阻力的研究进展与粘弹性材料特性的测试方法进行了分析,借鉴Munze
随着物联网的发展,越来越多的设备将会接入到物联网中,海量的数据也会随之产生,将会需求巨大计算资源、存储空间和通信带宽。同时,实时性的要求也越来愈高。传统云计算框架已渐渐无法满足这些需求。作为云计算的扩展,雾计算被引入。雾计算部署在网络的边缘,接近于物联网设备和用户,能够有效减少云端的压力和实现更低的通信消耗。现有的大多数物联网应用为实现实时的监控和智能控制,需要云端的控制中心不断地从底层的物联网设
混凝土已经成为当今人类社会不可或缺的建筑材料,因其材料来源广泛、强度高等优点,在各种各样的工程中使用广泛。但是在实际使用过程中,它的韧性比较差,而且还比较容易产生裂缝,在混凝土中掺杂纤维材料能有效的改善这些问题。目前,在建筑工程中,为了提高混凝土的强度,使用的比较多的手段是将各种各样的纤维掺在混凝土中。为了研究纤维混凝土在地震作用下的振动特性,选用聚乙烯醇(PVA)纤维与钢纤维作为外掺纤维,采用振