基于弱监督信息的时域动作定位技术研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:mumu12312
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着高清摄像头的普及和短视频应用的兴起,视频数据呈爆炸式增长,传统基于人力的视频分析方法难以满足现实应用需求。基于人工智能,尤其是基于深度学习的智能视频分析算法逐渐成为学术界和工业界的研究热点。时域动作定位作为其中的一项关键技术,其旨在找到感兴趣的动作在视频中的起始时间和结束时间,在视频检索、体育赛事智能化解读等系统中具有重要的应用价值。然而,现有的大多数时域动作定位算法都是基于全监督的,需要用预先定义的策略来进行精细化动作类别和时域边界标注,然后训练模型。这一过程需要标注大量的数据,耗时耗力,严重限制了时域动作定位技术的应用。本文以降低标注代价为出发点,系统性研究了视频级文本描述、视频级类别标签和数据级动作类别数目监督下的时域动作定位算法,三种监督信息逐步减弱,对应的算法研究难度也逐步增大。具体而言:1)在视频级文本描述作为监督信息方面,目前方法难以应对弱监督信息下视频和文本间跨模态匹配难的问题,导致动作定位边界偏差大;2)在视频级类别标签作为监督信息方面,目前方法难以实现完整动作定位和解决复杂背景干扰问题,存在较多漏检和误检;3)在数据级类别数目作为监督信息方面,目前方法难以产生高质量的伪标签,导致动作定位语义类别偏差大。本文针对这些关键问题进行了深入研究,主要的研究工作和创新点如下:1.提出了一种基于局部对应性建模的弱监督时域动作定位算法。针对视频级文本描述监督下的视频-文本跨模态匹配难问题,该算法提出了两个核心模块:层级特征表示模块、循环一致性建模模块。层级特征表示模块将视频和文本特征进行结构化表示,便于建模细粒度的文本-视频对应性;循环一致性建模模块通过自监督损失来约束视频和文本间的局部相似性,从而学习鲁棒的视频和文本间的细粒度对应性。在两个标准数据集上的结果表明,该方法能够取得明显优于现有方法的定位精度。2.提出了一种基于结构化建模的弱监督时域动作定位算法。针对视频级类别标签监督下的动作定位不完整问题,该算法提出了两个结构化建模模块:全局结构建模模块和局部结构建模模块。全局结构建模模块能够利用图卷积网络建模视频片段之间的关系,学习更鲁棒的视频表征,避免同一动作被切分为多个片段;局部结构建模模块能够挖掘动作的不同组成成分,建模动作的时域结构,避免模型只激活到最显著的动作片段。在两个数据集上的实验结果表明,该方法能够明显提升动作定位的完整性。3.提出了一种基于不确定性引导协同训练的弱监督时域动作定位算法。针对视频级类别标签监督下的复杂背景干扰问题,该算法提出了两个核心模块:在线伪标签生成模块、不确定性感知学习模块。在线伪标签生成模块能够利用教师网络作为桥梁来产生片段级前景/背景伪标签,使得基于光流的模型和基于图像的模型在训练中能够相互学习促进,对每个片段给出一致的前背景预测结果;不确定性感知学习模块能够自适应地从数据中学习伪标签的可靠性,并通过一个新设计的不确定性感知损失来降低伪标签中噪声的影响。在两个数据集、三个方法上的实验结果表明,该方法能够明显抑制复杂背景干扰,提升这些方法的定位精度。4.提出了一种基于最优传输的弱监督时域动作定位算法。针对数据级动作数目监督下的伪标签质量低问题,该算法将伪标签生成建模为一个最优传输问题并考虑了三个核心约束:“一致性、紧凑性、均匀性”。“一致性”约束能够使得每个伪类别在训练过程中保持语义性不变,对稳定模型训练具有重要意义;“紧凑性”约束能够使得具有同类伪标签的视频特征相互靠近,对于保证伪标签的精度具有重要意义;“均匀性”约束能够使得产生的伪标签在各类上数目大致相等,可有效防止伪标签坍缩为少数几个大的类别。在两个数据集上的实验结果表明,该方法能够显著提升伪标签质量,取得领先的定位精度。
其他文献
刚性和韧性是决定聚合物材料能否被用作工程材料的两个关键参数。聚丙烯(PP)作为广泛使用的通用高分子材料之一,由于抗冲击性能,尤其是低温抗冲击性能差限制了其在工程领域的应用。通过共混和釜内合金将橡胶/弹性体引入到基体PP中是制备高抗冲聚丙烯(HIPP)的有效手段。但是,引入橡胶/弹性体增韧的同时,PP的刚性会大幅下降,这也不利于PP在工程领域的应用。因此,本论文结合聚合物脆韧转变理论与多组分高分子体
近代人类工业文明的发展离不开石油和天然气的广泛应用。然而,随着过去几十乃至上百年油气工业的迅猛发展,浅层易开采油气资源几乎开采殆尽,迫切需要在一些含高腐蚀性硫化氢(H2S)气体的深层油气田进行勘探和开采。油井深度的提高、深井中的高温高压环境以及高腐蚀性H2S气体都对油井管(OCTGs)的强度、抗硫化物应力腐蚀开裂(SSCC)等性能提出了更苛刻的要求。市面上现有110ksi级(758MPa)油井管用
氢能以其高能量密度和清洁可再生等优势正成为未来能源的主要形式之一。围绕氢能制备、存储与使用的相关技术受到了广泛关注并得到快速发展。然而氢气难以压缩存储和运输的缺点,仍有待解决。甲酸作为一种有机储氢小分子,能够在室温下,通过催化分解供氢,将在解决氢气的快速制备、高效储存及运输方面发挥积极作用。本论文针对甲酸分解制氢过程中涉及的催化剂设计制备、性能表达与评价、催化机制解析及催化环境的构建等开展了研究和
弱光图像增强是计算机视觉领域的一个重要研究方向。由于受到光照强度低和曝光时间短等因素的影响,弱光图像中存在细节丢失、色彩暗淡、噪声突出等多种退化问题。这些问题不仅导致了糟糕的成像品质,影响视觉效果,而且为高级计算机视觉任务增加了难度。本文着重研究基于生成对抗网络(Generative Adversarial Network,简称GAN)的弱光图像增强算法,旨在提升弱光图像的亮度、恢复色彩、补全细节
癌症已经成为一个世界性难题,传统的化疗、放疗和手术治疗虽然被广泛应用并取得了一定的成果,但依然存在一些固有的缺陷。光动力治疗与光热治疗是新兴的治疗癌症的方法,能为主流的三大疗法提供一些补充和帮助。这两种疗法具有副作用小、特异性强和治疗时间短等优点,因此被重点关注和研究。光动力治疗是通过光照将光敏剂分子变为激发态,之后分子会通过系间窜越转化为能级相对较低的三重态,并将能量或者电子转移到周围的底物分子
二维过渡金属硫族化合物(2D-TMDs)因具有独特的电子结构、优越的物化性质在催化、能源、电子以及光电器件等领域表现出潜在的应用价值。化学气相沉积(CVD)技术制备的2D-TMDs具有尺寸大、层数可控、生长速度快以及质量高等特点,因而成为实验室中制备2D-TMDs最常使用的方法。CVD制备2D-TMDs的过程中,衬底的选择尤为重要,其不仅为2D-TMDs的生长提供支撑,同时也会通过影响生长动力学进
二维材料物性奇特,在催化、能源储存和转换领域、微电子领域有着巨大的科学研究、工业应用以及经济价值。本论文立足于二维材料研究的前沿问题,从新材料、新机制、新应用、新手段四个维度对二维材料展开探索,以期获得性能优异的电子器件和光电子器件。作者在新型二维半导体材料ZnIn2S4、准一维层状材料Ta2Ni3Se8、过渡金属硫族化合物ReSe2以及单元素二维材料Te进行了四个研究工作。论文分为以下六个章节:
为满足能源、信息等领域的快速发展而带来的新要求,新材料的研究正朝着多功能化、小型化的方向发展,这就要求新材料自身具备多种序参量(电荷、自旋、轨道和晶格)耦合且能够对不同外场(如声、光、热、力、电和磁场等)产生响应,从而为器件设计制造提供优良的载体。因此寻找具备室温以上低场响应的单相多参量复合功能材料是一项具有现实意义但又充满挑战性的工作。层状类钙钛矿氧化物由于其独特的层状结构,可以在同一晶体结构中
随着我国石油开发步入中后期阶段,勘探的主要目标转变为非常规油气藏,勘探难度极高。因此,油气勘探开发技术亟需科技创新发展。地球物理测井是油气勘探的关键技术,其使用特定的仪器,观测井眼内不同深度地层的各种地球物理特性。基于这些观测数据,岩相识别旨在判别地层的岩性成分,为实时钻井、地质评价和储层建模提供基础。传统测井岩相识别方法由地球物理学专家建立基于经验的测井岩相关系模型实现。然而,随着测井、地质资料
电磁逆散射方法建立在全波电磁计算的基础上,故相比于其它微波成像方法,逆散射重建有着更精确且普适的物理模型,和更广泛的应用前景。当前逆散射重建方法大多应用于石油勘探、建筑物内部透视和乳腺癌诊断成像等需要低频电磁波穿透障碍物的场景,故需要对亚波长量级的精细目标进行重建,构成了巨大的挑战。此外,成像区域内金属和非金属材料混杂的情况下,后者的重建极易受前者扰动,给定量重建带来不确定性。最后,在这些复杂场景