基于自监督学习的视频检索算法研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:nian11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着视频平台用户生成内容的数量爆发式增长,通过视频内容在视频库中查询相关视频的视频检索算法被广泛应用在版权保护、新闻事件聚合和个性化推荐等场景中。视频检索是一个包含同源复制视频片段检索和事件级视频检索的多维度细粒度的任务,非常具有挑战性。现有的视频检索相关工作缺乏对视频结构信息的提取和对语义信息的理解。同时,多数工作仍然依赖于人工标注的相关视频对,不利于泛化性能的提升。本文提出了全新的视频检索架构,从底层特征模型的训练到召回排序的链路都进行了优化创新,并且完全基于自监督算法,不引入人工标注的视频数据。特征模型方面,本文提出了基于自监督的视频帧特征提取网络,针对视频检索细粒度任务分别提出了基于数据增强的自监督、基于视频数据结构的自监督和引入文本图像对作为跨模态辅助自监督的三种监督构造方法。最后通过偏序学习和多任务学习融合了三种监督方法,使模型同时具备了图像变换特征不变性和事件语义信息理解能力。在检索方法和现有工作保持一致的前提下,在FIVR-200K事件细粒度数据集和EVVE事件数据集上多项指标都超越了现有方法。检索方法方面,本文提出了基于无监督的多帧特征召回排序算法。通过基于无监督的帧特征权重提取算法对特征赋权,降低了空白帧等无效内容的特征权重,提高了检索准确率。提出了基于自适应分镜算法进行分镜召回的结构,在性能基本不下降的前提下,大大提高了视频检索的效率。最后提出了基于动态规划的排序算法,结合特征赋权算法进一步提高了视频检索的性能。本文提出的视频检索算法架构在FIVR-200K、SVD、EVVE三大数据集上都实现了性能和效率的全面领先。在性能上,本文提出的方法在FIVR-200K的DSVR、CSVR、ISVR三个子任务上的mAP分别领先现有工作0.7%、1.1%、2.0%。在EVVE和SVD数据集上的mAP分别领先现有工作0.5%、0.8%。在效率上,本文提出的召回排序二阶段方法在FIVR-200K数据集上实现了将检索时间降低到全量匹配的1%以下。本文为视频检索领域提供了高性能、高效率的解决方案。
其他文献
生物种苗作为水产产业链的源头,亦是水产行业之根基所在,其好坏直接关系到养殖成败,决定着未来产业的命脉。种苗被称为水产业中的“芯片”,中国种业不仅要克服自然环境的挑战,也要减少对外进口的依赖。面对水产种质资源安全性的严峻挑战,许多科研院所开始对苗种培育和种苗优选进行攻关。水产生物的表型数据是育种优选过程中重要的参考因素,但目前国内缺少相应的智能装备。论文以沼虾表型数据测定的深度学习压缩模型为研究目标
学位
LED屏能够显示图形和汉字,应用于列车广播系统给人们日常生活带来更多方便,LED点阵显示屏较为多见。文章对重庆六号线列车广播系统车侧LED屏坏点检测进行研究,以提高故障检测效率,并提供对应的维修措施,以提高列车广播系统服务质量。
期刊
废用性肌萎缩是一种常见临床并发症,其具体表现为肌肉体积萎缩、肌肉失活、肌肉力量下降等。常见的预防与治疗废用性肌萎缩的手段包括运动疗法与物理疗法。运动疗法中最常见的仪器为持续被动运动(CPM)康复器,它能够促进骨关节软骨再生和修复,但由于肢体缺乏主动运动,肌肉活性提高的程度是有限的。电刺激疗法是目前最流行的物理疗法,它能够强化患侧肌肉收缩来预防和治疗废用性肌萎缩,但是却存在易疲劳、参数选择依赖治疗师
学位
图像作为最容易被人类所认知和接受的信息载体之一,在日常生活和科学研究中的地位愈发重要。在图像质量评价(Image Quality Assessment,IQA)领域中,我们需要设计一种能够对失真图像的质量分数做出客观评价的算法,最终得到的评价结果与人眼实际观测结果一致。其中无参考(No Reference,NR)IQA可以直接输出失真图像的质量分数,不需要其他任何参考信息,具有非常重要的研究意义和
学位
学位
随着计算机科学技术的飞速发展与相机设备的广泛普及,计算机视觉技术取得了长足的发展。在计算机视觉技术中,纹理特征作为图像识别、语义分割与场景理解等视觉任务的基础,在人脸识别、表面材质检测、工业检测、医学图像分析与遥感图像分析等领域得到了广泛应用。现有的纹理特征分类方法在识别精度与计算复杂度存在一些问题,并不适用计算资源受限的边缘计算平台。因此,为了提高纹理分类任务的性能表现,同时降低纹理分类模型的计
学位
随着半导体技术的发展,集成电路的制造工艺和技术水平不断提高,晶圆制造加工过程中引入的缺陷对芯片造成的影响也越来越严重,因此晶圆缺陷检测在整个半导体工艺流程中至关重要。按检测设备的发射源来分,缺陷检测可以分为光学检测和电子束检测。虽然电子束检测相比光学检测方法具有分辨率高、景深大、检测灵敏度高等优点,但由于常规电子束检测设备采用的是单电子束结构,其具有检测速度缓慢、吞吐量低下的问题,因此目前电子束检
学位
随着集成电路工艺技术和体系结构的发展,单片芯片上集成的处理器核数增加,传统的总线架构不能满足多核并行处理的通信需求。片上网络(Network-on-Chip,No C)以其极高的并行性和易扩展性代替了传统总线架构,在实际应用中被广泛使用。由于芯片的规模及工艺节点的不断发展,由生产缺陷、电路老化等因素导致的故障频率提升,片上网络需要容错路由机制来保证数据包的正确传输。其中,针对于电路中的永久故障,空
学位
公路的安全通畅是一个国家经济发展的重要保障,而路面的缺陷如裂缝、坑洞及绿化带区域的植物生长超过护栏遮挡路肩的情况等,都潜藏着交通事故的隐患。及时找出缺陷并加以修复就显得尤为重要,但对缺陷的排查却非常消耗人力物力,路面缺陷识别逐渐成为研究的热点。传统的数字图像处理方法虽然因为流程较短因此速度较快,但都有着不足之处,鲁棒性不强。而近年来在计算机视觉领域,深度学习的方法在各种应用中都有显著的成果,在路面
学位
随着无线通信技术的迅速发展,通信用户数量的不断膨胀,通信系统的传输效率以及传输功率效率的要求越来越高。毫米波以其可用频谱资源丰富的特点,成为了新一代通信的重要技术之一。射频功率放大器是无线通信系统必需的组件,为了降低传输系统的成本,并获得理想的功率效率,毫米波系统常使用具备高功率增益的非线性功放。在毫米波传输系统中采用恒包络调制技术可以有效避免功放工作在非线性区而带来严重的波形失真、频谱泄漏等问题
学位