基于对比学习的视频-文本检索算法研究

来源 :中国传媒大学 | 被引量 : 0次 | 上传用户:wangcongyu003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和融合媒体技术的发展,如何从互联网上的海量多模态数据中挖掘感兴趣的信息变得越来越重要,人们对跨模态信息检索的需求也与日俱增。随着网络电视的普及和短视频软件的流行,视频成为人们获取信息非常重要的媒体形式之一。视频-文本检索作为视频检索领域中的重要内容之一,近年来逐渐成为一个研究热点。目前视频-文本跨模态检索主要有两类:基于全局表征的粗粒度匹配和基于跨模态交互的细粒度匹配。其中学习视频和文本的表征是视频-文本检索任务中的基础工作,对比学习作为一种自监督表征学习方法,能够高效地提取视频和文本特征,因此最近也被用于视频-文本跨模态检索的表征学习研究中。现有的方法主要存在以下问题:(1)细粒度匹配方法效率过低,不适合大规模检索任务;(2)粗粒度匹配方法在投影层的设计上缺乏与视频-文本检索领域适配的实证研究;(3)现存的检索算法普遍无法很好地兼顾检索效率与检索精度。为解决上述问题,本文主要进行的研究是:(1)提出了一个基于对比学习的视频-文本检索通用框架CVTR。该框架采用多模态Transformer(MMT)和预训练的BERT提取视频和文本特征,并重点研究了跨模态特征匹配的方式:针对细粒度跨模态交互效率低的问题,提出采用更高效的基于对比学习的全局特征以计算视频-文本相似度;针对跨模态匹配的投影方式缺乏实证研究问题,基于充分的消融实验,选择共享权重的线性层作为投影方式。最后在公共数据集上对整个框架进行训练与测试,验证了其合理性。(2)提出了一个基于自蒸馏对比学习的视频-文本检索模型。这部分研究主要针对现存的检索算法普遍无法在检索效率和检索精度上兼顾的问题,提出了两种自蒸馏思想:层内跨粒度自蒸馏和层间跨语义自蒸馏。前者旨在利用跨模态特征之间的细粒度匹配信号引导编码器学习更精细化的全局特征,后者则旨在利用语义级的跨模态匹配信号引导特征级的跨模态匹配。本文在CVTR的基础上,同时引入这两种自蒸馏思想,进一步提出了CVTR-SD。最后,在公共数据集上的实验表明,CVTR-SD在同类方法中取得了最优性能。这证实了所提出的自蒸馏思想是有效的。
其他文献
文章旨在进一步探明生物农药32000 IU·mg-1苏云金杆菌可湿性粉剂防控水稻二化螟的药效,筛选其适宜用量。用32000 IU·mg-1苏云金杆菌可湿性粉剂作试验药剂,化学农药20%氯虫苯甲酰胺悬浮剂、生物农药400亿个·g-1球孢白僵菌水分散粒剂作对照药剂对水稻二化螟进行防治。结果表明,所选用的生物药剂苏云金杆菌3个浓度(1500 g·hm-2、2250 g·hm-2、3000 g·hm-2)
期刊
近年来,智能手机与农村闲暇生活的关系逐渐紧密,短小精悍的短视频成为了数字时代农村文化生活的新风尚,也成为了农民休闲娱乐的新选择。乡村闲暇中的新媒介实践活动不断涌现,但媒介对闲暇时间以及闲暇活动的广泛影响并未引起足够的关注,仅在个别量化研究中以数据方式出现。本研究从农民热衷于观看短视频的现象出发,选取最能反映生活质量的闲暇时间作为研究基点,采用田野调查与深度访谈相结合的方式收集资料,以“嵌入”的动态
学位
气候问题已成为全人类共同关注的重要议题。在国际气候治理变局中,中国逐步从跟随者走向引领者,为全球气候治理提供重要的中国方案。碳减排战略是我国气候治理的重要战略之一,为全球提供了重要行动范式。本文基于网络议程设置的理论框架,将《中国日报》推特平台2010年—2020年的816条碳减排报道以及其对应推文下的1740条评论作为研究对象,对其在社交媒体平台议题建构形式以及用户评论情感进行分析,并探讨二者之
学位
以萎缩芽胞杆菌(Bacillus atrophaeus)GJW2-1为试验材料,研制一种对党参灰霉病具有良好防治效果的可湿性粉剂。采用单因素法和正交试验法筛选出对菌株GJW2-1活性影响最小的载体和助剂及其配比,并对其稳定性和盆栽防效进行评价。结果表明,萎缩芽胞杆菌GJW2-1可湿性粉剂最佳配方为载体高岭土35%,分散剂羧甲基纤维素钠4%,紫外保护剂β-环糊精3%,湿润剂十二烷基苯磺酸钠10%。该
期刊
苹果无袋化栽培,能够有效解决套袋栽培在资源投入高、品质易下降等问题。因此,如何正确分析苹果无袋化栽培技术,已经成为领域内的主要研究方向。简要阐述苹果无袋化栽培的需求影响明显、技术提升空间大等方面的现状,以及如何通过构建良好环境、选择优质品种、重视种植环节实现对苹果无袋化栽培主要内容的合理研究,以期能够为大力推广苹果无袋化栽培技术打好基础。
期刊
超表面是一种由周期性排布的亚波长尺寸单元构成的人工电磁结构,通过对结构的设计和调整,实现需要的电磁响应。传统的超表面设计方法一般基于设计经典的构型和人员的设计经验,针对电磁响应的目标,确定一个基本单元构造和结构参数的可变范围,通过电磁仿真软件的数值运算和参数扫描的优化算法,得到一个满足目标要求的超表面设计结构。这种设计方式需要耗费大量的优化和仿真时间,且自由度低,设计过程高度依赖设计人员的设计经验
学位
随着通信技术的发展,第五代通信技术(5G)已成为下一代数字技术的支柱。由于5G技术重塑了世界资源配置格局,并将对未来世界的局势产生深刻影响,其主导权因此成为国际社会各国激烈竞争的对象。在这场较量中,中国作为该领域新兴崛起力量,正撼动着美国在传统通信技术领域的霸主地位。2018年,随着中美贸易摩擦序幕的拉开,以时任总统特朗普为首的美国政府加大力度,以威胁国家安全为由,持续打压我国5G技术发展。近年来
学位
在信息高速产出的时代,媒体行业对视频产品的需求与日俱增,视频生产的“竞速”愈演愈烈,视频剪辑开始走向智能化。智能视频剪辑将人工智能应用于媒体生产。机器要像人类剪辑师一样理解视频内容、用各种视频属性和要素来组织视听语言。景别和运镜方式是视频的两个关键属性,是镜头衔接重要的参考因素。本文对景别和运镜分类算法进行进一步研究和优化,提升算法的准确性和效率。具体工作分为以下三点:设计实验分析研究了CNN中池
学位
目的 系统评价经口腔前庭入路与经全乳晕入路腔镜手术治疗甲状腺乳头状癌的疗效和安全性。方法 通过中国知网、中国生物医学文献数据库、万方数据库、PubMed、EMBASE、MEDLINE、SpringerLink、John Wiley、Ovid?、Cochrane Library等数据库,以及Google Scholar搜索引擎平台,检索经口腔前庭入路与经全乳晕入路腔镜手术治疗甲状腺乳头状癌的相关文献
期刊
近年来,基于“性别主流化”的政策背景和频发的反性侵网络公共事件,反性侵网络抗争成为不容忽视的现象。了解公众参与反性侵网络公共事件的情感和诉求,有助于公共治理者进行合理的情绪疏导和舆情引导,建立对话机制,完善制度建设。论文在对情感、情感动员、公共舆论以及情感社会学等理论相关文献进行梳理的基础上,以情感动员机制和公共话语建构为研究对象,通过情感识别、极性判断和相关微博文本分析以及半结构访谈结果,对“王
学位