基于多尺度匹配的文本-视频跨模态检索

来源 :中国传媒大学 | 被引量 : 0次 | 上传用户:jinhuikkkl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
智能媒体时代,人们每天会面对海量的数据和多种模态的信息,如果借助深度学习的方法能够帮助人们完成对目标数据的检索,将会极大便利我们的日常生活。而在一系列检索任务中跨模态检索任务由于需要消除不同模态表征之间固有的语义鸿沟而存在很大挑战,文本-视频跨模态检索任务就是其中之一。为了更好地实现对文本和视频的表征,建立二者之间的对应关系,进而完成文本-视频跨模态检索任务,本文构建了一种基于多尺度编码的模型。针对不同模态之间语义异质性问题,本文首先设计了一种视频侧多级编码的粗粒度检索模块(Coarse-grained Retrieval Module,CRM),通过文本-图像对比预训练模型在文本侧提取句子级别的特征;在视频侧采用同样的预训练模型提取帧级别的特征,之后再对视频特征进行多级编码,充分表征整体语义信息,最终将其映射到文本语义空间,通过计算跨模态间的余弦相似性实现匹配检索。然而,粗粒度检索模块仅完成了语义整体尺度的跨模态匹配,并未考虑到文本整体语义相似时部分细节单词不同的情况。因此本文又提出了一种基于细粒度匹配的文本-视频检索模块(Fine-grained Retrieval Module,FRM),将文本侧单词级别的语义视为细粒度信息,对粗粒度模块中模糊甚至丢失的细节进行补充。细粒度检索模块中,文本侧主要借助谓词和非谓词单词级别的编码特征,视觉侧通过深度神经网络隐式学习视频中代表动作和对象两类细节目标的特征,通过谓词-动作和非谓词-对象分别映射匹配,进一步实现准确检索,提升模型性能。最后,在粗、细粒度检索模块分别构建完成的基础上,本文考虑采用部分特征共享的方式融合不同模块,形成了完整的基于多尺度匹配的文本-视频跨模态检索网络(Multi-scale Matching Text to Video Retrieval Network,MTVRN)。确定训练模型之后,在测试阶段额外增加对余弦相似性分数的调整,为实验性能带来进一步提升。为了验证粗、细粒度模块及多尺度匹配的整体网络结构的效果,本文进行了一系列消融实验,并比较了MSVD、MSR-VTT(该数据集有MSR-VTT 1k-A和MSR-VTT full两种划分方式)和VATEX三个数据集上MTVRN结构与其他方法的R@K(K=1,5,10)、Md R和Mn R性能指标。实验结果显示,本文方法的检索效果良好,虽然与该任务领域现有最优方法结果仍存在一定差距,但是明显超越了基线方法,其中R@1在MSVD、MSR-VTT 1k-A、MSR-VTT full和VATEX上分别提高了4.3%、10.5%、5.7%和18.6%,体现了提出模型的有效性及鲁棒性。
其他文献
气候问题已成为全人类共同关注的重要议题。在国际气候治理变局中,中国逐步从跟随者走向引领者,为全球气候治理提供重要的中国方案。碳减排战略是我国气候治理的重要战略之一,为全球提供了重要行动范式。本文基于网络议程设置的理论框架,将《中国日报》推特平台2010年—2020年的816条碳减排报道以及其对应推文下的1740条评论作为研究对象,对其在社交媒体平台议题建构形式以及用户评论情感进行分析,并探讨二者之
学位
以萎缩芽胞杆菌(Bacillus atrophaeus)GJW2-1为试验材料,研制一种对党参灰霉病具有良好防治效果的可湿性粉剂。采用单因素法和正交试验法筛选出对菌株GJW2-1活性影响最小的载体和助剂及其配比,并对其稳定性和盆栽防效进行评价。结果表明,萎缩芽胞杆菌GJW2-1可湿性粉剂最佳配方为载体高岭土35%,分散剂羧甲基纤维素钠4%,紫外保护剂β-环糊精3%,湿润剂十二烷基苯磺酸钠10%。该
期刊
苹果无袋化栽培,能够有效解决套袋栽培在资源投入高、品质易下降等问题。因此,如何正确分析苹果无袋化栽培技术,已经成为领域内的主要研究方向。简要阐述苹果无袋化栽培的需求影响明显、技术提升空间大等方面的现状,以及如何通过构建良好环境、选择优质品种、重视种植环节实现对苹果无袋化栽培主要内容的合理研究,以期能够为大力推广苹果无袋化栽培技术打好基础。
期刊
超表面是一种由周期性排布的亚波长尺寸单元构成的人工电磁结构,通过对结构的设计和调整,实现需要的电磁响应。传统的超表面设计方法一般基于设计经典的构型和人员的设计经验,针对电磁响应的目标,确定一个基本单元构造和结构参数的可变范围,通过电磁仿真软件的数值运算和参数扫描的优化算法,得到一个满足目标要求的超表面设计结构。这种设计方式需要耗费大量的优化和仿真时间,且自由度低,设计过程高度依赖设计人员的设计经验
学位
随着通信技术的发展,第五代通信技术(5G)已成为下一代数字技术的支柱。由于5G技术重塑了世界资源配置格局,并将对未来世界的局势产生深刻影响,其主导权因此成为国际社会各国激烈竞争的对象。在这场较量中,中国作为该领域新兴崛起力量,正撼动着美国在传统通信技术领域的霸主地位。2018年,随着中美贸易摩擦序幕的拉开,以时任总统特朗普为首的美国政府加大力度,以威胁国家安全为由,持续打压我国5G技术发展。近年来
学位
在信息高速产出的时代,媒体行业对视频产品的需求与日俱增,视频生产的“竞速”愈演愈烈,视频剪辑开始走向智能化。智能视频剪辑将人工智能应用于媒体生产。机器要像人类剪辑师一样理解视频内容、用各种视频属性和要素来组织视听语言。景别和运镜方式是视频的两个关键属性,是镜头衔接重要的参考因素。本文对景别和运镜分类算法进行进一步研究和优化,提升算法的准确性和效率。具体工作分为以下三点:设计实验分析研究了CNN中池
学位
目的 系统评价经口腔前庭入路与经全乳晕入路腔镜手术治疗甲状腺乳头状癌的疗效和安全性。方法 通过中国知网、中国生物医学文献数据库、万方数据库、PubMed、EMBASE、MEDLINE、SpringerLink、John Wiley、Ovid?、Cochrane Library等数据库,以及Google Scholar搜索引擎平台,检索经口腔前庭入路与经全乳晕入路腔镜手术治疗甲状腺乳头状癌的相关文献
期刊
近年来,基于“性别主流化”的政策背景和频发的反性侵网络公共事件,反性侵网络抗争成为不容忽视的现象。了解公众参与反性侵网络公共事件的情感和诉求,有助于公共治理者进行合理的情绪疏导和舆情引导,建立对话机制,完善制度建设。论文在对情感、情感动员、公共舆论以及情感社会学等理论相关文献进行梳理的基础上,以情感动员机制和公共话语建构为研究对象,通过情感识别、极性判断和相关微博文本分析以及半结构访谈结果,对“王
学位
随着互联网和融合媒体技术的发展,如何从互联网上的海量多模态数据中挖掘感兴趣的信息变得越来越重要,人们对跨模态信息检索的需求也与日俱增。随着网络电视的普及和短视频软件的流行,视频成为人们获取信息非常重要的媒体形式之一。视频-文本检索作为视频检索领域中的重要内容之一,近年来逐渐成为一个研究热点。目前视频-文本跨模态检索主要有两类:基于全局表征的粗粒度匹配和基于跨模态交互的细粒度匹配。其中学习视频和文本
学位
在社交媒体的内容创作者中,Z世代所占的比例越来越高,这是本文探讨的起点。Z世代的年轻人凭借“24小时在岗机器、表情包十级学者、网络热点专家”等,成为了社交媒体创作的中坚力量。但目前关于自媒体博主的研究,Z世代的代表性群体“大学生”却是缺失的。因此本文聚焦“大学生博主”族群,主要研究三方面的问题,即大学生博主为何在社交媒体中进行自我表达、他们表达了什么、又是如何表达的。因为前期的“无酬劳动”成为自媒
学位