基于视觉关系网络的视频文本检索算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:alecsuss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视频文本检索任务要求用户输入一段查询文本(视频),检索出语义最相近的视频(文本)。目前的视频文本检索方法大多从图像文本检索领域转化而来,而图像只包含空间信息,不含时序信息,因此迁移而来的大部分方法缺少对视频中时序信息的建模。当前也存在少数方法利用卷积神经网络和循环神经网络对视频进行时序关系推理,但是当视频内容涉及到空间转换、背景转换或动作等信息时,效果就不如人意。因此本文重点关注视频时序信息的建模方式,提出了基于注意力机制的关系推理网络。该关系推理网络可以学习和推理句子中的单词间的多尺度关系和视频帧之间的多尺度时序关系。此外,本文认为,单模态信息的准确表征是多模态任务的基础,如何设计算法来加强对单模态数据的建模能力,以提高对单模态信息的表征能力是本文将解决的另一要点。基于此问题,本文设计了全局到局部注意力机制,联合捕捉视频(文本)的局部和全局特征,再将全局和局部特征进行融合,从而显著提高了单模态的特征表示能力。最后,在检索任务中,需要衡量不同模态间特征相似度时,由于存在异构鸿沟问题,导致传统损失函数难以衡量准确。因此,本文设计了投影匹配损失函数,利用该损失函数,模型可以进一步对齐两个特征分布,以学习到一个更有效的公共子空间。本文将模型在多个数据集上进行试验,并取得了显著的提升。随着数据时代的来临和算力的大力提升,在多模态领域中,越来越多的网络通过海量的数据和预训练策略来提升模型的能力。研究者们也同样将图文预训练模型迁移到视频文本领域中,此种迁移使模型同样存在对视频中时序信息关注不够的问题。此外,现有大模型基本以Trasformer为主干网络,但Transformer本身存在局部信息建模能力差的问题。因此,本文提出了多尺度时序差分Transformer,旨在提升Transformer对局部关系的建模能力。为了使模型关注到视频时序信息,本文介绍了时序差分特征,其主要描述视频的时序细粒度信息。多尺度时序差分Transformer可以学习视频中多尺度的时序关系和细粒度信息,进而达到对精细动作和复杂场景变换的理解。最后,为了对齐单模态内的特征,并改善跨模态异构鸿沟问题,本文还提出双向相似损失函数。本文利用CLIP作为主干网络,将多尺度时序差分Transformer插入到CLIP的视频建模模块中,作为建模视频的时序关系网络,并结合双向相似损失函数,最终模型效果得到了大幅的提升。
其他文献
上海是我国最重要的城市之一,并将努力在2035年建设成为卓越的全球城市。这个目标对上海基层社区治理提出了更高要求。本研究认为要想做好基层治理体系的研究与建构,必须对上海基层治理变迁有一个清晰了解,需要在历史经验的借鉴中积极探索、勇于创新,为新形势下的特大城市社会治理贡献基层智慧。本文基于研究社会主义价值引领下上海基层治理与时代逻辑之间的关系,结合中央、上海地方政府相关政策文件和上海基层治理体系建构
学位
就业是民生之本,大学生就业如今已成为我国经济与社会的一个重大问题,特别是百年未遇的新冠疫情爆发以及随之引发的全球经济衰退使这一问题更加凸显和紧迫。目前,社会各界都针对就业问题展开了多学科研究。本文试图在借鉴已有研究成果的基础上,通过梳理马克思、恩格斯、列宁和我们党主要领导人关于就业的理论和论述,并以此为指导,将大学生就业工作与“大思政”教育结合起来,按照多元、多维、协同、系统的就业育人体系要求,对
学位
“治理有效”是乡村振兴的总要求之一,而“三治融合”乡村治理体系是实现“治理有效”要求的重要方式。以社会资本理论为研究视角,结合中国乡村治理实践,提炼政党领导、社会信任、互惠规范和关系网络的分析框架,立足鄂西W村“三治融合”乡村治理体系的地方实践,研究“三治融合”乡村治理体系的生成逻辑与未来路向:发现“三治融合”乡村治理体系的生成逻辑为乡村社会资本再造为“三治融合”乡村治理体系生成提供条件,即基层党
期刊
视频时序性是视频帧序列区别于图像的一个重要特征,常视为图像级算法到视频级算法的桥梁,以提高视频算法的性能和效果。当前互联网发展,短视频成为了信息传播的主流途径,为了让用户获得更好的视觉体验,一些基于视频的处理算法越来越收到关注。基于深度神经网络的图像处理算法层出不穷,而视频的处理方式则相对简单,之前的方法没有很好的利用视频中的时序性,简单地将图像处理方法直接拓展到视频域中会带来帧闪烁问题;其次,由
学位
随着互联网的飞速发展和数据的爆炸增长,出于网络服务提供商和用户两方面的需求,推荐系统得到了广泛的应用。一个好地推荐系统不仅可以让用户有效的获取到他所需要的服务,提升用户的满意度,同时也可以让服务提供商吸引用户,为其产生无法忽视的商业价值。对于推荐系统来说,点击率预估问题是至关重要的。随着近些年机器学习的不断发展,现在基于机器学习方法的点击率预估模型被广泛的应用。这些模型也取得了很大的成功,但是其仍
学位
期刊
零样本学习的目标是去识别在训练过程中没有出现的类别,对于传统的分类方法很难依靠训练集中的样本来识别没有见过的类别。因此早期的零样本学习方法开始引入其他模态的信息如语义特征来帮助识别不可见类别的视觉特征,通过训练一个嵌入空间,将视觉特征和语义特征投影到这个共同的空间,再通过该空间中的度量学习完成预测,本文把这种方法称为基于嵌入式的方法。然而,这种方法很难避免偏差问题,即不可见类别会更容易被误分类为可
学位
期刊
【目的】通过梳理工业革命发展的历史进程和基本逻辑,探寻智能制造时代制造业的特征和本质,在智能化时代下提出促进洛阳制造业高质量发展的对策。【方法】通过访谈等实地调研的方法分析洛阳市制造业智能化改造过程中遇到的主要问题,探索相应的解决方案。【结果】存在中小民营制造业企业智能化投入有限、意愿不强,制造业企业智能化改造进展缓慢,制造业发展营商环境欠佳等问题。【结论】从夯实企业基础创新能力、推进新一代信息技
期刊
在数字经济时代,制造业企业质量管理转型迫在眉睫。本文首先基于质量管理的特征梳理了数字技术给制造业企业质量管理转型带来的机遇,接着提炼了数字化情境下质量管理转型的“四阶段”路径,最后从三个方面总结了质量管理数字化转型的注意要点。
期刊