基于多模态特征融合的图像文本检索方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gui_123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术以及社交媒体的发展,不同模态数据的体量急剧增长,人们对不同模态数据之间相互检索的需求也随之增加。其中一个具有应用价值的任务即图像文本检索,指的是输入某一模态的数据(例如图像),通过训练的模型自动检索出与之最相关的另一模态数据(例如文本)。然而,来自图像和来自文本的特征存在固有的数据分布的差异,也被称为模态间的“异构鸿沟”,使得度量图像和文本之间的语义相关性困难重重。目前大多数模型采取了晚期融合的方案,分别对图像特征和文本特征进行学习,最后将来自两个模态的特征进行融合计算图像文本相似度。虽然这些模型在跨模态检索中取得一定进展,但其仍存在如下问题:首先,晚期融合方案中往往忽略模态间潜在的交互联系,无法很好弥合不同模态之间的差异;其次,现有的早期融合方案通常是在全局层面上进行融合,往往会遗漏模态内的细节信息;另外,这些工作通常只关注到了全局匹配或局部匹配,而不同模态之间的“局部-全局”融合并没有得到充分探索。针对前两个问题,本文提出了一种基于早期融合和晚期融合的混合融合模型。在原始图像特征和文本特征基础上,对图像中的视觉区域和句子的全局信息进行融合,使融合特征可以包含具有丰富细节信息的视觉局部信息和语言模态中的全局语义之间的关联,随后的网络对融合特征自适应地进行学习;与其同时,图像和文本进行晚期融合以丰富模态内语义表示。针对第三个问题,本文提出了一种基于模态间融合和模态内融合的混合融合模型,采用注意力流的形式在图像和文本特征之间传递模态间关联信息和模态内关联信息,并在模态内融合模块中通过门控机制利用跨模态的全局信息动态调控模态内局部信息的聚合。本文提出的两个方法均在大规模跨模态数据集Flickr30K和MSCOCO上进行实验,并与现有工作进行对比,证明了本文提出的方法在检索性能上的提升。此外,一系列消融实验结果与相关分析进一步证明了两个方法设计的合理性。
其他文献
期刊
零样本学习的目标是去识别在训练过程中没有出现的类别,对于传统的分类方法很难依靠训练集中的样本来识别没有见过的类别。因此早期的零样本学习方法开始引入其他模态的信息如语义特征来帮助识别不可见类别的视觉特征,通过训练一个嵌入空间,将视觉特征和语义特征投影到这个共同的空间,再通过该空间中的度量学习完成预测,本文把这种方法称为基于嵌入式的方法。然而,这种方法很难避免偏差问题,即不可见类别会更容易被误分类为可
学位
期刊
【目的】通过梳理工业革命发展的历史进程和基本逻辑,探寻智能制造时代制造业的特征和本质,在智能化时代下提出促进洛阳制造业高质量发展的对策。【方法】通过访谈等实地调研的方法分析洛阳市制造业智能化改造过程中遇到的主要问题,探索相应的解决方案。【结果】存在中小民营制造业企业智能化投入有限、意愿不强,制造业企业智能化改造进展缓慢,制造业发展营商环境欠佳等问题。【结论】从夯实企业基础创新能力、推进新一代信息技
期刊
在数字经济时代,制造业企业质量管理转型迫在眉睫。本文首先基于质量管理的特征梳理了数字技术给制造业企业质量管理转型带来的机遇,接着提炼了数字化情境下质量管理转型的“四阶段”路径,最后从三个方面总结了质量管理数字化转型的注意要点。
期刊
视频文本检索任务要求用户输入一段查询文本(视频),检索出语义最相近的视频(文本)。目前的视频文本检索方法大多从图像文本检索领域转化而来,而图像只包含空间信息,不含时序信息,因此迁移而来的大部分方法缺少对视频中时序信息的建模。当前也存在少数方法利用卷积神经网络和循环神经网络对视频进行时序关系推理,但是当视频内容涉及到空间转换、背景转换或动作等信息时,效果就不如人意。因此本文重点关注视频时序信息的建模
学位
蒙特卡罗路径追踪渲染算法是渲染照片级真实感图像的主流方法,其通用性与无偏性使得该方法被广泛运用至影视动画制作、虚拟现实、实时游戏、艺术视觉设计等领域。然而,该方法需要采样大量的光线路径才能得到正确的像素值估计,导致计算成本高昂,反之在低采样率下的渲染结果在视觉上表现为大量噪声。为了减少计算与时间成本,设计特定的去噪方法去除低采样率下的图像噪声成为了普遍的解决方案。近年来,深度学习技术的发展为许多领
学位
近年来随着数字技术发展,数字经济成为经济发展重要驱动力,党的二十大明确指出促进数字经济和实体经济深度融合,加快建设制造强国。因此数字经济与制造业深度融合,推动制造业高质量发展已成为经济发展的趋势,在数字时代研究汕尾制造业高质量发展具有很强的现实意义。阐述汕尾制造业发展概况,分析汕尾制造业基础、盈利、配套体系、人力资源,提出数字时代汕尾制造业高质量发展的对策建议:推进数字技术发展,加速与传统制造业融
期刊
在新媒体时代,互联网上的新兴社交媒体已成为人们获取信息的主要途径。在中国用户量最庞大的社交媒体微信上分布着大量的科普公众号,它们向大众传播日常生活背后的科学知识,其内容也呈现出多模态的特征。但在多模态科普语篇的研究中,鲜少有学者从人际意义的角度探索科普语篇与读者之间的关系。本文从系统功能语言学的视角出发,采用定性与定量研究相结合的方法,旨在探索一个适用于科普文章的多模态分析模型,试图揭示多模态科普
学位
目的 研究基于大数据的中药注射剂不良反应自动监测的方法。方法 选取河北省中医院2018年至2020年药物不良反应(adverse drug reaction, ADR)报道率最高的5种中药注射剂,基于中国知网数据库中相关ADR大数据筛选报道最多ADR,选择其中可通过计算机手段进行监测的5类ADR生成ADR风险监测信号,设置监测规则,利用ADR自动监测软件对2021年我院中药注射剂进行实时ADR风险
期刊