基于深度学习跨模态技术的图文检索研究

来源 :上海师范大学 | 被引量 : 0次 | 上传用户:yjszf22222222
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网上社交媒体平台上文本、图像、音频、视频等多模态数据的增长迅猛,传统的单一模态数据检索已经无法满足当今社会的需求,跨模态检索应运而生。多模态数据往往具有很高的维度,使其难以有效检索。为了有效地组织、管理和检索在文本、图像的语义之间相互关联的有效数据,跨模态检索已经成为了当今学术界和工业界的热门话题。本文以跨模态图文检索技术为重点,结合多模态数据的特点,研究提高跨模态图文检索的精度问题,设计和开发跨模态图文检索系统,便于用户查询同一语义下的多种模态数据。本文主要做了以下工作:(1)针对于图像类内差异相对较大、传统的细粒度图像检索方法识别分类能力差的问题,提出了改进的Swin Transformer图像检索模型,利用Swin Transformer作为特征提取的主干网络,结合注意力机制,充分提取图像局部和整体的信息,提高了图像检索的精度和效率;在此基础上,引入FPN模块融合多尺度图像信息,有利于小目标和多尺度特征物体的图像检索;引入了RPN模块,实现了端到端的训练,可以根据不同的尺度和长宽比得到较为准确的预测框;引入ROI池化层能够实现抑制噪声,生成固定大小的特征建议图。在MS COCO数据集和民国纸币自建数据集的对比实验结果验证了改进的Swin Transformer模型在图像检索模型中具有较好的优越性。(2)为了解决图像文本两种模态之间的异构鸿沟以及图文局部相似和全局相似关联的问题,提出了基于Transformer的细粒度跨模态图文检索模型FCRMT,在使用改进的Swin Transformer和BERT进行图像和文本特征提取的基础上,使用Transformer作为推理模型对图像和文本特征进行推理;同时使用普遍求和进行图像文本特征聚合,建立图文局部和全局的跨模态关系;使用多重相似性计算进行对比,充分学习两个模态之间的全局对齐关系,实现跨模态的细粒度图像文本的检索;设置损失函数边界值α进行对比实验,使模型更好地学习样本之间的差异。在数据集MS-COCO和Flickr30K数据集进行了大量实验比较,实验结果证明FCRMT在跨模态图文检索中表现良好。(3)设计并实现了图像文本检索系统,系统开发使用flask技术,实现“以图搜图”、“以图搜文”和“以文搜图”三个功能。该系统可以应用于搜索引擎、电子商务、信息管理、图文智慧问答、字幕生成等场合,帮助用户实现跨模态图文检索,并使用户摆脱媒体类型的限制。
其他文献
随着科技的发展,教育信息化的普及为教育工作提供了史无前例的机会和挑战。大规模开放在线课程MOOC变得普及,学习者可以根据自己的时间和地点自由选择课程、自主学习。随着MOOC平台和课程的不断涌现,网络上拥有了大量丰富的学习资源,为学习者提供了更多的选择,但也使得他们面临着更多的知识挑战,知识分散、碎片化等问题日益突出。本文旨在通过“数据结构”MOOC课程的知识图谱可视化展示,深入探讨知识结构及知识点
学位
近年来,全球男性不育问题越来越普遍,导致不孕症患病率不断上升。虽然辅助生殖技术(ART)的使用越来越普遍,但由于精子和卵子的质量对ART的影响很大,因此需要对精液质量进行评估。然而,传统的人工精液评估方法存在成本高昂和人为误差等问题。近年来,随着计算机视觉技术的快速发展,基于计算机视觉的精子检测算法逐渐研究热点。然而,这些算法在算法流程和计算量方面存在一定的复杂性,导致其在实际应用中存在一定的局限
学位
个性化推荐是一种广泛应用的技术,但流行度偏差已成为该系统的一个重要问题。为了解决这个问题,本文提出了一个方法,即通过动态的商品流行度作为排序依据来推荐长尾分布以优化商品序列化推荐结果,从而缓解流行度偏差。本文的研究分为两个部分,即流行度的表征和预测以及融合商品流行度信息的序列化推荐。为了更准确地提取商品的动态流行度信息,本文提出了一种新的图结构,命名为“用户商品流量图”。并设计了新的采样方法和聚合
学位
上海市作为全国范围内最早将武术项目纳入中考体育的地区,特定的武术考试规则,考生,裁判员以及考试环境构成了武术考试项目。裁判员能够严格按照武术考试规则与章程对考生进行执裁的水平,对中考体育改革下的武术考试能够公平、公正地举行起到了决定性的作用,同时间接影响中考下其他项目评分方法的发展。然而对于应试类体育考试项目裁判员执裁水平评价的研究相对滞后,武术项目作为传统文化的载体,其执裁的公平性一直饱受争议,
学位
在信息快速传播的互联网时代,越来越多的用户乐于在社交平台上发布自己的评论,虽然为情感分析带来强大的数据支持,但是会导致“信息过载”从而难以获取到真正所需的信息。所以从海量关系数据中分析并挖掘有用的信息,在此基础上进行准确的情感预测是情感分析领域研究的热点。当前的情感分析方法大多注重文本信息并且其方法取得了较大的成效,但是它们在提取用户的潜在情感方面显得尤为不足。对无文本信息或者使用反讽文本的用户,
学位
聚类分析的目标是对一组数据进行分类,使得相似的数据归为同一类别,不相似的数据归到不同类别。近年来,聚类分析在生物医学,图像处理和自然语言处理等多个领域有广泛应用。由于现实生活中的数据分布复杂,存在形状不规则,密度分布不均匀等特点,现有的聚类算法无法得到满意的结果。另外,大部分的聚类算法需要预先输入聚类数目,但实际情况下无法预知该值。为解决上述问题,本文引入了稀疏因子和增广非共享近邻的概念,并在此基
学位
学位
异养硝化细菌(heterotrophic nitrifying bacteria)是重要的硝化微生物类群之一,在生长过程中可以通过硝化作用快速去除污水中多余的氮,因而成为生物脱氮领域的研究热点。近10年来异养硝化细菌的研究获得了较大进展,本文系统总结异养硝化细菌类群的硝化酶系及其编码基因特点,对异养硝化代谢途径进行梳理;同时总结其他氮转化功能酶及其编码基因在整个类群中的分布,探讨异养硝化细菌的脱氮
期刊
离子聚合物金属复合材料(IPMC)是一种具有轻质量、高柔韧性、高效电能转化(电能转化为机械能)的智能材料。IPMC在软机器人应用中具有一些显著的优势,尤其是电能向机械能的高效转化,其在较低的电压下激活,快速响应下可实现较广范围的形变。其功耗低,而且具有一定的机械和化学耐受性和稳定性、易于小型/微型化。由于其具有上述特点,因此作为软体机器人的软执行器是不可多得的材料,在微型机器人和水下机器人应用中得
学位
学位