基于深度学习的图像文本匹配方法研究

来源 :西北大学 | 被引量 : 0次 | 上传用户:lukexingmm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和深度学习的快速发展,图像文本匹配逐渐成为跨模态领域中一个重要的研究课题。实现图像文本的正确匹配需要对视觉和语言之间的对应关系有强大的理解能力。近几年,基于深度学习的图像文本匹配方法取得了显著的成功,然而现有方法仍然有以下问题:第一,图像文本匹配需要深入理解单模态内信息,例如图像中各对象之间的关系、文本单词的长远依赖关系,还需要探索图像区域和文本单词的细粒度对齐关系,如何将以上两点融合在同一个模型里有待解决。第二,现有的细粒度图像文本匹配将所有可能的图像区域和文本片段进行多次相似性度量,虽然准确率有很大提高,但是多次相似性度量导致模型计算量过大,并且会有很多不必要的冗余对齐。第三,先验知识能够增强模型的表征能力和可解释性,减小模型内部复杂度,如何有效构建和利用先验知识是一个值得探索的问题。因此本文的具体研究内容如下所述:(1)针对如何将模态内信息和模态间信息融合在同一模型中的问题,本文提出了基于自注意力机制的图像文本匹配方法。该方法不仅对单模态内信息使用强大的自注意力机制进行建模,同时也对图像区域和文本单词使用交叉关注的方式进行建模。实验表明,该方法有效提高了图像文本匹配的准确率。(2)针对现有细粒度匹配方法计算量过大和缺少多视角匹配的问题,本文提出了基于Transformer架构的多视角图像文本匹配方法。该方法对图像分支和文本分支堆叠了多层Transformer架构,并在最后一层共享图像和文本分支的权重。在相似性度量阶段,该方法使用空洞卷积的方式构造多视角匹配,使得模型能够以不同的视角理解图像。该方法所有输出的图像向量和文本向量都属于紧凑型向量,减小了模型的计算量。实验结果表明,该方法有效提高了图像文本匹配的准确率。(3)针对如何构建先验知识来指导图像文本匹配的问题,本文提出了基于先验知识图的图像文本匹配方法。该方法利用先验知识图来指导图像文本匹配,有效地利用先验知识可以减少模型内部的计算量,增强模型对真实情况的理解能力,而非专注于某个数据集。该方法使用图卷积的方式构建先验知识图,使得先验知识之间有了深刻的联系。在图像和文本特征提取阶段分别采用了自注意力机制和一维卷积,增强了模型的推理能力。实验表明,该方法在两个基准数据集上有效提高了图像文本匹配的准确率。
其他文献
在中共十九大报告当中首次明确提出乡村振兴的伟大战略,达成这一战略目标离不开有效的基层治理。早在2013年,浙江省桐乡市于全国率先推出“法治为要、德治为基、自治为本”的“三治”模式并逐步打造形成可学、可看、可推广的“桐乡经验”;在2017年中共十九大报告当中提出要“强化农村基层基础工作,健全自治、法治、德治相结合的乡村治理体系。”自此开始,“三治”更是成为基层治理探讨的焦点。本文通过文献综述法、实地
学位
随着经济社会的高速、高质量发展,国家取得了决战脱贫攻坚的全面胜利,农村地区紧跟城镇化发展稳步推进。农牧民生活品质的不断提升,居住条件和生活环境的不断改善,对农村住居空间的环境质量提出了更高的要求。人民日益增长的美好生活与环境需求成为农村建设重点。乡村振兴战略和美丽乡村建设的实施,为探索乡村建设与发展提供了明确的指导和实施路径。本论文在此背景下,依据内蒙古呼包鄂农村地区建设发展状况、农民生活劳作行为
学位
二十一世纪以来,我国资本市场发展壮大。伴随着利率改革、金融衍生品的出现,金融业呈现一片欣欣向荣的景象,成为暴利行业代表。与此同时,实体经济面临着周期性、结构性等问题而发展放缓。在成本上升、利润下降、产能过剩的内部压力,以及实体投资收益率远不及投资收益率的外部压力严重挤压下,实体企业陷入生存空间困境。于是,大量实体企业蜂拥而上,加入金融投资行列,试图“赚快钱”。实体企业盲目涉足金融活动,不断将原本用
学位
采用溶胶-凝胶法制备了双模型介孔二氧化硅材料,以其为吸附剂探究用于亚甲基蓝和罗丹明B的吸附性能。通过XRD、TEM、N2吸附-脱附等对样品进行了表征。结果表明,双模型介孔二氧化硅呈现约为3 nm和31 nm两种孔径,对两种染料的吸附符合Freundlich等温吸附方程,其吸附动力学符合准二级动力学。吸附后,亚甲基蓝在p H为5、罗丹明B在p H为5~10的缓冲溶液中便于脱附,而且亚甲基蓝在无水乙醇
期刊
大麦和小麦是目前啤酒工业中经常使用的酿造原材料,但是该谷物中含有丰富的麸质蛋白,可能会对乳糜泻患者和麸质过敏人群带来有害的健康影响。大米是一种无麸质谷物,并且价格低廉,营养丰富,是一种理想的大麦替代品。利用大米来生产酿造一种新型无麸质啤酒不但可以降低进口传统大麦芽的成本,还可以为乳糜泻病人提供了一种类似传统大麦啤酒口味的酒精饮料。本文通过研究发芽处理对大米品质的影响,再将大米芽用于无麸质啤酒的酿造
学位
商业银行在我国金融体系中占据核心地位,应义不容辞扛起支持实体经济的大旗。在新的形势下,支持实体经济不仅是商业银行落实国家宏观政策导向的需要,更是成为商业银行自身转型发展的必然选择。近年来,商业银行在实体重点领域、薄弱领域的投放力度明显加大,但整体效果仍需增强,需要进一步在获客模式、业务定位、客户经营、服务模式、风控模式、体制机制等方面进行探索实践,促进信贷资源更多更高效地流向实体经济。
期刊
2020年底,CT1井在四川盆地中部地区(以下简称川中)中三叠统雷口坡组三段二亚段(以下简称雷三~2亚段)泥质石灰岩和灰质泥岩段首次获得高产油气流。该套非常规储层夹杂于碳酸盐岩—膏盐岩沉积组合之中,岩性组合复杂、非均质性强,加之对其研究程度偏低,致使油气勘探开发过程中面临页岩“甜点”厘定难度大的问题。为了明确川中雷三~2亚段烃源岩地球化学特征及油气来源,在岩石学和沉积学研究的基础上,开展了页岩有机
期刊
针对激光焊接对接窄间隙焊缝初始点定位的问题,提出了一种局部范围内基于边缘匹配的窄间隙焊缝初始位置识别方法,可实现在复杂光源环境下焊缝初始点的识别。本方法采用先图像模板技术锁定焊缝初始点的局部区域,后焊缝初始点识别的两步法完成对焊接前的初始点识别。首先选择焊缝图像边缘为匹配特征,提出采用基于Hough直线变换距离法去噪以解决在边缘检测中噪声产生的伪边缘问题,进而通过图像匹配技术可初步获取含有焊缝初始
期刊
近年来,视频产业迎来了爆发式的增长,8K-UHD制式也逐步应用于实况转播领域中,然而,一台支持8K分辨率的投影仪不仅价格昂贵,而且画面大小与亮度均受仪器限制,是当前视频投影市场的一大缺憾。因此,如何让人们仅仅花费相对较低的成本,就能够同时拥有超高分辨率、大画面与高亮度的视觉体验,是当前视频投影技术的重要研究方向之一。本文针对以上问题,结合投影融合系统的实际需求,从硬件设计到软件开发,设计了一套基于
学位
计算思维作为人工智能时代人才必备的重要素养,近年来,一直备受各国教育领域的关注与重视,围绕着发展计算思维的策略探讨是研究领域的重点之一。随着K12阶段人工智能课程的全面布局,给计算思维的培养带来了新的机遇与途径。在人工智能课程中发展计算思维水平的效果受到多方面因素的影响,已有研究表明个体特征与教学方法会对学生计算思维发展产生较大影响,然而针对人工智能课程中计算思维影响因素的研究尚未得到重视。基于此
学位