基于多模态注意力学习的图像描述方法

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:nishi1221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述的主要任务是根据给定的图像生成描述该图像内容的自然语言文本,该任务是计算机视觉和自然语言处理的跨学科融合任务。图像描述在智能人机交互,图文转换,视觉辅助和图像识别等领域具有广阔的应用前景,可以给人类生活提供极大的方便。图像描述的目的是自动生成自然语言描述,并且目前大多数最先进的模型都采用了编码器-解码器框架。该框架包括一个基于卷积神经网络的图像编码器和一个基于循环神经网络的描述解码器。图像编码器用于在输入图像中提取基于区域的视觉特征,而描述解码器的作用是基于视觉特征和注意力机制输出描述文本。尽管现有的研究取得了成功,但当前的方法仅对表征间相互作用的协同注意力进行建模,而忽略的表征内相互作用的自注意力。受变换网络模型在机器翻译中成功的启发,这里本文将其扩展到用于图像描述的多模态变换网络(Multimodal Transformer,MT)模型。与现有的图像描述方法相比,MT模型可以在统一的注意力块中同时捕获模态内和模态间的交互作用。本文的主要研究工作和贡献如下:1.在编码阶段,MT模型首先提出了用于图像描述的自注意力。多模态变换网络模型能够使用这些模块化的注意力模块对表征内相互关系进行建模,即视觉目标对视觉目标。通过深度的堆叠这些注意力模块,对图像中的视觉目标之间的关系进行深度推理。2.在解码阶段,MT模型设计了用于图像描述的自注意力以及协同注意力模块,通过这些模块对表征间与表征间的两种关系进行建模,即单词对单词以及视觉目标对单词。从而生成更准确,更全面的文本描述。3.结合MT模型引入图像的多视图视觉特征学习,以提供更加多样化和具有区别性的视觉特征表示。本文介绍了两种不同的策略来分别处理对齐和非对齐的多视图视觉特征。通过在图像描述领域公开的大规模数据集(如Flickr30k,Microsoft COCO)上的实验,验证了本文提出的方法相比当前最好的算法更为有效。
其他文献
数字式仪表在日常生活和工农业生产中被频繁使用,因此提高对其读数效率和精度的研究势在必行。本文提出了基于机器视觉的数字式仪表读数识别系统,对于该系统的研究,主要进行了如下几项工作:首先,在对图像采集方案进行设计时,针对硬件设备必然会导致的标量图畸变问题,采用适当的设备校准、目标图像纠正技术进行设计优化;为获取尽可能优质的原图像,选用合适的矩形面光以及打光方案,并采购与项目要求相符合的图像采集设备。然
在我国经济体制的发展过程中,实体企业的发展越来越离不开金融的支持,随着我国金融体制的不断改革,以金融服务实体经济已是一大趋势。根据相关理论和实证分析可知,产融结合有利于减少实体企业与金融机构之间的交易费用、消除信息不对称、实现企业的内源融资及多元化发展。但是,产融结合在我国还处于初级阶段,其发展还有待提高。加之我国“三农”问题一直亟需解决,农业产业链条的优化和现代化发展需要有大量的金融资本来支持,
钛合金具有密度低、比强度高、生物相容性好等优点,已被广泛应用于航空航天、石油化工、汽车工业以及制造等领域,但由于其摩擦系数大、耐磨性差以及严苛条件(强腐蚀性离子Cl-
多传感器时间配准技术是信息融合系统前端数据处理的一项关键技术,时间配准效果的好坏是影响信息融性能的重要因素之一。随着信息领域科学技术的飞速发展,信息融合系统在民用领域和军事领域的应用越来越广泛,时间配准技术作为数据融合的前提,在异步信息融合系统中不可获缺。内插外推、最小二乘等方法是时间配准的常用方法,但是这些传统方法存在如配准时刻不灵活等使用条件限制,而且在较为复杂的运动模型下配准的误差较大,针对
研究机器阅读理解任务是为了让机器能阅读并且正确理解自然语言文本,并能够回答给定的问题,由此衍生出大量的应用场景,对自然语言处理的其他领域也具有重大意义和价值。现有的机器阅读理解主流模型主要分为四个主体部分:表示层、编码层、交互层以及输出层,表示层采用的词嵌入技术具有单向性并且无法解决一词多义问题,输出层采用的答案预测模块无法输出既通顺又包含多数关键命名实体的句子。针对以上问题,本文研究了主流的机器
我国的档案中介服务机构兴起于上个世纪90年代,当时我国正处经济快速发展的时期,而档案中介服务机构也随着这个发展大潮流孕育而生。档案中介服务机构就是为档案需求者提供相
智能电网包含优质的双向通信网络、完善的传感和测量技术、智能的设备、实用的操控形式和系统,其中系统目前的发展尚存在一些不足,具体表现为作业速度慢、办理进程杂乱无章、
随着海洋强国战略、交通强国战略及“一带一路”战略目标的大力实施,基础设施建设行业和综合交通物流行业得到迅猛发展,所涉及的海上工程建设、港口建设、房地产建设等项目对砂石料的需求也与日俱增。然而,砂石的生产地和需求地分布不一致,催生了生产、运输、使用砂石的产业链。以山东为例,在海洋方面,山东海岸资源条件优越,海岸线漫长曲折,提供了丰富的海砂资源;在陆地方面,山地丘陵占山东省总面积的34%左右,且多为花
高功率脉冲激光器诞生以后,非线性光学研究迎来了新的发展机遇。随着超快激光技术的发展,传统的半导体可饱和吸收体已不能满足宽频带激光被动锁模技术的需求,开发宽频带、强饱和吸收、更快弛豫时间的可饱和吸收材料成为解决上述挑战的关键所在。石墨烯作为一种超薄的非线性光学晶体,具有宽频带可饱和吸收、电场可调谐、高激光损伤阈值和超快响应时间等优点,在脉冲激光调制、高次谐波和四波混频等激光技术领域有着广阔的应用前景
自党的十八大明确提出新型城镇化以来,我国新时期的重点任务就是要走高质量的有中国特色的城镇化道路。伴随着城镇化的不断推进,我国工业化不断加速,经济高速发展.但是,在此