注意力与视觉常识联合引导的图像描述算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:sbtakkd521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述是通过计算机理解图像并生成对应文本描述的任务。该任务是跨模态理解的重要组成部分,在安防反恐、自动驾驶和舆情监控等多个领域都发挥着重要的作用,相关研究具有重要的理论研究意义和应用价值。因此,本文针对目前图像描述领域存在的高阶关系缺失、描述语句准确度低、描述内容不合理的问题,以Transformer为基础模型,从注意力机制和视觉常识的生成和引入机制开展了相关研究,并提出了三种图像描述模型。本文的主要研究和工作总结如下:(1)提出了一种融合多级特征和双注意力的图像描述模型。该模型采用多级特征与双注意力联合增强的方法,建模视觉信息的高阶关系,以提取丰富的语义特征。其中,特征增强模块能够学习隐藏在非局部空间与不同尺度间的上下文信息,以此获得更多的细节信息;双注意力模块则通过对所有元素进行交互以融合通道与空间注意力,实现更高阶的跨模态交互。实验结果表明,该模型的BLEU-1,BLEU-4,METEOR,ROUGE,CIDEr和SPICE指标可达80.6%,38.8%,29.0%,58.7%,128.6%和22.7%,指标值均高于Transformer基线模型。(2)提出了一种网状交叉注意力增强的图像描述模型。该模型在视觉编码器与语言解码器间建立网状连接,并与交叉注意力机制相结合构建了网状交叉注意力机制。新的网状交叉注意力有效拓宽了视觉编码器与语言解码器的交互范围,可同时关注视觉语义与目标属性,以生成更准确的图像描述。与代表性的POS-SCAN模型相比,所提模型的BLEU-1,BLEU-4,METEOR,ROUGE,CIDEr和SPICE指标分别提高了0.4%,1.3%,0.6%,3.3%,4.5%和0.7%,同时CIDEr指标的提升表明所提模型生成的描述语句与标注语句出现同义词或原词的概率更高,即新模型能有效提升图像描述的准确度。(3)提出了一种注意力与视觉常识联合引导的图像描述模型。该模型由混杂因子字典构建模块和视觉常识引导模块组成,可通过引入可靠的因果关系实现对描述内容合理性的控制,达到提升图像描述质量的效果。其中,混杂因子字典构建模块能够提取由于数据分布不均、数据单一带来预测偏差的干扰项,而视觉常识引导模块则能通过消除混杂因子获取可靠的因果关系,更精确地表达区域间的关系特征。实验结果表明,所提模型的BLEU-1,BLEU-4,METEOR,ROUGE,CIDEr和SPICE指标分别达到了80.9%,39.4%,29.4%,59.1%,130.8%和23.3%,这表明模型能够准确度量三元组间的关系,削弱噪声干扰从而使描述内容更合理,提升图像描述质量。
其他文献
随着“交通强国”战略的持续深入,2020年我国铁路营业里程已达到14.63万公里,铁路建设规模位居世界第二。同时,“十四五”规划发展纲要中提出要加快构建快速铁路网,基本贯通“八纵八横”高速铁路格局,这说明我国的铁路建设规模将进一步扩大。但目前我国铁路建设资金主要来自政府财政支出与银行贷款等方面,资金压力巨大。政府主管部门在进行投资决策、成本估算时,缺乏能快速估算项目成本的技术手段,且目前我国铁路工
学位
教学质量是教学环节中一个重要的指标,它体现了该学校教学水平的高下和教师教学效果的优劣,教学质量的研究有助于帮助学校不断提高教学质量,促进教学水平和教育质量的不断提高和发展。随着社会和教育的不断进步,国家和社会不仅会要求教育的覆盖度,更加注重教育的高质量发展,建立高校课堂教学数据的监测工程是确保高校人才培养战略不断提升的手段和方法。本文的主要研究是基于目前的传统教学评价手段,利用信息化和部分计算机新
学位
2020年是旅游直播元年,受疫情影响旅游市场大幅萎缩,旅游直播因其突破时空限制、传播迅速、互动性强的特点已经成为潜在旅游者凝视目的地的新兴媒体,是助力旅游业复苏的重要途径。名人在旅游直播中发挥着不可忽视的作用,如携程打造的“BOSS直播”、多地文旅局长带领大家“云旅游”等。旅游直播发展火热,直播场景下的旅游凝视行为发生了改变,名人在旅游直播中的作用尚未厘清,因此从凝视角度出发,对名人直播的内在机制
学位
随着人机交互技术的迅速发展,机器需要借助计算机视觉正确地认识和理解人类的行为,3D人体姿态估计是计算机视觉领域的热门研究课题。最近深度学习技术的快速发展使得越来越多的学者利用神经网络进行3D人体姿态估计的研究,并取得了良好的效果。但这些方法大多是有监督的学习方法,他们使用真实3D姿态数据作为监督信息才能达到较高的性能,而对这些有监督的3D姿态数据进行标注需要耗费大量的时间以及人力物力。因此,使用弱
学位
违法建设作为国家城乡规划的一大顽疾急需治理,因行政相对人自行进行拆除的意愿不高,故而违法建设的强制拆除是拆除违法建设的一大重要途径,但是当前行政机关在违法建设强制拆除中已经陷入困境,在实践中往往出现行政机关违法进行强制拆除的情况,本文首先对全国范围内有关违法建设的法律法规进行梳理和分类,并初步统计出全国范围内近三年在裁判文书网上的有关违法建设案件的数量,以从全国范围内初步了解关于违法建设强制拆除的
学位
随着电动汽车行业的飞速发展,其续航里程短、充电时间长等问题也随之暴露。为此,中国联合日本、德国等国家将构建一套面向世界和未来的更安全、更兼容、更可靠的充电技术方案,即新一代超级充电系统。然而新一代超级充电技术在当前阶段,还存在着大倍率充电条件下车辆的安全防护不充分、充电设备缺乏对车辆安全的主动防护等问题。本文围绕新一代超级充电设备,融合车辆动力电池特性,建立对车辆的多层次、多维度充电安全防护体系;
学位
人体姿态估计是目前具有挑战性的热门研究方向之一,其目的是从图片或者视频中将每个人体的关键点检测出来,绘制出人体骨架图。随着人体姿态估计技术的发展成熟,人体姿态估计在智能监控、虚拟现实、运动分析等方面都具有广泛的应用。本文采用目前流行的深度学习方法,对人体姿态估计算法进行研究,主要研究内容如下:(1)提出了一种基于双注意力与多尺度融合的人体姿态估计算法。在人体姿态估计任务中,卷积神经网络提取了包含不
学位
威廉·福克纳是美国伟大文学家之一,他以独特的笔墨刻画美国南方社会,《八月之光》正是以虚构的约克纳帕塔法县为背景来展现美国南方社会的人们对现实的反抗和对自我的追寻。本文以爱德华·索亚的空间理论为框架,从第一空间、第二空间、第三空间角度出发,探讨《八月之光》中的三位主人公的身份追寻之旅。索亚认为,带有物理性质的第一空间、带有创造性想象的第二空间、融合真实空间与想象空间为一体的“开放”空间能够提供一个新
学位
基于相位敏感光时域反射仪(Phase-sensitive Optical Time-Domain Reflectometry,φ-OTDR)的分布式光纤传感系统由于兼具监测范围广、灵敏度高等优点被广泛应用于周界安防等实时动态监测领域中。随着光学系统的改进,如何在φ-OTDR系统中快速且准确地预警扰动以及减少系统误报现象,成为实际应用和理论研究中的重点和难点。在充分调研φ-OTDR信号处理相关文献后
学位
研究城市出行空间分布对城市规划、交通规划、商业服务等领域至关重要。随着我国城市化进程的不断推进,城市空间布局动态演变,城市出行空间分布也日益多样化和复杂化,随之产生了一系列问题如交通拥堵、通勤距离过长等。为解决这些问题,有必要深入研究城市出行空间分布特征,从而为科学地进行城市规划和交通规划提供理论依据。近年来随着移动通讯技术的应用与发展,丰富的手机信令数据为研究城市出行空间分布特征提供了有力支撑。
学位