多特征融合的图像描述生成

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:x111678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述生成是涉及计算机视觉与自然语言处理的一个交叉领域问题,在近年来得到了广泛研究,形成了一系列基于编码器-解码器框架的典型方法。其中基于Transformer模型的图像描述生成方法,通过引入自注意力机制,大幅度提升了图像描述的质量,迅速发展成图像描述生成的主流方法。本文基于Transformer模型提出了一种多特征融合的图像描述生成方法。针对标准Transformer模型中的注意力机制没有充分利用图像中对象之间的空间关系,尤其是对象之间的相对方向关系这一问题,本文设计了空间关系编码策略,即根据位置信息生成绝对位置矩阵和相对位置矩阵,并在此基础上增加相对方向矩阵,通过融合这三类空间特征来表达图像对象之间的空间关系,并嵌入到图像特征中。针对图像的区域特征难以表示图像全局的上下文信息这一问题,本文设计了融合网格特征和区域特征的交叉注意力机制,充分利用网格特征对图像内容的全局表征能力,有效弥补区域特征缺乏上下文信息的不足,获取图像特征更细粒度的表示。另外,本文方法中引入了融合门操作(Fusion Gate Operation,FGO)来控制网格特征和区域特征之间的相互影响,从而有效指导模型生成高质量的描述。本文在图像描述生成的典型数据集MS-COCO上进行了实验,基于主流评价标准对本文方法和已有的代表性图像描述生成方法进行了对比分析。实验结果表明,本文提出的融合网格特征和区域特征的图像描述生成方法性能优于其他模型,在CIDEr评价指标上达到了133.4%;完整的消融实验也验证了本文所提出的改进方法的有效性。
其他文献
目的 对心源性休克采用去甲肾上腺素与多巴酚丁胺联合治疗的效果进行观察。方法 选取本院82例心源性休克患者,时间2020年3月至2021年3月,根据随机抽签法将患者分为对照组(41例,多巴酚丁胺)与观察组(41例,多巴酚丁胺+去甲肾上腺素),对两组疗效、不良反应等指标进行比较。结果 观察组疗效(95.12%),明显较对照组(73.17%)高,差异有统计学意义(P<0.05);两组不良反应发生情况比较
期刊
随着高校毕业生就业难问题越发突出,如何有效地预测毕业生的就业情况越来越受到大学生和就业指导部门的关注。更好地引导高校毕业生选择合适的就业发展方向,不仅是对我国人才资源的有效利用,也是对我国教育事业的一大推动。在当前的就业预测中,学习成绩作为关键特征,在就业预测中起着决定性作用。而大多数研究主要使用平均学分绩点(GPA)和自编码器来表示学习成绩,这两种方法可以很好的解决成绩的异质性和成绩矩阵的稀疏性
学位
多元关系存在于各种领域中,可以给人类探索这些领域提供有效的帮助。例如医药领域中的生物反应关系可以帮助人们寻找对抗疾病的药物,检测社交网络中的虚假新闻传播关系可以帮助人们避免流言和欺诈。然而目前大多数的深度图学习算法专注于使用二元关系对图进行表征,或是将多元关系拆解成多个二元关系来考虑。使得表示学习结果遗漏或是完全缺少多元关系信息,得出错误的结果或是影响模型的效果。为了解决以上的问题,本文设计并研究
学位
最先进的语义分割方法需要足够的标记数据才能获得良好的结果,并且在没有微调的情况下很难在看不见的类上工作。因此,为了解决这个问题,提出了小样本语义分割,通过快速学习少量带有真值掩码的样本,从而适应训练集中未出现过的新类别。本文提出的方法分为三个部分,第一个部分为特征迭代优化模块,因为现有的小样本语义分割方法主要采用全局池化操作来生成原型特征,这种操作会使网络完全放弃当前对象的空间布局,简单的混合来自
学位
虚拟仿真技术从20世纪初就开始发展了,近几年由于虚拟仿真技术的进一步发展,诞生出了很多仿真建模平台技术,从最先的集中式仿真建模平台到后来的组件化仿真建模平台,再到如今的分布式仿真建模平台应用的持续落地。说明了该项技术能够把现代软件工程思想很好的转换为需求开发到实际的应用中去,雷达作为一个精密且昂贵的电子探测设备,在现实中直接研究其性能和评测分析不仅测试成本高,而且在真实环境中运输和部署难,这些无疑
学位
随着深度学习的飞速发展,卷积神经网络在处理图像分类任务时的准确率已经超越了人类。虽然神经网络具有出色的性能,但是大多数神经网络的结构需要专家进行手工设计,整个设计过程不仅十分依赖专业的机器学习知识,而且需要漫长的试错过程。因此,神经网络结构自动化搜索成为了研究热点,然而多数搜索出的神经网络对于硬件设备的计算能力具有较高的要求。与此同时,随着移动互联网的快速发展,将图像分类神经网络部署在移动设备和嵌
学位
工业4.0之后,IIo T(工业物联网)的发展成为我国工业转型升级的关键途径,为了解决工业物联网环境下的访问控制问题,提供安全性更好的访问控制方案是十分重要的。基于区块链的访问控制是目前分布式访问控制的有效解决方案,且在工业物联网中也有许多探索。为解决上述问题,本文提出一种结合Hyperledger Fabric区块链架构的分布式ABAC(基于属性的访问控制)访问控制方案,同时基于LSTM(长短期
学位
随着开源软件的流行以及开源社区的发展,开源许可证的不合理使用为企业在实际使用的过程中留下了许多法律隐患,而开源许可证大量使用的原因在于基于组件的开发方式的流行,其中组件多以开源软件形式存在,在开发过程中会使用很多组件,而每个组件、每个文件都可能包含不同种类的开源许可证,同种开源软件可能存在不同版本,这些开源许可证之间可能存在一些兼容问题,因此如何对软件进行兼容性分析,如何选择开源许可证来减少甚至消
学位
樱桃,别称“含桃”,落叶果树类中属成熟最早的树种,其果实晶莹饱满,果肉营养丰富,深受消费者喜爱。然而由于种植过程会引发多种病虫害,容易造成产量下滑以致经济效益不高。传统病虫害检测大多依靠种植户的经验判断和农业机构的专业检测,费时费力,实时性差,难以满足现代化农业的发展需求。因此实现樱桃病虫害的精准、快速检测是非常必要的,可最大限度地减少产量与经济的损失。基于上述背景,本文依托樱桃智慧种植项目,设计
学位
目前超市连锁店存在采购成本高、采购效率低、采购模式落后等一系列问题,制约商贸行业发展。因此,本文设计研发了一款以商品集采为核心且具有招标功能的综合服务平台以解决上述问题。系统依托于科技部项目“村镇社区新型商贸连锁综合服务平台研究及示范”课题(2019YFD1101104)属科技部重点研发计划。以湖北省十堰市新合作超市有限公司为研究背景,从超市连锁店的实际需求出发进行开发设计。该系统主要包括用户信息
学位