基于深度语义信息的图像描述技术

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:liongliong452
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的来临,人们每天都要浏览和处理大量的数据信息。尤其是手机等多媒体设备的流行,图像数据大量涌现。对于海量图像数据的检索和管理也愈发的艰难。针对图像数据的特点分析,可利用计算机视觉和自然语言处理技术缓解图像理解和管理等问题。图像描述则成为了解决问题的关键技术。图像描述是指计算机模仿人类理解图像场景,通过对图像特征的学习,生成与图像内容相关的描述语句。近年来,基于深度学习的图像描述模型逐渐成为了研究热点。然而该项任务目前还存在“语义鸿沟”问题,图像的高级语义特征提取还需要更多的技术投入。图像特征的语义信息表示作为图像描述技术的核心任务,决定着模型性能的表现。因此,本文引入并改进传统的注意力机制,对图像描述中的图像特征提取算法进行优化,使其能够自动捕获单张图像范围内的关键区域,学习该领域中的高级语义信息。除此之外,通过图像特征融合算法,增强图像特征的丰富性以利于图像内容的理解。本文的具体研究工作如下:(1)提出基于注意力的残差网络图像描述模型。经典的注意力机制提取的图像特征忽略了三个特性:空间性、通道性和多层次。提取的特征难以准确识别出物体对象,并且在生成描述语句时存在噪音干扰。因此,这类空间注意力机制算法提取出的图像特征缺乏多样性,无法全面正确获取图像的语义信息,在图像描述模型中不能够充分发挥注意力机制的优势。为了缓解上述问题,本文提出一种基于注意力的残差网络图像描述模型,利用注意力模块和残差模块交替工作的新型深度堆叠网络作为模型的新型编码器。该模型能够提取和保存图像中的关键信息,为解码器提供更完整和丰富的图像语义特征。通过在MS COCO数据集与相关前沿模型的对比分析,本文提出的模型表现出了更优的性能。(2)在图像描述技术中,准确以及完整的图像特征能够提高生成描述语句的准确性,从而对图像的场景有全面、清晰的描述。对同一图像的不同特征采取融合算法能够使图像语义信息更加的丰富。因此,本文提出基于多图像特征融合的图像描述模型。通过比较不同算法融合同一图像的不同有效特征来选取效果较好的模型,以此获取包含精准位置信息和强语义的图像特征,提升模型的性能,减少语义鸿沟。实验结果表明,本文提出的两种融合算法中,基于自学习权重的多特征融合模型在多个评价标准中效果最佳,性能表现明显更加突出。
其他文献
自2014年以来,中国地方政府为解决财政支出方面的债务压力,在基础设施和公共服务领域建设方面开始着力发展PPP模式。该模式结合政府和社会资本方的优势实现了项目资源的合理
电气化铁路作为铁路运输的重要组成部分,近年来得到了迅速地发展。在冬季和早春季节,接触网线的覆冰对于电气化铁路的正常运行来说是最为严重的自然灾害之一。接触网线覆冰会
道岔既是机车车辆转线和过轨的基本设备,又是轨道的薄弱环节,主要体现在构造复杂、使用寿命短、限制列车速度、行车安全性低、养护维修投入大等。为减少车轮轮对对道岔的冲击
文本分类技术作为信息处理的关键技术,一直是学术研究的热点问题。随着近年来人们对深度学习研究的深入,在自然语言处理中也逐渐使用了深度学习方法,其也被证明具有高级文本
水泥作为我国重要的工业材料,在建筑、水利、道路工程等领域均有应用。经过数十年的发展,我国水泥工业历经技术引进、消化吸收和自主创新几个阶段,其生产工艺、装备、自动化
文本在自然场景中几乎无处不见,与图像中的其它目标(如:花草、建筑物等)相比较,自然场景图像中的文本信息具有较强的逻辑性与较丰富的表达能力,可以有效地提供高层次的语义信
功能梯度材料属于复合材料的范畴,它将多种材料按照一定的规律结合,使其结构及力学性能按照一定的规律变化,从而实现对各个组分材料优点的综合利用,弥补了传统单质材料的缺陷
近年来,单细胞RNA测序技术得到了广泛的应用。随着技术的不断发展,使人们能够从中获取到大量的单细胞基因表达数据,为后期的研究以及生物信息学的探索奠定了良好的基础。单细
当今,国民经济的高速发展导致社会主义城市化进度不断推进,越来越多的人口涌向城市。据此带来的社会问题也不断增加,例如:人员拥挤导致踩踏等不安全事故的发生;候车大厅人员
在工业、经济或者科学研究等领域,都存在很多动态多目标优化问题,这类问题不仅包含多个相互冲突的目标函数,而且这些函数又会随时间改变而发生改变。由于动态多目标优化问题