基于深度学习的图像文本生成的方法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:lynacc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务是目前人工智能领域极具挑战性的研究课题之一,它的主要任务是让计算机能够识别、理解出图像中的内容并自动生成相应的文本描述句子。人类能够理解并描述出一幅图像中蕴含的信息,能够让计算机具备人类的这种能力有着重大的现实意义。在实际生活中也有着非常广泛的应用,例如,智能人机交互、幼儿早教、信息检索、视觉障碍者协助等。近年来,基于深度学习的图像描述技术发展迅速,特别是神经网络的运用,使得图像描述模型的性能得到很大的改善。通过分析基于深度学习的图像描述技术,同时借鉴神经机器翻译任务取得的阶段性成果,本文提出了一种区别于当前主流方法的图像描述模型来解决复杂场景下的描述不准确问题,其主要工作内容包含以下几点:(1)为了充分提取图像中所包含的语义信息,针对视觉特征信息的在卷积层的传播过程中的损失导致模型无法全面理解输入图像语义的情况,本文提出了一种融合多模型跨层特征的方法,融合低层特征和高层特征,并训练出多个编码器对特征进行提取,实现语义特征和细节特征之间的信息互补,从而学习到更形象具体的描述句子。(2)自然场景图像中经常包含多个目标和复杂的背景信息,对应的描述语句通常也是结构复杂的长句子,当前主流方法(运用RNN或LSTM)在提取长句子的语义信息方面效果一般,且易忽略句子的基本层次结构,对长序列单词的学习效果不佳。为了解决这种情况,本文设计了因果卷积神经网络结构来提取文本特征,实现对长序列单词的有效学习,实验结果表明模型提升了对包含复杂场景信息的图像描述能力。(3)鉴于单个注意力模型在捕获信息时的性能局限以及受多层注意力学习思想的影响,本文提出了融合多层注意力的CNN语言模型用于图像描述,不同的因果卷积层代表了不同的文本概念层次,通过在语言模块使用多个注意力模型对因果卷积层处理文本信息时进行指导,进而可以使模型在每个时间步上都能在每层卷积文本操作时获得额外的视觉信息。此外,本文还从定量、定性的角度、可视化特征图的手段以及消融实验验证了所提出方法的有效性。在MSCOCO和Flickr30k两个数据集上使用不同评估方法对模型进行验证,实验结果表明本文提出的模型性能较好,能够有效提取和保存复杂背景图像中的语义信息,且具有处理长序列单词的能力,多层注意力模块小区域特征信息的注重有加,对图像内容的描述更准确、信息表达更丰富。
其他文献
电能计量装置作为电力系统的基础设施,是供用电双方电能结算的依据。10kV一体化电能计量装置相对于传统计量装置具有体积小、重量轻等优点,是未来计量装置的发展趋势。近年来
ZnO是宽禁带半导体材料,与TiO2相比,其物理化学性能相近,导带电位相差也很小。同时由于电子在ZnO薄膜中的迁移率远大于在TiO2薄膜,减少了电子在薄膜中的传输时间。然后ZnO纳
相变材料(Phase change materials,PCMs)可利用自身相态变化适时地吸收或释放热量,解决能量供求在时间与空间上的矛盾。把相变材料运用于建筑中,利用相变材料的潜热功能来调节
近些年来,自然资源的日益减少和人们对环境保护的日益重视使得汽车这一作为资源消耗型产品得到了诸多的关切。在汽车发展历程中,节能减排始终是其中的主旋律之一。由于技术瓶
装配式建筑在我国进入了高速发展时期,提升PC构件布料机的功能和效率成为设备厂家和有关机构的研究热点。在人机交互效率方面,目前的遥控器或触摸屏交互方式存在输入不便或观察不便等问题,因其设备功能单一、不便扩展,效率提升困难,而智能移动终端的日益广泛应用和开放式用户通信的出现为解决此问题提供了有效途径。本文的目的就是在开放的标准以太网通信下用智能移动终端取代遥控器和触摸屏来进行布料机控制,提供灵活的功能
大跨度空间网格结构健康监测系统中,传感器的优化布置问题是结构损伤识别、健康状态评估和后期维修加固决策与实施过程中的关键性问题,如何用有限数量的传感器在工程结构健康
随着新能源广泛应用,电动车发展倍受关注。近些年来,我国经济持续发展,交通拥堵和环境污染问题逐步严重,为汽车寻找新的能源,以绿色环保汽车代替燃油汽车是必由之路。同时,我
基坑工程是一项传统的、复杂的岩土工程,在基坑开挖过程中不仅涉及基坑强度、稳定性问题,还要严格控制基坑变形。随着经济发展,各种超大型基坑兴起,开挖越深,地下水问题逐渐
纳米电子器件在近些年受到了广泛关注。而作为最基本的功能型分子器件的分子整流器,在未来的电子逻辑电路中发挥着重要作用。关于如何提高整流器件的性能,科学家们在理论和实
行人再识别是一种热门的计算机视觉算法,其利用生活中的监控摄像头拍摄的图像实现行人跨区域再次检索,即行人跨境追踪。行人再识别算法的研究对于推动公共安防事业的发展有着