基于深度学习的图像描述技术研究

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:hsmwdevil
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来,图像描述逐渐成为人工智能领域内一个新的研究热点。图像描述任务是连接计算机视觉领域与自然语言处理领域的一项基础任务,其目标是使计算机能够自动生成能够准确描述输入图像内容的自然语言语句。图像描述任务需要利用计算机视觉中的相关技术以及自然语言处理中的相关技术。图像描述任务将图像内容转换为描述图像内容的自然语言文本,可以加深对图像内容的理解。虽然编码器-解码器结构在图像描述任务中取得了广泛的应用,但是现有的方法还是存在问题,主要表现为以下几个方面:1)对于图像中的空间区域信息的利用不够充分,导致生成的描述语句中缺少对一些目标的描述;2)解码器通常采用单层循环神经网络或者单层长短时记忆网络,语言建模能力有待提高;3)基于循环神经网络的解码器依赖时间序列的顺序,导致其训练过程并行度不高,无法充分利用高性能图形处理单元的并行计算能力。针对目前图像描述任务中存在的问题,本文提出了新的图像描述模型,主要的研究内容如下:1.为了图像描述模型能够更加充分地利用图像空间区域特征,本文采用了基于特征金字塔网络的Faster R-CNN目标检测算法,提取图像多尺度区域特征。2.为了在生成描述语句时更加充分地利用图像区域特征,本文设计了多注意力机制,在解码输入与输出阶段均使用了注意力机制,能够更加充分地利用图像区域特征,提高模型性能。3.结合多尺度区域特征与多注意力机制,提出基于多尺度图像区域特征与多注意力机制的图像描述模型4.为了提高模型训练过程的并行度,提高解码器语言建模能力,提出一种基于多模态Transformer的图像描述模型。通过堆叠注意力层,本文模型能够构建深层解码网络,提高语言建模能力,并且该模型不依赖时间序列顺序,因此能够更加有效地进行并行训练,提高模型训练时并行度。最后,通过和其他图像描述模型比较,本文所提出的模型的性能以及生成描述的质量得到了验证。
其他文献
近年来,随着科学技术的飞速发展,当今社会开始进入了大数据时代,而图像、视频数据作为信息的主要载体更是占据了重要的地位。人体行为识别成为了现如今热门的研究领域,已取得了丰富的研究成果,并在视频监控、公共安全、环境控制和检测、运动分析等领域得到实际应用。在行为识别的研究范畴中,大致可分为基于单人的行为识别、基于双人的行为识别和基于多人的行为识别。基于单人的行为识别已有很多研究成果,而与单人行为相比,双
学位
随着无线网络技术的迅猛发展,以及我国将物联网作为战略性新兴产业上升为国家发展重点,工作在ISM频段的无线网络设备数量呈指数型增长。这推动着单一网络环境向异构网络环境不断演进。在这一过程中,对于异构网络中不同设备之间相互通讯的需求不断增加。然而,传统的数据分发方案受限于单个节点的通讯范围和不同网络设备之间冲突等诸多方面的影响导致数据分发的效率不断降低,同时也不适用于异构网络所特有的网络模式。针对这些
学位
链路预测有助于人们高效地从复杂网络中挖掘出丢失数据、新生数据以及虚假数据。基于网络拓扑结构相似性的链路预测算法是链路预测的热点研究方向,但是该类算法目前仍存在预测精度不够高的问题,主要原因是该类算法忽略了实际网络存在演化特性和算法自身不具备网络自适应预测能力,于是本论文提出了基于未来共同邻居的相似性链路预测模型。因此本论文的创新点和主要工作如下:1.通过分析现实网络连边形成的机制和网络的动态演变过
学位
大多数复杂疾病都与基因相互关联,寻找与疾病相关的易感基因是分析和了解相关疾病可能发病的机理、设计相关疾病的易感基因诊断方法的重要理论基础。全基因组关联研究(Genome-Wide Association Study,GWAS)是一种系统性地搜寻与人类相关疾病易感遗传基因的生命科学研究方法。该方法通过对于人体的全部的基因组的关联分析,可以全面地揭示与疾病的发生、发展与其治疗密切相关的易感基因。传统的
学位
基于视频的人体行为识别是计算机视觉领域的重要研究方向之一,能够应用于智能监控、人机交互、视频内容检索等众多领域中,具有非常广泛的应用前景。在互联网技术快速发展的今天,网络视频数量呈现爆发式增长的趋势,对视频数据处理的效率与质量提出了更高的要求。由于人体行为在时间上的连续性以及动作的复杂性等问题,如何高效准确地从视频中提取人体行为的特征仍面临巨大的挑战。近年来,深度学习技术在图像分类、目标检测等任务
学位
去中心化是区块链技术的核心价值,该特性保证了区块链系统的安全性,但也为其数据管理带来了众多问题,如数据存储完整性、隐私泄露和存储性能差等。该类问题导致区块链应用在设计开发过程中代码量骤增或冗余,以至于开发效率降低。设计模式是软件开发过程中一般问题的解决方案,它的引入可以为解决区块链数据管理相关问题提供便捷的途径,对其进行服务封装更可以提高应用开发效率。论文对基于区块链的数据管理设计模式与服务进行了
学位
手绘图像检索是一种通过手绘图像检索自然图像的检索技术。允许用户通过线条随心所欲地描绘头脑中想要表达的事物以作为检索输入,这是手绘图像检索最为主要的优势之一,然而手绘图像绘制过程中的主观性会带来语义模糊问题,这同样给手绘检索带来了挑战。手绘图像缺少颜色、纹理等细节信息,一般仅包含物体轮廓,因此通过整体视角进行观察,对于手绘图像语义理解至关重要。然而,本文通过调研发现,手绘图像的整体性在现有工作中并未
学位
手绘图像作为一种新型的视觉表达方式,能够高效,灵活地描述物体的外观和结构。然而在手绘图像检索领域(Sketch Based Image Retrieval,简称SBIR)中,手绘图像则存在特征稀疏,易于形变等问题。手绘图像由一系列简单的线条构成,是一种高度稀疏的表达方式,因此传统图像检索的方法无法对手绘图像中的内容进行有效地描述;另外不同的人群绘画出的手绘草图在外形上也具有较大的差异性,这导致手绘
学位
国内大部分油田处于勘探开发中后期,易于发现的油田越来越少,探明储量以隐蔽性油藏为主,但隐蔽性油藏难以发现。有利区预测是勘探开发过程中非常关键的一步,但传统有利区预测受限于现有的理论和方法,在地质条件复杂、地震属性种类多、地震属性相关性差的情况下,地震属性与有利区类别之间的对应关系难以确定,容易产生预测过程中的多解性问题,且地质勘探人员一般仅采用2-3种常规地震属性进行预测,忽略了其它未使用地震属性
学位
石油作为我国重要能源之一,被广泛应用在交通工业、建材工业、化工工业等各大领域中,因此石油的高效开采对我国来说是非常重要的。由于我国大部分油田都属于高含蜡油田,在开采等过程中存在着结蜡现象。该现象使得油井直径变小、油杆负载变大,进而导致石油的开采效率降低、成本增加,更为严重时,导致油井停止生产等故障,降低经济效益。由此看来,如何有效的预测油井结蜡对石油高效开采具有重要研究意义和应用价值。本文采用随机
学位