基于深度神经网络的图像描述研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:ac8297090
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述任务旨在使计算机能够根据图像自动生成对应的描述语句,即完成从图像模态到语言文字模态的转换。近年来,随着深度学习技术的兴起,该领域已成为新兴的研究热点并取得了显著进展。尽管如此,仍然存在一些挑战:模态转换的中间表示对于图像语义信息的刻画不够准确;缺乏对历史解码信息和图像背景信息的有效利用;未充分考虑不同粒度图像语义信息的交互。针对上述问题,本文进行了以下三个方面的工作:(1)针对现有方法在模态转换过程中的中间向量难以有效表达图像语义信息的问题,本文提出了一种基于多路长短期记忆网络的图像描述模型。该模型首先使用编码器提取图像的目标区域特征,然后将图像特征和已生成序列输入基于多路长短期记忆网络的解码器,并通过注意力获取文本感知的图像表示,最终解码生成图像描述语句。实验结果表明,与基准实验相比,该模型在MSCOCO数据集上的BLEU-4、METEOR、ROUGE-L、CIDEr和SPICE五个评价指标分数均有所提高,尤其是CIDEr和SPICE评价指标的分数分别提高了1.76%和1.12%。(2)针对现有方法未充分考虑历史解码信息和图像背景信息的问题,本文在基于多路长短期记忆网络的方法上进一步提出了一种基于双重注意力机制的图像描述模型。该模型使用编码器提取图像目标区域特征和全局特征,解码器中引入空间注意力机制和语义注意力机制分别增强图像背景信息和语义上下文信息的表示,最终解码生成图像描述语句。实验结果表明,与基于多路长短期记忆网络的图像描述模型相比,该模型在MSCOCO数据集上的BLEU-4、METEOR、ROUGE-L、CIDEr和SPICE五个评价指标分数均有所提高,尤其是BLEU-4和METEOR评价指标的分数分别提高了1.70%和1.45%。(3)针对现有方法存在不同粒度的图像语义信息交互不足这一问题,本文在基于双重注意力机制的方法上进一步提出了一种融合多粒度图像语义特征的图像描述模型。该模型将编码器提取的图像特征和已生成序列输入解码器,解码器中引入视觉记忆特征来加强图像信息的上下文表示,接着结合不同粒度的图像语义特征预测单词,最终生成图像描述语句。实验结果表明,与基于双重注意力机制的图像描述模型相比,该模型在MSCOCO数据集上的BLEU-4、METEOR、ROUGE-L、CIDEr和SPICE五个评价指标分数均有所提高,尤其是SPICE评价指标的分数提高了2.33%。
其他文献
聚类作为机器学习领域中一项基本而重要的任务,得到了极大的发展。具体来说,该任务以数据标签未知为前提对数据进行分组,应用范围广泛。在过去数十年间,单模聚类的方式占据了主导地位,这种方式仅考虑到样本在特征上的分布情况。然而,最近的研究表明,双模聚类的性能表现通常优于单模聚类。具体地,双模聚类基于样本和特征之间的二元性,即样本可以根据其在特征上的分布进行分组,同时特征也可以根据其在样本上的分布进行分组。
学位
血涂片图像中白细胞的计数和识别对诊断包括白血病在内的某些血液疾病起着至关重要的作用。血液疾病的诊断通常由医生通过显微镜对血液涂片图像进行目视检查,但这种人工的方式既费时又费力,诊断结果依赖医生的经验,较为主观,且容易受到视觉疲劳等因素的影响导致检查精度下降。因此,有必要发展白细胞自动分析技术,而白细胞自动分割是进行白细胞计数和识别等自动分析的基础。本文以血涂片图像中白细胞分割为主题,提出了三种基于
学位
图是一种由结点和边构成的拓扑型数据结构,在金融、生物、社交等领域的复杂系统建模中扮演着重要的角色。常见的图网络数据有知识图谱、蛋白质交互网络和社交网络等,通过对图网络数据的分析可以完成一些重要的任务。例如,社交网络中的用户推荐和社区发现任务、蛋白质交互网络中某个特定蛋白质的功能识别任务、协作网络中某个员工的角色预测任务。图表示学习是一种获取结点或子图低维度嵌入向量的有效方法。与传统的结点嵌入学习方
学位
人体行为识别是计算机视觉领域的一个重点研究课题,被广泛地应用于智慧医疗、增强现实、人机交互、视频教学、智能监控等方面。微软公司推出的Kinect体感摄像机能够高效地捕获人体骨骼数据,这种数据具有良好的运动学特性,它可以很好地刻画人体行为的动态变化。此外,骨骼数据缓解了背景、光照、人物尺度不一致等噪声造成的影响,具有良好的鲁棒性。本文利用Kinect体感摄像机捕获的人体骨骼数据进行了人体行为识别研究
学位
随着互联网和多媒体技术的迅速发展与普及,图像成为信息传播的重要媒介,互联网中的图像数量呈指数型增长,如何对网上的图像进行分类和整理成为一个具有挑战性的问题。在现实世界中,一张图像通常包含多个对象,在图像数量爆炸性增长的条件下,手动标记图像将花费大量的时间成本和人工成本。因此,多标签图像标注算法得到了计算机视觉领域的广泛关注。多标签图像标注算法,亦称图像自动标注或者多标签图像分类,其目的是从有限的词
学位
图像超分辨重建是一种将低分辨率图像通过特定算法恢复成对应高分辨率图像的技术,超分辨率技术在现实生活中有着十分广阔的应用前景。SRGAN(Super-Resolution Generative Adversarial Network)基于生成对抗网络结构进行模型设计,是目前最先进的一种超分辨重建方法。其分辨率提升效果优于其他算法,所恢复出的超分辨率图像具有更丰富的高频细节及纹理信息。然而SRGAN方
学位
时间序列数据在现实生活中随处可见,挖掘时序数据中的隐含信息并对其进行分析具有重大的现实意义。但在某些应用场景中,获取完整的时序数据非常困难或者需要较高的成本。解决这一问题的思路是引入主动学习,即选择少量时序中高价值的样本进行采集或者标记,然后利用这些少量采集到的数据对未采集的部分进行补全。由于不同的已采集数据对于补全效果的影响很大,为了提升补全精度,本文重点研究了时序数据的补全模型和选样策略。在补
学位
社交媒体谣言检测旨在根据社交媒体事件相关信息对事件真实性进行判断,受到了学术界和工业界广泛关注。现有研究中基于深度学习的方法取得显著效果,然而该类方法仍存在诸多局限如:以往方法难以有效利用消息传播过程中用户特征潜在的时序信息;现有模型在获取基于全局的事件文本表示时记忆能力受限;当前研究中未能充分考虑事件多特征之间的交互关系。本文针对上述问题,进行了以下三方面的工作:(1)针对现有研究难以准确刻画消
学位
随着集成电路先进技术节点步入微纳米时代,电路的复杂度呈指数级增长,同时布线过程要求全部总线位均需保持同一布线拓扑结构,尤其还存在布线轨道不均匀以及分布在各布线层的障碍物等问题,这给总线布线过程带来巨大的挑战。本文在当前总线布线研究的基础上,运用基于拆线重布的方法对总线布线过程中所涉及到的拓扑匹配问题展开深入研究,提出了一种在先进制程下的优化方案以解决上述问题。首先提出了基于拆线重布的拓扑匹配全局布
学位
在临床上,对外周血白细胞进行分类识别是血液自动检测中一项重要的内容,实现端到端的外周血白细胞检测有着重要的意义。然而由于外周血白细胞同类之间形态变化大,血液显微图片背景复杂等问题,外周血白细胞识别准确率相对较低。并且现有方法大部分采用的是“先分割后分类”的做法,使得这些方法对外周血白细胞分类的准确性受到了分割效果的限制。针对上述问题,根据外周血白细胞检测的实际需求,本文研究外周血白细胞自动检测的方
学位