基于深度学习的图像字幕生成方法研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:luohz09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当今正处于移动互联和流媒体的时代,每天都会产生海量的数据。种类繁多的大量数据为数据分析工作带来了极大的挑战,如何从多种模态、数据量巨大的数据中挖掘有效信息成为了一个热点“话题”。图像字幕生成技术是一种跨模态分析任务,即数据从图像模态到文本模态的转换。该技术的目标是为图像生成一段能够自然表达该图像的文本,是一种多领域交叉学科的研究问题。本文将从研究背景及意义、国内外研究现状等方面详细介绍图像字幕技术,并从不同的角度对图像字幕生成模型和方法进行分析研究,具体研究内容如下:
  (1)针对图像字幕技术中视觉信息和语义信息无法有效利用以及生成字幕缺乏语法可读性的问题,设计了一种基于注意力平衡机制和语法优化模块的图像字幕生成框架。首先,模型从图像中提取并编码图像中的视觉和语义信息,并利用多任务学习的方法获取图像的主题;其次,模型分别计算视觉注意力和语义注意力,获取与当前生成词汇的时刻相关的视觉特征和语义特征;再次,模型将得到的视觉注意力特征和语义注意力特征输入到注意力平衡机制中,并根据当前时刻的信息权衡两种注意力信息;最终,模型把加权后的注意力信息输入到语法优化模块中,该模块由长短时记忆网络和有序神经元长短时记忆网络组成,它有效增强了生成字幕的语法可读性。实验证明,该方法能够有效且合理地选择图像中的信息,并增强了生成字幕的语法可读性。
  (2)针对图像字幕中缺乏风格化知识和不能有效融合图像客观信息与风格知识的问题,设计了一种基于风格注意力机制和反向强化模块的图像字幕生成框架。首先,模型从图像中捕获并编码视觉信息,并将其输入到风格-Transformer中的编码端,这是为了从高、低两个层级编码图像特征;其次,深度编码后的特征输入到风格-Transformer的解码端中,其风格注意力模块为生成的字幕融合风格知识;再次,生成的字幕输入到反向强化模块中,从视觉和风格两个方面对字幕生成模型进行优化;最终,整个模型通过预训练和微调两个阶段的训练,使得生成字幕融合了风格知识和图像客观信息。实验证明,该模型有效地解决了客观图像字幕中缺乏风格知识和风格化字幕不能兼顾图像客观信息和风格知识的问题。
其他文献
多输入多输出(Mutiple-Input Mutiple-output,MIMO)通过其空间复用和分集能力可有效提升无线通信系统的吞吐量和可靠性,是新一代移动通信系统中的关键技术之一。预编码通过在发射端对发送信号进行预处理,可有效抑制数据流间干扰,从而提升系统容量和资源利用率,因而是MIMO系统性能得以实现的重要技术手段。传统预编码技术一般通过统计分析和高级信号处理技术设计固定的算法,对环境的动态
近年来,物联网、人工智能以及区块链等技术的快速发展使得人们生活质量更加优越,人们对物联网设备(智慧手环、智能音箱和手机等)需求量不断增加。然而,大多物联网设备被制造时都存在缺少防火墙软件和密钥口令较弱等安全问题。攻击者可以利用这些存在安全隐患的物联网设备对物联网中的其他物联网设备发动分布式拒绝服务攻击(Distributed Denial of Service,DDoS)消耗被攻击者系统资源或网络
蛋白质是生命活动的主要承担者,充分了解其结构和相互作用对于疾病的治疗及新型耐抗性药物的研发具有重要意义。然而已知蛋白质的数量增速极快,通过直接观测的方式确定其三维结构面临着成本过高,速度过慢的问题,因此如何成功预测蛋白质三级结构成为了热门研究方向。本研究创新性运用生成对抗网络(GAN)和双向长短时记忆循环网络(BiLSTM)技术对蛋白质二级结构进行预测,有效发挥了承上启下的关键任务,为解决直接利用
学位
制造业是我国的支柱产业,随着中国制造2025的提出,数字化、网络化、智能化是我国制造业未来发展的基本方针。但随着制造业的快速发展,其设备参数关系复杂、关系相互制约、不易管理人员分析等问题也随之出现,而设备参数的设定又是决定产品质量的重要因素之一,因此参数优化是整个制造过程优化中重要的一部分。而复杂的数据关系可以利用知识图谱来进行梳理,可以让管理人员更加容易的理清其中的关系,因此如何利用知识图谱对参
学位
随着大数据时代的到来,与其关系紧密的人工智能技术得到了跳跃式的发展,文本信息的数量不仅展现出跳跃式的增长趋势,还逐渐显现出多标签、多粒度,高复杂性的特点。为了对文本信息进行更为效率的分类管理,实现文本内容的有效保留和准确过滤,研究者们近年来开始关注于自然语言处理领域中最具有普适性的多标签分类技术。基于深度学习的多标签分类方法能够自动地为文本序列中具有显著意义的信息赋予标签,进而实现对文本数据的高效
学位
随着计算机和多媒体技术的高速发展,网络信息化已然成为社会和经济发展的重要趋势。政府、军事、文教等诸多领域的海量信息都在网络空间中存储、传输和处理。开放的网络环境难以避免的吸引了来自世界各地的各类网络攻击(例如信息截取、信息窃听、数据篡改、数据伪造等)。为了保障网络数据传输的安全性,研究者提出了可逆信息隐藏(Reversible Data Hiding,RDH)算法,发送者通过该算法将秘密信息以肉眼
学位
抑郁症是一种常见且高发的精神障碍疾病,现有的评定过程复杂且相对主观,其有效诊断问题亟待解决。面部活动是人情绪变化的主要外在表现,通过面部特征可以研究抑郁症患者的心理活动和精神状态。抑郁症患者长期受疾病的影响,肢体动作方面临床表现为动作迟缓、身体协调能力下降、反应滞后等特点。本文主要基于面部特征、肢体动作和多模态抑郁症识别展开研究,主要工作为:(1)基于面部特征抑郁症识别。面部特征数据采集自受试者汉
学位
随着大数据时代的来临,越来越多的数据需要被存储和处理,这不仅需要海量的存储设备,还需要计算机拥有强大的数据处理能力,从而高效地完成数据处理任务。在这样的时代背景下,深度学习应运而生,并迅速应用到制造、医学,交通、金融等各个领域。深度学习技术的快速发展以及大规模带标注图像数据集的广泛使用,使得计算机视觉技术在图像处理方面有非常大的突破,尤其是在目标检测领域。计算机视觉中的目标检测任务主要包括两大部分
学位
我们在现实生活中面临的大多数决策和规划问题常常受多个因素影响,这些因素之间有可能相互冲突,但又需要通盘考虑,这就类似于对一个多目标优化问题求解。目前,智能优化算法在解决多目标优化问题方面取得了很大的进展,但仍然存在很多一些不足。例如,多目标优化算法面对一些复杂问题时,会出现过早收敛和解分布不均的情况,对于不同的多目标问题,解决效果常常参差不齐。本文在对多目标优化问题做了大量深入研究的基础上,对多目
目前,心血管疾病已经成为危害人类健康的重大疾病,此类病患数量不断增长。心电图(ECG)是医生诊断该心血管疾病的重要依据,能真实地反映心脏的健康状况。此背景下,医疗资源匮乏与患者数量激增之间的矛盾日益凸显。利用计算机辅助诊断心血管疾病变得尤为重要,因此对于心电图自动分类方法的研究具有很强的现实意义。传统方法大多基于单一心拍的分类,忽略了整条心电图记录中,各心拍之间的局部特征和位置关联特征;现有分类方
学位