多目标语言图像描述模型的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：lynnshe

【摘要】

：

图像描述任务是自然语言处理和计算机视觉领域的交叉课题,近些年引起了国内外学者的广泛关注。随着人工智能技术的兴起,很多有效的图像描述模型被提出,但是大多数模型都将长

【作者】

：

张玉龙

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

图像描述深度学习 LSTM Transformer 多任务学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像描述任务是自然语言处理和计算机视觉领域的交叉课题,近些年引起了国内外学者的广泛关注。随着人工智能技术的兴起,很多有效的图像描述模型被提出,但是大多数模型都将长短时记忆网络(Long Short-term Memory Networks,LSTM)作为生成器,而LSTM存在不能很好支持较长序列依赖的缺点,成为了基于LSTM的图像描述模型的性能瓶颈,导致现有模型不能很好学习较长句子中的上下文信息。目前的图像描述模型一般只能针对一种目标语言进行生成,而在很多应用场景中需要不同语言的文本,图像描述作为一种应用广泛的技术不应受到语言的限制。本课题针对以上问题展开了研究。针对目前模型支持较长序列依赖能力较差的问题,本文对图像描述模型的原理和目前先进的机器翻译模型展开研究,提出了一种基于机器翻译模型的图像描述模型。该模型利用机器翻译模型中现有的编码器和解码器结构,并融入预训练的卷积神经网络和一些解决特定问题的网络结构,能够更好学习较长句子中的上下文依赖信息。本文通过对比模型在句子长短分布不同的数据集上的表现验证模型的有效性。实验结果表明,提出的模型在较长句子分布较多的数据集中表现优于基于LSTM的图像描述模型。本课题从多任务学习和机器翻译模型的角度出发,研究如何解决目前模型的语言限制问题,通过借鉴多任务学习中的参数硬共享模式,提出了一种多目标语言图像描述模型。该模型具有多种能够生成特定目标语言的解码器。通过在中英文数据集上的实验结果表明,提出的多目标语言图像描述模型相比现有的单目标语言图像描述模型能够生成多种语言的文本描述并在性能方面获得一定提升。为了进一步提升模型的性能,本文对现有图像描述模型的优化方法展开研究。本文分别在模型提取图像特征和生成描述的过程中对其进行了优化。通过模型在不同数据集和不同优化参数下的表现中验证了方法的有效性并选择性能最佳的模型。实验结果表明,优化后的多目标语言图像描述模型生成的英文图像描述能够达到目前研究的较好水平。

其他文献

网络寻衅滋事犯罪若干问题探析

随着信息时代的到来,互联网对人类社会的影响日益加深,一些违法犯罪活动也将触角伸向了网络空间,网络寻衅滋事犯罪就是其中一种,它是传统寻衅滋事犯罪在网络空间的异化,也是

学位

网络空间寻衅滋事公共场所起哄闹事公共秩序虚假信息

基于改进BP神经网络的RFID指纹室内定位算法研究

随着通信技术的发展,生活中基于位置的服务应用越来越广泛,使得室内定位技术的研究越来越受到重视。由于室内的环境相对复杂,干扰众多,如何提高室内定位精度是目前室内定位领

学位

室内定位RFID指纹室内定位算法混合滤波算法BP神经网络烟花爆炸算法

单桥“寄生中频”双频感应加热电源的研究

感应加热技术是利用法拉第电磁感应定律,在时变的磁场中产生涡流,从而给工件进行加热,目前广泛应用在冶金、机械加工、国防等工业领域中,相比于传统的直接加热技术,具有加热

学位

感应加热寄生中频同步双频频率跟踪

胸腺五肽对胃肠道恶性肿瘤手术患者围手术期免疫状态及近期疗效影响的临床研究

目的:本研究收集我院60例胃肠道恶性肿瘤手术患者,探讨应用胸腺五肽对患者围手术期免疫功能的影响,并分析患者免疫功能的变化对其术后近期疗效(术后感染发生率、吻合口瘘的发生率和胃肠功能恢复时间、术后住院时间)的影响,并评估临床应用价值。方法:我们从2017年6月至2018年10月于我院行腹腔镜下胃肠道恶性肿瘤根治术的患者60例,数字随机表法随机分为两组,观察组30例(常规治疗+胸腺五肽肌肉注射10mg

学位

胸腺五肽胃肠道肿瘤围手术期免疫功能并发症

基于生成对抗网络的异质人脸图像转换

异质人脸图像的转换指将人脸图像从一类视觉域,经过合成算法转换到另一类视觉域。随着计算机视觉和深度学习算法的不断发展,异质人脸图像转换在公安安防系统、智能美妆、社交

学位

异质人脸图像转换无监督学习深度学习生成对抗网络

基于深度学习的服饰图像识别定位及检索的研究

近年来,服饰图像的研究随着计算机视觉技术在视觉时尚领域的快速发展而引起越来越多人的关注。当前,在服饰时尚领域主要围绕服饰图像识别、关键点检测、服饰推荐、检索和搭配

学位

服饰识别关键点检测空洞卷积特征融合

隧道补偿多量子阱红外探测器

红外探测器是将红外辐射能量转换成便于计量的物理量的器件,广泛应用于军事、气象、农业、工业、医疗等领域。半导体红外光电探测器有多种结构。其中,量子阱探测器具有良好的均匀性与较高的可靠性,适合于大规模焦平面阵列的制作。同时,它们适用于制作双色和多色探测器。然而,量子阱红外探测器的工作原理决定了探测器的性能难以提升。多数研究人员致力于提高器件光耦合的效率。但也有研究人员提出了改进器件内部结构的方法。其中

学位

红外探测器隧道补偿多量子阱

基于语义分割压缩编码的中文文本识别

图像文本识别作为环境感知型的一种计算机视觉任务,广泛用于自动化纸质文档识别、自动驾驶和场景语义理解等任务中。近些年,基于深度学习的文本识别方法逐渐成为研究人员关注

学位

文本识别语义分割大类别分类压缩编码

计算机图形制作项目管理系统的设计与实现

"CG"为Computer Graphics的英文缩写,是通过计算机软件所绘制的一切图形的总称,随着以计算机为主要工具进行视觉设计和生产的一系列相关产业的形成,国际上习惯将利用计算机技

学位

计算机图形制作项目管理B/S模式分层开发Ajax权限控制

基于交换机迁移和多路径路由的SDN负载均衡研究

随着大数据、云计算等计算机网络技术迅猛发展,网络流量产生的数据呈现出爆炸式增长的趋势,传统网络正面临着底层资源管理不当、可扩展性差等方面的挑战。近年来出现的软件定

学位

SDNOpen Flow交换机迁移多路径路由负载均衡

多目标语言图像描述模型的研究

与本文相关的学术论文