基于双重注意力机制的图像中文描述生成方法研究

来源 :天津工业大学 | 被引量 : 0次 | 上传用户:Whoafraidwh0
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像描述融合了计算机视觉与自然语言处理两个方向,是用人工智能算法解决多模式、跨领域问题的典型代表。目前该领域的研究大多数是基于编码器-解码器架构的神经网络描述模型,神经网络描述模型存在描述单一、准确率低、图像内容不一致等问题。另外,由于目前开源的数据集大多是英文的,所以对图像描述领域的研究主要以英文描述为主。中文描述通常在句法、词法上灵活度较大,算法实现的难度也较大,只有少数人对图像的中文描述进行研究。现有研究虽然取得了不错的结果,但仍存在一些问题,比如:模型生成的描述句与图像表达内容存在一定的偏差、生成的图像场景描述准确率低、语言单调等。针对以上问题,本文提出了基于双重注意力机制的图像中文描述生成方法。本文在NIC模型的基础上,以Inception_v4网络作为编码器,引入视觉注意力机制的LSTM网络作为解码器,并通过实验验证基于视觉注意力的图像描述生成模型在Flickr8k-cn和Flickr30k-cn中文图像描述数据集上的性能优于NIC模型。针对NIC模型和本文提出的基于视觉注意力的图像中文描述模型依然存在生成的图像场景描述准确率低、语言单调的问题,本文引入双重注意力机制进一步优化模型,在编码阶段用Inception_v4网络和双层LSTM网络分别提取图像的视觉特征和文本描述的文本特征,解码阶段通过关注图像和文字的特定区域文本信息,融合两种注意力机制的重要信息,最后通过多层感知机网络输出图像的中文描述语句。使得模型能够从图像中捕捉到更多重要信息,从而提高中文描述语句的流畅性和句式的丰富性。通过实验对比神经网络模型、注意力模型及双重注意力模型的收敛程度,本文模型困惑度的收敛值比神经网络和注意力模型分别低5%和6%,说明本文模型生成的描述更加符合中文语言环境。通过对比三种模型生成描述的评测指标,双重注意力模型相比单层视觉注意力模型在BLEU-4、ROUGE-L、CIDEr指标上提高了10.7%、6.2%和1.8%,说明双重注意力模型生成的描述句式更丰富。本文在最后还与目前该领域的采用主题词预测方法的B-NIC模型和采用多模态方法的FNIC模型进行比较,在反映图像与文本之间相关性的ROUGE-L指标上分别提升了8.7%和3.9%,进一步说明采用双重注意力的方法生成的中文描述更加自然、更加符合图像所表达的内容。
其他文献
人脸图像超分辨率重建是提高人脸图像分辨率、增强视觉效果的关键技术之一,在计算机视觉、视频监控、公共安全等领域得到广泛的研究与关注。然而,在雾霾等极端天气下或远距离采集人脸图像时,受照明、噪声等退化因素影响,导致采集的图像具有模糊、变形、分辨率低等降质缺陷,从而影响图像或视频的实际应用性能。本文通过研究国内外图像去雾和超分辨率重建技术的相关文献资料,分析目前常用的图像去雾算法和超分辨率重建算法。针对
安防监控技术在各个行业领域内都有着重要的作用,而低成本、高质量的安防监控技术一直都是消费者们所追捧的目标之一。为增强可靠性,现代的安防监控系统通常采用增加摄像头的方式来减少监控死角的存在,但是增加设备必然也将导致系统成本的提升。而采用广视角鱼眼镜头的监控系统则可以在使用较少摄像头的情况下获取到更广阔的监控范围,这意味着选购这类监控系统的消费者可以用低廉的价格获取到高质量的服务。单个鱼眼摄像头的视角
不真正不作为犯是不作为犯罪的非典型形态,因其在刑法规范中未被明确规定构成要件要素,因而与真正不作为犯存在差异。不真正不作为犯的概念应同时涵盖实质要素和形式要素两个
随着人工智能、计算机视觉以及大数据等新兴技术的迅猛发展,极大的推动了移动机器人技术与目标检测技术步入人们的生活,使得人们的生活向着智能社会迈进。移动机器人SLAM技术
随着上海市老龄化程度的加深,老龄化问题倍受国家、政府和社会的高度关注,已逐渐成为我国亟需应对的一项关系民生的重大社会问题。公共体育服务作为我国公共服务事业的重要一部分,在应对老龄化问题,合理配置公共体育资源,提升老年人获得感、幸福感,促进老年人积极老龄化、健康老龄化方面发挥着重要的作用。目前,上海市已经进入深度老龄化阶段,特别是徐汇区老龄化水平较为严重,随着徐汇区经济发展水平不断提高,“全球著名体
随着经济全球化的不断发展,高等教育国际化已成为教育改革与发展的必然趋势。《国家中长期教育改革和发展规划纲要(2010-2020年)》中明确指出,要“提高教育国际化水平”,“到2020年,……高等教育国际竞争力显著增强”。武术作为中华民族文化的瑰宝,其深厚的文化与健身价值逐渐受到认可与重视。但随着中国武术国际化的不断发展,也逐渐暴露出了“武术国际化人才匮乏”的问题。高等体育院校作为培养武术专业人才的
移动自组网(MANET Mobile Ad-hoc Network)是通过多个移动节点自发组织而成的一个临时的,多跳的,无中心的无线局域网络。在网络中没有控制节点,所有节点都可以发送或接受数据
法律上的落后产能系指生产结果或后果落后于行业平均水平,且负面影响大于正面影响的产能。根据其正面影响的紧迫性与可替代性,可将其进一步划分为可限期淘汰的产能与应立即淘
磁力耦合器作为一种以电磁感应为原理的永磁传动装置广泛应用于电力、石油化工、泵、水处理、农业灌溉和其他工业领域,该耦合器主要通过相互隔离的永磁转子与导体转子实现无
随着人工智能、大数据、工业互联网等技术的兴起,世界制造正朝着智能化、互联网化、自动化方向发展,我国制造业也正处于智能化转型的关键时期。我国提出“中国制造2025”,要