基于深度学习的视觉信息自然语言描述方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:zdc8814844
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机网络的普及和多媒体信息技术的快速发展,社交媒体早已成为人们生活不可或缺的一部分。网络中流传的海量多媒体数据,意味着人类社会进入了大数据时代。在这样的背景下,图像和视频因其能够便捷的记录和丰富我们的日常生活,已经成为目前最为流行的数据形式。在当前火热的人工智能领域,对于如何让计算机更像人一样的具备思考能力,让计算机理解并自动的用自然语言描述图像和视频等视觉信息的研究越来越引起人们的关注。视觉信息描述作为其中的代表性研究,在多媒体信息分析,人机交互,帮助视力障碍人群等方面有很多潜在应用价值。目前,很多国内外的研究学者在图像和视频等视觉信息自然语言描述领域展开大量研究,但是在视频描述方面,如何精确的获取视频中动态的视觉特征和语义信息仍是目前的研究难题。近年来,编码-解码框架被广泛应用在视觉信息描述任务中,其中因为时域注意力机制能够很好的揭示视觉信息和描述语句单词之间的关系而成为目前相关研究的主要方法。但是对于视频而言,大多数方法在获取精确的视觉特征和语义信息方面仍存在不足之处。本文从获取精确的视觉特征和更好的运用语义信息和视觉信息的动态关系两个方面提出了两个用于视频自然语言描述的方法:1)基于细粒度时空注意力的模型:通过对视频提取细粒度的视觉信息,获取目标区域级别的精确视觉特征,实现硬性空间注意力,再通过基于时域注意力机制的LSTM网络,保证描述语句的单词能够准确的和相关视觉特征对应,提高描述语句的准确性;2)基于视觉和语义的双流注意力模型:通过同时对视频提取视觉特征和语义特征,采用基于时域注意力机制的LSTM网络,实现对多模态信息的动态选择,进而提高描述语句的准确性。本文对提出的模型在两个公开数据集MSVD和MSR-VTT上进行了大量的实验,通过与其他方法的对比验证了我们所提出方法的有效性。
其他文献
航空发动机是一种在复杂载荷工况下工作的复杂机械装备。随着其性能的不断提高,对于航空发动机结构振动特性预测准确度的要求也逐渐提高。并且,由于发动机各个部件的结构复杂
随着高速动车组技术的快速发展,人们对高速动车组列车运行的舒适度要求越来越高,车辆运行时产生的振动对乘客舒适性与旅途安全性造成了极大的影响,其中,列车横向振动是影响旅
淡水资源短缺是二十一世纪最严重的全球性问题之一。太阳能热局域蒸发技术由于其高效的光热转换效率和优良的蒸发性能,在解决淡水资源短缺问题上具有巨大的潜力。本论文从热
挥发性有机化合物(Volatile Organic Compounds,VOCs)是一类有机化合物的统称,它作为一种重要的大气污染物,对人类活动和自然环境的危害严重,因此逐渐受到越来越多的重视。目
随着移动电话和其他定向相机设备的爆炸性增长,人们捕获和存储了越来越多的视频数据。由于大数据带来的信息冗余度高的可能性,人们希望能更加全面且智能的利用这些数据信息中
黄土是一种非饱和土,具有分布广泛、结构疏松、工程性质差的特点,因而有关黄土的地质灾害和工程问题层出不穷。在工程建设问题中,非饱和土的抗剪强度问题与非饱和土工程稳定
在推进素质教育的发展形势下,随着教育教学的不断深化和改革,越来越的教学模式涌现在各科的教学中。当然,健美操的教学也不例外。传统教学不能满足学生学习的需要。所以,要与
随着信息技术的发展,信息安全问题越来越受到人们的重视,在线身份认证技术由传统的方式逐渐向生物认证方式发展。然而生物认证技术给生活带来便捷的同时也带来了新的安全问题
钢围套局部约束钢筋混凝土柱加固法是基于约束混凝土概念,在传统钢管约束混凝土柱加固法基础上改善而来,该加固法仅针对柱身局部薄弱段进行加固,通过剔除一定深度柱身加固段
氢氧稳定同位素作为天然示踪剂,在不同环境水体来源指示研究中有着广泛的应用。相对于直接关注氢或氧的稳定同位素比率(即δ2H或δ18O)而言,氘盈余(d=δ2H-8×δ18O)综合考虑