基于深度编解码框架的视觉数据理解

来源 :国防科技大学 | 被引量 : 2次 | 上传用户:eddiechen3
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
视觉数据理解就是挖掘图像和视频中的信息,并形成结构化的描述性文字,一定程度上跨越视觉数据与人类理解间的语义鸿沟。随着大数据时代的推进,人类对视觉数据的分析能力已经远远低于人类获得视觉数据的能力,迫切需要通过视觉数据理解方法,将图像和视频这类半结构化或非结构化的数据转化为计算机可直接理解的结构化数据。这种迫切的需求促使了传统机器学习方法的变革,深度学习技术诞生。本文根据视觉数据的特性,将视觉数据理解统一为序列识别问题,利用深度编解码框架解决此问题。自然场景下的视觉数据分为图像和视频,由于视频中帧与帧之间存在时间和空间的关联性,所以本文将视频和图像分开考虑,分别研究了图像理解方法和视频理解方法。这两类理解方法可以解析图像和视频中的中层和高层语义,并输出描述性文字。虽然描述性文字包含了视觉数据语义信息,但没有对视觉数据中出现的文字进行解析。文字作为视觉数据中重要的信息载体,同样包含了丰富精准的高层语义。本文在研究图像和视频理解的同时,对自然场景文字识别方法进行了研究。具体地,本文的研究成果包括:(1)提出了一种基于多向二维长短时记忆网络的图像理解方法。在传统的编解码模型中,CNN全连接层的存在使得图像的局部信息丢失。在编码阶段,本文利用二维长短时记忆网络来编码由CNN提取的图像的深度特征图,将图像中对象间的相关关系编码为局部特征。同时,参照多向一维长短时记忆网络可以从前后两个方向编码一维数据,模型从四个方向利用二维长短时记忆网络来编码图像的特征图,从而使局部特征中的信息更加多元。在解码阶段,模型同时利用图像的局部特征和全局特征来进行解码。实验结果表明,本文提出的模型在评价标准Retrieval和BLEU上好于当前的LRCN模型,并在BLEU-1标准上高于其4%。(2)提出了一种基于注意力机制的商品属性描述方法。现阶段的图像理解方法,由于模型本身以及训练集的限制,导致所得的描述性文字只包含对象的类别及对象间的关系,忽略了对象属性信息的描述,而这些属性信息往往是构成图像语义信息的重要元素。传统的注意力机制聚焦的是对象类别的特征,而非对象属性。本文针对此问题,对注意力机制进行改进,将特征图的通道作为注意力机制所需要聚焦的一个维度,提出了通道注意力模型和空间通道注意力模型。本文通过对商业网站ETSY上的数据进行收集和预处理,构建了对衣服属性描述的数据集ETSY-C。实验结果表明,本章提出的模型能够提取商品的属性信息,好于基于空间注意力模型的图像理解方法。(3)提出了一种基于注意力机制的视频理解方法。现阶段的视频理解方法利用CNN编码视频序列为特征序列,然后将特征序列整合为一个特征向量。虽然CNN能够提取视频帧的深度特征,但是简单的将视频的特征整合为一维的特征向量不免损失了视频帧间的关系信息。在这种情况下,受注意力机制的启发,本文将注意力机制融合到编解码框架,通过注意力机制在不同时刻聚焦特征序列中相关的特征,以此作为解码阶段长短时记忆单元的输入,使得模型能够在弱监督的情况下自动挖掘视频帧间的关系。将模型与相关方法在标准数据集上进行对比发现,本文的模型在多个评价标准上接近或者超越了CNN-LSTM-FF模型。(4)提出了端到端训练的自然场景文字识别方法。传统的文字识别方法都是基于自底而上的方式,这种方式需要将输入的图像分割识别然后组合,独立训练的检测器、分类器和整合器的级联使得最终识别的效果不佳。本文将注意力机制和编解码框架结合,在不分割输入图像的情况下,实现了自然场景文字识别的端到端训练。文字是由字符串组成,单个字符不仅与其前方的字符有相关性,还和后面的字符存在一定的相关性。考虑到注意力机制对特征的全局信息提取能力较差,本文在注意力机制和编解码框架结合的基础上,引入了审查网络来整合特征的全局信息。实验结果表明,本章提出的模型是现阶段效果最好的自然场景文字识别方法。
其他文献
为了进一步优化网络的资源利用率与服务质量,5G 网络在端到端角度将全面引入软件定义网络以及网络功能虚拟化技术,针对 行业客户具有网络切片服务能力,能为多种行业物联网终
[摘 要]就我国目前的建筑行业发展来说,工程造价的动态管理与控制水平还处于探索阶段,需要进一步优化与完善,才能提升总体造价管理的水平。而工程造价的动态管理与控制需要依照工程计划按部就班地进行,只有对实际施工中所存在的变化点做出科学的设计,才能保证工程整体的预算始终与造价的目标保持一致。文章阐述了工程造价动态管理控制的概念与重要性,对实际的控制策略进行了详细的分析。  [关键词]建筑工程造价;动态管
对太钢袁家村铁矿2200万吨/年选矿厂进行了流程考查。考查结果表明,选矿厂基本达到了设计产能,铁精矿品位65.10%,但回收率略低于设计指标;半自磨与球磨指标基本达到设计指标,
校企合作是现代高职院校普遍采用的一种教学模式,该教学模式实现了院校与企业之间的信息互通,使得院校能够知道现代企业对人才的要求,随后对教学工作等进行调整,确保学生通过
人工授精技术和胚胎移植技术都是在家畜中应用较多的繁殖技术,是一种能够实现猪品种改良的手段。人工授精所用的精液要求精液品质高,活力好。使用精液大多是新鲜精液,其保存时间
党的十九大提出,加快建设人力资源协同发展的产业体系,在人力资本服务等领域培育新增长点、形成新动能。近年来,我国人力资源服务业快速发展,新模式、新业态不断涌现。传统的人力资源服务已经难以满足企业和员工的需求,各种为企业提供战略性服务、综合商务服务以及全面创造商业价值的服务新模式、新业态不断涌现。在此背景下,S公司作为我国最早成立的人力资源服务行业的大型国有企业集团,也于近年来开始了多元化布局,包括纵
我们于1990/2003在急性阑尾炎切除术中,对20例按常规手术方法较难处理的阑尾采用特殊的手术方法进行处理,术后均恢复顺利,无并发症发生,现报告如下。
目的:为中医院校开展创新创业教育,培养高素质的人才提供参考。方法:问卷调查、访谈法、文献分析法。结果:得到中医药创业者成功必备条件、人才培养与政策支持需求等。结论:
对 AMC 的分类、半导体行业发展趋势进行了简要介绍,随后分析了 AMC 过滤器在空调装置中的应用,着重介绍了 AMC 各级 过滤的排布、空气水洗装置和化学过滤器在 MAU 中的应用,
为深入贯彻落实国务院办公厅《推进运输结构调整三年行动计划(2018-2020年)》,吉林省人民政府办公厅印发了《吉林省落实推进运输结构调整三年行动计划(2018-2020年)实施方案