图像描述文本生成方法研究

来源 :武汉理工大学 | 被引量 : 0次 | 上传用户:q56260916
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近十年来,随着深度学习技术的飞速进步,越来越多的研究人员将眼光投入到计算机视觉与自然语言处理相结合的任务中。其中的一个任务:图像描述,即图像生成文本,该任务旨在通过用一句或多句自然语言来描述图像的视觉内容。最近,它已取得了显著的成果,图像描述任务按照生成的文本长度可分为:单句子的图像描述和图像段落描述。单句子的图像描述更强调生成的句子符合图像语义,从图像的整体部分去描述图像的视觉内容;图像段落描述则更强调句子的完备性和多样性,使生成的段落能从多角度地去描述图像的视觉内容,而不是像单句子的图像描述局限于图像的主体部分,而忽略图像细节。段落描述中的段落句间冗余度低,描述的内容具有多样性。因此,本文针对这两个子任务中其存在的一些问题进行了研究。首先,本文针对单句子的图像描述算法进行了研究。近年来,各种注意力机制广泛地被引入编码器-解码器神经网络的图像描述框架中,以提高模型的性能。然而,现有的模型却忽略了显着图像区域的选择与对局部和全局表示学习的空间信息监督之间的关系,从而降低了模型的描述性能。因此,本文提出了一种基于空间信息注意力的特征动态融合算法,提取了局部图像区域和整个图像中显着对象的空间信息序列,以空间信息为注意力指导,去指导全局特征和局部区域级特征的动态融合,以生成更加丰富的描述语句。具体来说,一方面,在编码阶段,提取显著对象的对象级视觉特征及其空间边界框。另一方面,在获得了整个图像的全局特征图之后,这些特征图与局部特征融合在一起,融合后的特征被送到基于长短期记忆网络的语言解码器中。在解码阶段,本文提出的自适应注意力机制会动态选择由图像描述指定的相应图像区域去解码生成语句。最后,本文在图像描述标准数据集:COCO数据集和Flickr30k数据集上进行的大量实验证明了该算法的有效性,结果表明本文提出的方法使各类指标均提升了1%-5%,特别地,使图像描述关键性指标CIDEr从108.5提升至114.5。进一步,为了得到更具多样性和正确性的长段落文本,本文进一步研究了图像段落描述。图像段落描述旨在由图像生成长文本的段落,通常一个段落包含8-10个句子。现有的方法通常采用单阶段策略来训练分层网络,其中单阶段意味着那些模型无需进行多阶段修改即可直接生成描述。由于曝光偏差,可以观察到描述生成过程中可能存在错误和遗漏,例如图像中的一个对象被错误地表达或图像中的某一个子区域被忽略而没有被语言表达出来。为了解决这个问题,本文提出了一种新颖的图像段落描述处理方法,称为多阶段选择性重解码算法,该算法扩展了传统的单阶段方法以生成更丰富的文本描述。获得初步的描述文本后,本文提出的模块会动态选择上一阶段中合适的单词和未解码的视觉特征。在下一阶段,将这些选定的特征重新解码为新的描述性语句。新文本描述比以前的文本更加多样化和精细。本文在图像段落描述数据集Standford数据集上进行了大量的实验,以证明本文工作的重要性。特别地,在Standford数据集上,使图像段落描述中的关键性指标CIDEr从30.63提升至33.83。通过以上研究,本文图像描述生成文本方法进行了深入的研究,为图像生成文本研究中所面临的关键性问题提供了切实的解决方案。结果表明:图像中对象的空间信息在对图像描述中全局特征和局部特征的动态融合起到了重要作用,进而影响模型的描述性能;多阶段选择再解码的思想,也解决了段落描述中错误和遗漏的问题,有效地提高了模型的性能。
其他文献
本文基于企业技术创新与人力资本结构视角,以2010—2021年制造业A股上市公司年报与财务数据为基础,利用Python分词处理与人工识别构建数字化词典,并以文本分析法构建了制造业数字化程度指标,实证分析了数字化转型对制造业服务化的影响。结果显示:(1)总体上,数字化转型对制造业服务化水平的提升具有显著促进效应,且该效应在采用“宽带中国”战略作为准自然实验和清朝城墙数据作为历史工具变量等一系列内生性
期刊
随着物联网技术的高速发展和相关设备的广泛使用,其安全性也因此受到了重视。其中,物联网设备中的固件安全就是很重要的一个方面。目前,在固件开发过程中存在大量使用开源库和代码复用的问题,导致不同平台上的固件经常受到相同已知漏洞的影响。因此,检测跨平台下的同源漏洞可以有效减少固件漏洞对设备造成的不良影响,这对维护固件安全具有十分重要的意义。现有的漏洞检测方法一般需要对所有的待检测函数进行精确匹配,导致在大
学位
建设工程的稳步发展离不开施工安全管理的保障,在安全管理工作中,对施工现场安全网的完好性进行动态检测是工地安全保障的基础。结合检测结果综合评价施工现场存在的风险,对安全管理工作有积极的推进作用。现有的施工安全网完好性检测主要依赖人工巡查,无法保证实时性,而且人力资源开销较大,还可能存在漏检问题。针对上述问题,本文研究利用深度学习方法实时检测安全网的完好性以及破损分类,并构建基于安全网完好性检测的施工
学位
本文旨在探讨数字化转型对企业经营管理的影响,并提出相应的实施策略和管理模式。通过文献综述和案例分析,对数字化转型的概念、特点以及对企业经营管理的影响进行了深入探讨,并分析了数字化转型的实践案例,总结了数字化转型的成功要素和经验。同时结合实践经验,提出了数字化转型的实施策略和管理模式。研究表明,数字化转型对企业经营管理产生了深刻影响,可以提高企业的生产效率和市场竞争力,但也带来了一系列挑战。
期刊
相比于其他传统人工神经网络的计算单元,通过对生物大脑中的神经系统信息进行模拟,脉冲神经网络所模拟的神经元在结构与其工作机制等各个方面更加具有仿生性,被誉为“第三代人工神经网络”。自脉冲神经网络理论首次提出以来,对其合理实现的研究和实践成为了一个热门课题,脉冲神经网络模型的实现方案主要分为软件模拟仿真和硬件电路实现两种思路,软件模拟具有易于开发、灵活性高的优点,但是脉冲神经元更加复杂,在模拟大规模网
学位
随着社交网络的迅速发展,每天产生数以百万计的短文本,其中包含兴趣、意图等各种有价值的用户相关信息。因此,短文本信息挖掘与分类具有重要的实际应用意义。然而,短文本具有特征稀疏、噪声高等特点,使得很多机器学习方法应用于短文本分类时出现性能下降问题,同时,许多神经网络模型在训练时依赖大量标记样本,但是现实中,获得大量标记数据十分困难。基于以上原因,小样本条件下的短文本分类成为自然语言处理领域的研究热点之
学位
大力推动数字化转型是建设制造强国的重大战略举措,数字化转型成为企业提升创新绩效的有效途径。基于动态能力视角,以2007—2021年沪、深A股上市公司为研究对象,运用Heckman两阶段模型与文本分析方法,实证检验企业数字化转型对创新绩效的影响及作用机制。实证结果显示:数字化转型显著影响企业的动态能力决策行为,企业的创新绩效也因此得到显著提升。异质性检验结果显示:数字化转型对创新绩效的提升在国有企业
期刊
随着信息技术的发展,监控设备的部署越来越多,为了构建智能安全的监控场景,对大量监控视频进行管理面临更多挑战,因此对监控视频进行智能异常事件检测的研究具有重要的现实意义。面向视频监控的异常事件检测具有一定的挑战性,不同场景中异常类型的多样性和异常定义的无界性,限制了监督学习在视频异常事件检测中的应用。自动编码器作为一种无监督的方法被用于视频异常事件检测中,但自动编码器较强的泛化能力导致正常帧和异常帧
学位
陆空通话是民航空中交通管制员和飞行员之间进行交流的主要载体,对于飞行器的正常起降、紧急情况时地空间的沟通都有着重要的意义。依据统计数据,陆空通话错误引起的飞行安全事故占所有安全事故的41%,对陆空通话进行分析有助于避免出现飞行安全事故。为保障航空安全,缓解陆空通话分析工作中的人工负担,本文针对陆空通话语音特点,探索适用于陆空通话的说话人识别方法,从而为陆空通话的自动化与智能化分析奠定基础。为获得良
学位
行人重识别的优异性能往往依赖于具有准确行人身份标签的大规模数据集,然而在实际场景中,由于数据采集和注释困难,样本会不可避免地被错误标注,这就产生了标签噪声。标签噪声会误导网络的学习,从而导致模型的性能的下降。但是,现有的行人重识别方法很少关注标签噪声给行人重识别带来的负面影响。针对这个问题,本文以消除噪声标签对行人重识别不利影响为目标展开了如下研究:针对现有的行人分类模型不具备抗噪声能力的问题,本
学位