Image Captioning Based Image Transformers Using Grid Features

来源 :扬州大学 | 被引量 : 0次 | 上传用户:dashler
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本论文旨在无人工干预的情况下生成对各种图像的描述。图像可以描述任何事物,可以对“猫正坐着”或者“斑马正站在田野上”等简单的场景进行描述,也可以对诸如“一只猫在沙发上跳跃”等复杂的事物关系进行描述。然而,这种对图像进行描述实现起来并非易事,因为需要清楚地了解3D对象的动态结构。基于编码器和解码器的架构是图像描述的常用规范。卷积神经网络(CNN)已用于编码器,循环神经网络(RNN)已用于解码器。其中,CNN将图像编码为矢量,RNN则依次解码该矢量以便于预测后续的序列。本文提出了一种名为VisionXLM-R新架构,该架构不再依赖于序列。该VisonXLM-R架构是一种基于编码器-解码器架构的变换器,其主要目的是解决广泛背景下对图像描述的复杂任务。图像描述的主要目标是实现对场景的理解以及自动生成对相机捕获图像的描述。在任何图像描述任务中,图像描述生成系统的操作结构均遵循对图像中所含对象的类型识别,以及所含对象正在进行的动作,以便最终确定图像中的目标对象与图像中其他对象或者背景中对象的关系。图像描述的生成具有挑战性,因为如同机器翻译任务一样,一个图像可以有多种可能的描述。因此,图像描述系统必须能够识别出最相关的描述,还应需具备语法检查的功能。对图像进行描述,是一个多步骤的处理过程,一般使用计算机视觉的概念来对图像进行检测和分类,然后使用自然语言处理的方法生成对图像的描述。CNN和LSTM等深度学习技术被广泛用于解决这一难题。本文进一步扩展了这些深度学习的技术,并使用新型图像变换器作为调查图像描述任务的基础。在以往的研究中,使用最为广泛的序列转换模型采用的是具有编码和解码结构的复杂递归或卷积神经网络,以及其他相关技术。在最优模型中,关注机制与编码器、解码器相连,提供了附加的便利层。因此,变换器的操作可以完全依赖于关注机制,从而有效避免了递归和卷积。本文研究中将采用端到端的图像和语言表示方法。变换器架构则通过编码器和解码器实现其目标。翻译和文本的生成都受益于架构于全局层面的从一个序列到另一个序列的学习表示能力。图像变换过程中将产生网格,随后与它们嵌入的位置一起依次传送至变换器,从而实现更精准的目标对象定位。本研究的新颖之处在于它基于变换器构架并使用预训练的编码器和解码器来解决场景理解的难题。与变换器架构相比,图像变换器需要对大量的数据进行深度训练后,方可应用于各种中小型的图像识别中(如VTAB,ImageNet,CIFAR-100等)。与这些网络相比,视觉变换器(ViT)是一种类似于基于变换器的语言模型的图像变换器。在训练过程中可以占用较少的计算资源,并具有出色的识别结果,从而显著节省成本。因此处理图像分类和标题生成等任务时,基于视觉任务的处理方法是其理想选择。设计图像变换器解码器架构的关键因素是,要在将图像传递到带有位置嵌入的编码器之前,图像变换器的编码器需要将图像划分成网格。本文提出的解码器架构,采用的是变换器架构,而非RNNs和LSTMs。多年来,变换器模型在文本生成、序列分类、以及自然语言理解等任务中一直处于领先地位。在开发过程中,这些变换器语言模型暴露于大量文本数据后,对从网络、书本、以及其他转储数据中获取的大量文本数据进行预训练。这些模型能够生成类似于人类语言的文本。当结合其他语言时,如在处理广泛的交叉语言时,正如XLM-R所证明,多语言的语言模型通过大规模预训练可以显著提高性能。XLM-R是一个掩码语言模型,它使用一百种语言且超过2 TB的过滤CommonCrawl数据进行训练,该数据源自CommonCrawl 数据库。在本项研究中,预训练图像变换器的图像特征提取能力与大型预训练语言模型架构的语言表示能力相结合,创建了一个更强大的图像到文本描述生成系统。使用图像的网格特征以及将它们输入到变换器编码器以生成对图像网格的准确描述是设计的关键性原则。之后,解码器生成序列,并密切关注编码器的输出和之前的序列。本学位论文的主要工作包括以下方面:1.介绍了一种称为VisionXLM-R的新型图像描述架构。该架构基于在自然语言处理领域中流行的神经网络变换器。它由两个主要构建块组成,即编码器和解码器。变换器编码器的设计方式要求具有位置嵌入和注意力图的顺序输入。因此,编码器被修改为以序列中16x16块的形式获取图像输入。编码器输出特征迭代地输入到解码器层中。解码器是一个序列生成器,它通过交叉注意,利用编码器的特性,迭代地生成单词。2.分析了使用预训练权重对变换器编码器和解码器初始化的影响。预训练的变换器的权重允许更快收敛,而使用随机初始化从头开始训练则会增加训练时间。与从头开始训练相比,对图像标题等下游任务进行微调可以显着提高图像描述系统的准确性。因此,VisionXLM-R使用视觉变换器和XLM-R变换器模型的预训练权重进行了初始化3.研究了利用多语言模型的预训练权重对所提架构在图像描述任务中的性能的影响。使用预训练的权重对解码器的初始化进行微调,表明应用于单一语言例如英语时,可以产生相对更好的图像描述4.对所提出的VisionXLM-R模型进行了评估分析,该评估基于学术标准COCO标题基准数据集。通过在微软COCO标题2014数据集上进行训练,训练结果表明,所提出的VisionXLM-R模型,在基于回忆为导向的格斯特评估指标(ROUGE-L)方面,取得了 52.4分值;在基于共识的图像描述评估指标(CIDEr)方面,取得了 94.3的分值。两项指标均表明所提出的模型具有较好的性能。
其他文献
经济的发展离不开能源,能源是经济发展的一个主要动力,但是受各类因素影响,能源的发展往往滞后于经济。在此前提下,我们需要考虑节能。建筑能耗在整个社会总能耗中的比重巨大,而建筑当中的能源大户即为中央空调系统,因此暖通空调节能为建筑节能的一个发展趋势,也是建筑节能的一项重点工作。从暖通系统能耗的构成可以看出,暖通系统的能耗主要取决于暖通空调系统的冷热负荷的确定,以及暖通空调系统的合理配置。因此,在实际设
学位
革命文化是集革命理想、革命责任、革命斗争精神、家国情怀、人性光辉于一体的文化形态,于中国革命、建设和改革期间形成、丰富和发展。新时代,革命文化不仅没有过时,反而历久弥新,越来越得到党和国家的重视。《义务教育语文课程标准(2022年版)》也强调:要高度重视继承和弘扬中华优秀传统文化、革命文化、社会主义先进文化,赓续红色血脉。①而语文教学作为革命传统教育的一条重要途径,承担着重要的育人任务。在这样的背
学位
随着工业4.0和智能制造的快速发展,对机床设备的实时可靠监控的需求日益急迫。传统数据采集与监控方式仅能实现单台或单元监控,很难实现设备之间的互联互通以及车间整体远程监控。这种监控方式不能满足车间高效运转的需求,对于突发情况等,不能及时得到解决。为此,本文阐述了机床设备SCADA(Supervisory Control and Data Acquisition)系统的发展现状和存在的问题,结合工业4
学位
戏剧是文学和艺术的巧妙结合体,作为四大文学体裁之一,它不仅能提高学生的语文素养,还能提高学生的人文素养,具有极高的教学价值和艺术价值。戏剧理应在初中语文教学中占有重要的位置,但在实际教学中,由于考试导向和教师戏剧素养的限制等原因,戏剧教学被日益边缘化,这不仅造成了戏剧资源的浪费,还造成了戏剧教育功能的缺失。为解决这一问题,本文综合运用文献研究法、文本细读法、个案研究法等研究方法,对统编本九年级下册
学位
中国乡村问题一直是各领域学者关注和研究的课题。新时期背景下,特别是乡村振兴战略实施以来,乡村建设跻身社会关注热点。作为乡村建设的核心部分,乡村公共建筑不仅与村民日常生活休戚相关,还存续着乡村历史人文记忆,具有很高的建筑艺术价值。但乡村建设热潮的背后,存在乡村整体风貌的趋同、乡村公共建筑功能与实际需求不符等问题,导致乡村公共建筑“在地性”特征逐渐缺失。论文以乡村公共建筑为研究对象,以地域主义、建筑现
学位
在经济快速发展和国际化的浪潮中,地域文化受到了强大的冲击,城市格局呈现“千城一面”。高强度的开发之后,人们意识到文化对于城市的重要性,城市建设应加强对文化的关注。随着多个关于城市建设发展的法规、意见颁布,对地域文化的保护、传承与复兴成为了城市建设的大趋势。同时,历史文化街区作为城市历史文化最为集中的空间比以往受到了更多的重视,其单纯的商业化改造取得了一时的收益,但长久下去的同质化使得历史街区丧失了
学位
当前初中语文阅读教学存在阅读量不足、中国革命精神传承意识淡薄等问题,虽然“整本书阅读教学”已经成为语文教育研究方面的热点话题,引起了人们的关注,但关于革命文学作品这一特定文学题材的整本书阅读教学研究还相对匮乏。因此,本文将“革命文学作品”与“整本书阅读”两者结合起来,目标指向提升初中生的语文核心素养,采用文献分析法、案例分析法,试图对初中语文革命文学作品整本书阅读教学的相关文献进行梳理、总结,对初
学位
中国古典诗词是中华文化宝库中一颗璀璨的明珠,也是现代语文教学的重要组成部分。自统编初中语文教材广泛投入使用后,古诗词的选编数量也较之前版本的语文教材有了明显的增加。教材在改进,语文课堂也应该进行教学改革。此外,近几年的中考试题中诗歌鉴赏类的题型比例也在逐渐上升,由此可见,古诗词教学在初中语文教学中的重要性日渐提升。而古诗词教学中最重要却最容易忽视的便是古诗词意象的教学。意象作为古诗词的重要组成部分
学位
在线社交网络作为合适的信息扩散平台,对信息的传播起着重要作用。积极的信息在社交网络上的传播对人们的生活有很大的影响。然而,社交网络本身具有开放性和合成性,各种不良、虚假信息、反动言论可以跨地域、跨国界地散布和传播,严重危害着社会稳定及国家安全。影响力源定位问题是社交网络研究中的一个重要问题,该问题旨在受影响力传播的网络中,找到最初传播信息的最具有影响力的用户。一般来说,在社交网络中,各种类型的扩散
学位
统编版高中语文教材中所选取的古诗文时间跨度长、内涵丰富多样,构成了缤纷多彩的美育资源宝库。大部分高中语文教师都认同古诗文对语文美育确有重要意义,但对古诗文美育的内容、目标、策略方法还不很明确。此外,在实际教学过程中,古诗文美育又深陷困境,遭遇到传统教育观念的影响、以考定教的功利化教学导向、大众文化对古诗文阅读能力的挑战等等。因此,明确古诗文美育的内容和目标,探究如何运用更合适的方法在高中古诗文教学
学位