论文部分内容阅读
本论文旨在无人工干预的情况下生成对各种图像的描述。图像可以描述任何事物,可以对“猫正坐着”或者“斑马正站在田野上”等简单的场景进行描述,也可以对诸如“一只猫在沙发上跳跃”等复杂的事物关系进行描述。然而,这种对图像进行描述实现起来并非易事,因为需要清楚地了解3D对象的动态结构。基于编码器和解码器的架构是图像描述的常用规范。卷积神经网络(CNN)已用于编码器,循环神经网络(RNN)已用于解码器。其中,CNN将图像编码为矢量,RNN则依次解码该矢量以便于预测后续的序列。本文提出了一种名为VisionXLM-R新架构,该架构不再依赖于序列。该VisonXLM-R架构是一种基于编码器-解码器架构的变换器,其主要目的是解决广泛背景下对图像描述的复杂任务。图像描述的主要目标是实现对场景的理解以及自动生成对相机捕获图像的描述。在任何图像描述任务中,图像描述生成系统的操作结构均遵循对图像中所含对象的类型识别,以及所含对象正在进行的动作,以便最终确定图像中的目标对象与图像中其他对象或者背景中对象的关系。图像描述的生成具有挑战性,因为如同机器翻译任务一样,一个图像可以有多种可能的描述。因此,图像描述系统必须能够识别出最相关的描述,还应需具备语法检查的功能。对图像进行描述,是一个多步骤的处理过程,一般使用计算机视觉的概念来对图像进行检测和分类,然后使用自然语言处理的方法生成对图像的描述。CNN和LSTM等深度学习技术被广泛用于解决这一难题。本文进一步扩展了这些深度学习的技术,并使用新型图像变换器作为调查图像描述任务的基础。在以往的研究中,使用最为广泛的序列转换模型采用的是具有编码和解码结构的复杂递归或卷积神经网络,以及其他相关技术。在最优模型中,关注机制与编码器、解码器相连,提供了附加的便利层。因此,变换器的操作可以完全依赖于关注机制,从而有效避免了递归和卷积。本文研究中将采用端到端的图像和语言表示方法。变换器架构则通过编码器和解码器实现其目标。翻译和文本的生成都受益于架构于全局层面的从一个序列到另一个序列的学习表示能力。图像变换过程中将产生网格,随后与它们嵌入的位置一起依次传送至变换器,从而实现更精准的目标对象定位。本研究的新颖之处在于它基于变换器构架并使用预训练的编码器和解码器来解决场景理解的难题。与变换器架构相比,图像变换器需要对大量的数据进行深度训练后,方可应用于各种中小型的图像识别中(如VTAB,ImageNet,CIFAR-100等)。与这些网络相比,视觉变换器(ViT)是一种类似于基于变换器的语言模型的图像变换器。在训练过程中可以占用较少的计算资源,并具有出色的识别结果,从而显著节省成本。因此处理图像分类和标题生成等任务时,基于视觉任务的处理方法是其理想选择。设计图像变换器解码器架构的关键因素是,要在将图像传递到带有位置嵌入的编码器之前,图像变换器的编码器需要将图像划分成网格。本文提出的解码器架构,采用的是变换器架构,而非RNNs和LSTMs。多年来,变换器模型在文本生成、序列分类、以及自然语言理解等任务中一直处于领先地位。在开发过程中,这些变换器语言模型暴露于大量文本数据后,对从网络、书本、以及其他转储数据中获取的大量文本数据进行预训练。这些模型能够生成类似于人类语言的文本。当结合其他语言时,如在处理广泛的交叉语言时,正如XLM-R所证明,多语言的语言模型通过大规模预训练可以显著提高性能。XLM-R是一个掩码语言模型,它使用一百种语言且超过2 TB的过滤CommonCrawl数据进行训练,该数据源自CommonCrawl 数据库。在本项研究中,预训练图像变换器的图像特征提取能力与大型预训练语言模型架构的语言表示能力相结合,创建了一个更强大的图像到文本描述生成系统。使用图像的网格特征以及将它们输入到变换器编码器以生成对图像网格的准确描述是设计的关键性原则。之后,解码器生成序列,并密切关注编码器的输出和之前的序列。本学位论文的主要工作包括以下方面:1.介绍了一种称为VisionXLM-R的新型图像描述架构。该架构基于在自然语言处理领域中流行的神经网络变换器。它由两个主要构建块组成,即编码器和解码器。变换器编码器的设计方式要求具有位置嵌入和注意力图的顺序输入。因此,编码器被修改为以序列中16x16块的形式获取图像输入。编码器输出特征迭代地输入到解码器层中。解码器是一个序列生成器,它通过交叉注意,利用编码器的特性,迭代地生成单词。2.分析了使用预训练权重对变换器编码器和解码器初始化的影响。预训练的变换器的权重允许更快收敛,而使用随机初始化从头开始训练则会增加训练时间。与从头开始训练相比,对图像标题等下游任务进行微调可以显着提高图像描述系统的准确性。因此,VisionXLM-R使用视觉变换器和XLM-R变换器模型的预训练权重进行了初始化3.研究了利用多语言模型的预训练权重对所提架构在图像描述任务中的性能的影响。使用预训练的权重对解码器的初始化进行微调,表明应用于单一语言例如英语时,可以产生相对更好的图像描述4.对所提出的VisionXLM-R模型进行了评估分析,该评估基于学术标准COCO标题基准数据集。通过在微软COCO标题2014数据集上进行训练,训练结果表明,所提出的VisionXLM-R模型,在基于回忆为导向的格斯特评估指标(ROUGE-L)方面,取得了 52.4分值;在基于共识的图像描述评估指标(CIDEr)方面,取得了 94.3的分值。两项指标均表明所提出的模型具有较好的性能。