论文部分内容阅读
近年来随着深度学习的快速发展,视觉问题生成(VQG)逐渐开始成为一项重要的研究内容,它的任务形式是对于输入的图像给出关于图像内容的一些问题,VQG在多模态对话、幼儿教育以及医疗问诊场景都有着十分重要的研究意义。通过对VQG研究现状的调研,本文发现目前大多数关于VQG的研究距离某些特定场景(如幼儿教育、医疗问诊等)的实际需求还有很大的差距,主要有两点不足之处,其一是大多数VQG模型并不能为生成的问题明确的“指出”图像中所对应的区域,即缺乏生成的问题的区域解释性;其二是大多数VQG模型只能生成通用性的问题,即生成的问题的类别(比如关于颜色、形状等)是随机的,这种通用性的问题通常在一些特定场景中是没有太大意义的,因此如何能够让模型生成特定类别的问题是一个比较重要的研究方向。针对上述的第一个缺点,本文首先利用FCLN模型作为辅助模型对输入图像预处理,对于每一张图像都得到不同的目标检测区域以及每一个区域对应的内容描述语句,然后提出抽取-生成-强化学习(EGR)模型,EGR模型包含Extractor(抽取)、Generator(生成)以及联合强化学习三个子模块,Extractor模块首先利用注意力机制对每一张图像的所有内容描述语句进行抽取,然后Generator模块将每一个内容描述语句转换为相应的问题语句。最后实验证明EGR模型不仅能够“指明”每一个问题对应的图像子区域,而且在ROUGE等指标上也基本能够与主流模型持平。针对上述的第二个缺点,本文提出以变分自编码器为基础的特定类别问题生成模型。该模型包含编码器网络与解码器网络,编码器的输入为图像、问题类别以及问题语句,然后利用注意力机制对输入编码,并最终将输入映射到一个隐空间,而解码器的主要作用则是从隐空间中进行向量采样,并对输入的问题语句进行重构。最后模型在VQA-2.0数据集上的结果表明,与目前的主流模型,本文提出的模型在各个指标上都基本均有提升,比如Bleu-4提升了1.61%,METEOR提升了0.79%,证明本文提出的模型能够生成相对接近人类的问题语句,除此之外,Strength指标与Inventive指标分别提升了5.04%与9.64%,证明本文提出的模型能够生成更加多样性的问题。