论文部分内容阅读
多模态信息即指包含文本、图像等多种不同模态的信息。多模态信息如新闻等,是我们日常接触到的常见最常见的信息载体之一。随着海量数据的出现迫切需要计算机系统需要在短时间内提炼出数据中的关键信息,文本摘要生成是基于给定原始数据的情况下,对原始数据做出简明总结的任务。目前,传统的文本摘要生成绝大部分仅仅针对于原始数据集是文本的情况,由于多模态数据的常见和频繁使用,迫切需要基于多模态数据获取摘要的方法。本文研究多模态数据的文本摘要生成,即基于原始输入信息为多模态数据,但是输出结果是基于原始信息的一段总结性文本。鉴于目前文本摘要生成研究中大部分都关注基于文章的摘要生成,如何处理多模态数据中不同模态的交互,以及不同模态如何贡献文本摘要生成的是本文研究的重点。本文目标即通过对多模态数据的合理处和学习,即基于原始的多模态数据,学习出一个简明的文本摘要。本文的主要研究工作主要由三个部分组成:(1)由于大部分文本摘要生成模型没有均是在给定数据集上进行单独训练,往往会导致训练效果较好但测试集效果较差等过拟合情况,为了尽量避免模型训练时产生的过拟合风险,给出了基于预训练表征的ELMo-Forward改进模型,该改进模型通过引入预训练的语言模式实现对原始信息中的文本数据的合理编码表示,并且通过在标准数据集上的分类等任务验证了所提出模型的合理性。(2)本文改进了原始的序列生成模型,一方面在编码器和解码器上均使用本文给出的ELMo-Forward模型,同时考虑到使用编码器-解码器应用于摘要生成任务的特殊性,通过改进常见的生成摘要模型,给出一种基于对编码和解码部分的学习权重进行合理约束的PANTS模型。本文通过在标准文本摘要生成数据集上的表现验证了PANTS模型相比一般模型更能抑制过拟合的情况,并且通过ROUGH评测标准也说明了PANTS模型相比传统的生成式摘要模型能够产生更加符合自然语言规律的文本摘要结果。(3)本文借鉴摘要的要素,即时间、地点、事件和主体等概念给出了QABS模型,该模型首先使用预训练的视觉问答模型对多模态信息中的视觉信息提取出上述要素信息,之后通过将获取到的要素信息同原始多模态数据中的文本信息应用注意力机制进行交互。QABS模型通过在编码器上利用获取到的图像和文本的交互信息在解码器中生成文本摘要。通过使用新闻多模态摘要数据集,本文验证了QABS模型相比仅仅使用文本信息生成的摘要能捕捉到额外的关键信息,从而说明了本文提出的QABS模型的有效性。