论文部分内容阅读
随着互联网技术的飞速发展,人们每天面临着大量的文本信息。为了帮助人们在信息爆炸的互联网环境下,可以快速的找到自己想要的信息。本文我们通过复述生成技术扩展查询项,以此来提高信息检索系统的性能,同时使用自动文本摘要技术对检索返回的结果进行分析和关键信息的提取,并生成一段更简洁的文本。本文我们探究了基于深度学习的文本生成技术,并在复述生成和面向特定领域的自动文本摘要生成任务上开展研究。针对复述生成任务目前存在的训练语料不足,生成的多样性不足等问题我们提出解决方案。针对特定领域的文本摘要生成任务中存在的集外词,长距离关系依赖以及摘要文本结构不符合领域特点等问题我们提出解决方案。本文的主要工作如下:(1)设计并实现一种基于序列到序列的复述生成模型,该模型由特征提取器BERT和文本生成器LSTM组成。具有多层双向注意的特征提取器可以从输入文本中提取深层次的语言特征信息。文本生成器是一个预训练好的语言模型,用于生成复述文本。由于现有的复述语料不足且不平衡,因此复述生成模型通常难以生成流利且准确的复述文本。为了解决该问题,我们通过结合基于特征和基于微调融合训练的方式来训练我们的模型。同时,本文我们提出基于上下文的复述生成方式,使模型可以完成篇章级别的文本复述。在模型预测生成阶段,通过使用多样性集束搜索生成策略代替传统的集束搜索生成策略或贪婪采样生成策略,以此帮助模型复述生成多个表达方式不同的文本。本文在三个不同粒度的数据集上进行实验,结果表明我们的训练模式和生成策略是有效的。训练有素的复述生成模型可以生成多个高质量的复述文本。(2)设计并实现了一种基于序列到序列的独立双编码器的文本摘要生成模型。相比传统单编码器的框架结构,本文我们使用一个独立的编码器去提取现有摘要文本中包含的框架特征信息,然后作为额外的信息去辅助模型生成具有特定模式框架结构的摘要文本。为了解决生成式摘要任务中当原始文本长度过长时而导致的长距离关系依赖问题,我们整个模型的结构完全基于注意力机制。同时我们采用基于字节对编码的方式对数据集进行预处理,以此来解决摘要生成任务中目前存在的集外词问题。本文在公开的特定领域的文本摘要数据集上进行实验,结果表明我们提出的摘要生成模型可以生成高质量的,具有领域模式框架结构的摘要文本。