论文部分内容阅读
随着人工智能的大爆发,信息过载问题已经严重影响了人们高效便捷的生活方式。文本自动摘要技术主要是利用一定的方法将较长的文本内容压缩为简明扼要的短文,从而帮助人们快速找到自己需要的信息。对于中文自动摘要来说,现在的技术都没能达到理想的结果,且主要集中于对抽取式摘要的研究,而且生成式摘要的结果读起来不通顺、不连贯,涵盖信息不全面。因此,本文提出了抽取与生成相结合的混合模型,即基于BERT对文档全文进行抽取式摘要,然后将抽取到的句子送入生成式摘要模型中进行摘要的生成。本文主要研究内容有:(1)基于BERT的摘要句抽取大多是利用浅层的文本特征来对基本语义单元进行打分,而后依据得分确定句子的权重,由于忽视了文本的上下文信息,抽取得到的摘要句连贯性差。针对这一问题,本文使用基于BERT的摘要句抽取模型,学习和开发深层次的语义特征,用向量表示文档的每一个句子,得到每个句子的分数并从大到小进行排序,抽取出分数较高的句子作为摘要。(2)融合核心词注意力机制的摘要生成方法中常见的未登录词和重复词问题,本文通过使用指针网络和覆盖机制对Seq2Seq+Attention模型进行了分析改良。并在此基础上,针对生成的摘要主旨信息表达不全面的问题,提出了融合核心词注意力机制的摘要生成方法。(3)基于混合模型的摘要自动生成由于Seq2Seq模型对于长文本会产生数据截断,从而导致信息丢失,所以融合抽取和生成两种方法,得到摘要自动生成的混合模型。首先,利用BERT抽取模型,抽取出文章中的重要句子构建摘要句集;然后,以摘要句集作为输入,利用融合核心词注意力机制的摘要生成方法自动生成摘要,实现了抽取式方法和生成式方法的结合。