论文部分内容阅读
抽取式的单文档自动文摘是自动文摘领域的核心任务之一,是指从文档中直接取出表示文档核心内容的句子作为文档的摘要。由于抽取式文摘通常使用表层特征,如统计信息、位置信息等,忽视了对文档篇章信息、语义信息等深层信息的利用,导致抽取式摘要的质量不均衡。因此,在当前汉语自然语言处理进入篇章的基础上,本文应用篇章结构信息,分别基于篇章修辞和篇章话题结构对中文新闻语料进行摘要的抽取、优化和评价的工作。因此,本文围绕篇章修辞与话题结构信息,在以下三个方面展开研究。具体而言:(1)由于篇章修辞结构对抽取文摘时的指导性作用,可以使抽取的文摘更能表达篇章的主要内容。因此,本文使用篇章修辞结构信息,以篇章单元的主次关系为依据,抽取篇章单元中的主要部分,将之作为文档的摘要。(2)为了提升摘要的连贯性,本文基于篇章话题结构信息,利用主位推进理论推导的话题链,制定相应的规则,对前文抽取的摘要进行优化,包括扩充主位缺失的句子主位,删除冗余的部分,从而得到一个简洁、连贯的摘要,并利用连贯性评价方法和ROUGE评价,分别评价它的连贯性和准确性。实验结果表明,最终抽取的摘要在ROUGE评价得分变化不大的基础上,连贯性的得分更好,从而达到了提高摘要质量的目的。(3)为了评估文本的连贯性,本文分别使用基于实体网格模型和神经网络模型的方法。其中神经网络模型有LSTM和GRU两种网络结构,对摘要连贯性进行评估。由于人工摘要数量较少,本文采用句子排序的结果来对这两类模型进行评价。实验结果表明,基于GRU的方法不仅分类的效果较好且收敛快。本文的创新点主要表现在:(1)利用篇章修辞的信息对中文文章进行抽取式自动摘要的研究(2)利用篇章话题结构信息对抽取式摘要的连贯性进行完善和提升。(3)在分析摘要质量时,考虑将篇章的连贯性加入评价摘要的标准,并使用连贯性的模型对摘要的连贯性进行评价最终本文通过自动摘要系统可以实现对已标注篇章修辞和话题结构信息的文章进行摘要的抽取。