基于篇章结构理论的单文档自动文摘研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:neiki1120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
抽取式的单文档自动文摘是自动文摘领域的核心任务之一,是指从文档中直接取出表示文档核心内容的句子作为文档的摘要。由于抽取式文摘通常使用表层特征,如统计信息、位置信息等,忽视了对文档篇章信息、语义信息等深层信息的利用,导致抽取式摘要的质量不均衡。因此,在当前汉语自然语言处理进入篇章的基础上,本文应用篇章结构信息,分别基于篇章修辞和篇章话题结构对中文新闻语料进行摘要的抽取、优化和评价的工作。因此,本文围绕篇章修辞与话题结构信息,在以下三个方面展开研究。具体而言:(1)由于篇章修辞结构对抽取文摘时的指导性作用,可以使抽取的文摘更能表达篇章的主要内容。因此,本文使用篇章修辞结构信息,以篇章单元的主次关系为依据,抽取篇章单元中的主要部分,将之作为文档的摘要。(2)为了提升摘要的连贯性,本文基于篇章话题结构信息,利用主位推进理论推导的话题链,制定相应的规则,对前文抽取的摘要进行优化,包括扩充主位缺失的句子主位,删除冗余的部分,从而得到一个简洁、连贯的摘要,并利用连贯性评价方法和ROUGE评价,分别评价它的连贯性和准确性。实验结果表明,最终抽取的摘要在ROUGE评价得分变化不大的基础上,连贯性的得分更好,从而达到了提高摘要质量的目的。(3)为了评估文本的连贯性,本文分别使用基于实体网格模型和神经网络模型的方法。其中神经网络模型有LSTM和GRU两种网络结构,对摘要连贯性进行评估。由于人工摘要数量较少,本文采用句子排序的结果来对这两类模型进行评价。实验结果表明,基于GRU的方法不仅分类的效果较好且收敛快。本文的创新点主要表现在:(1)利用篇章修辞的信息对中文文章进行抽取式自动摘要的研究(2)利用篇章话题结构信息对抽取式摘要的连贯性进行完善和提升。(3)在分析摘要质量时,考虑将篇章的连贯性加入评价摘要的标准,并使用连贯性的模型对摘要的连贯性进行评价最终本文通过自动摘要系统可以实现对已标注篇章修辞和话题结构信息的文章进行摘要的抽取。
其他文献
2010年7月份,中国物流与采购联合会发布的中国制造业采购经理指数(PMI)为51.2%,环比降幅0.9个百分点。这是该指数今年以来连续第三个月出现回调。表明我国宏观经济在经历了前
分析建立学科导航的原因及CALIS学科导航的成果与不足;结合Wiki的特点,从长尾理论、需求层次理论等方面分析利用Wiki构建高校学科导航的优势及可行性;从理论基础、"双主"模式
该研究对500名地方普通高校大学生,进行预调查,通过项目分析、探索性因子分析等方法筛选、修订、确定学业成就测量量表,共包含学习认知能力、沟通能力、自我管理能力、人际促
<正>有书则有序,序有长有短,有作者自己写的,亦有请别人代写的,内容五花八门,各式各样,大体都围绕书和作者这两个核心写的,故而肯定、颂扬自然是主流,偶尔亦有指出不足的,瑕
在教学信息化进程不断推进的背景下,传统教学模式亟待进行全面而深入的改革。而如何将传统教学方式和互联网技术有效结合,则成为人们当前需要深入考虑的问题。本文尝试以《基
目的:通过检测钙网蛋白(calreticulin,CRT)和B细胞受体相关蛋白31(B-cell receptor-associated protein 31,BAP31)在非小细胞肺癌组织、癌旁组织以及正常肺组织中的表达情况,
智利8.8级地震对于铜矿区的生产影响程度有限,而智利基础设施的破坏,运输等后续问题将持续影响铜矿供应;中国消费旺季来临,将带动铜进口增加。智利地震与中国消费两大因素或
外感表证是常见多发疾病,然外感表证有寒和热之分,传统观念认为表证属寒者,脉象为浮紧,或浮缓;表证属热者,脉象为浮数。浮脉与表证似乎已不可割离,已经成一种惯性思维,原因多为先入为
<正>随着经济不断发展和人口大量涌入,北京的机动车保有量增长显著,停车难、停车贵、停车乱成为人们生活中的一大难题。3月30日上午,北京市第十五届人民代表大会常务委员会第
文章对教育生态学和高校思想政治教育的生态内涵进行了概括,从高校思想政治教育所面临的社会生态环境、家庭生态环境、学校生态环境、虚拟生态环境等方面进行了分析,并从教育