论文部分内容阅读
自动文摘是自然语言处理领域的一项重要的研究内容。目前,自动摘要的研究取得了较大的发展,但同人们的期望仍然有较大差距。本文提出基于文本修辞结构和篇章特征分析的中文自动文摘方法,较好地克服了机械文摘的浅层性和理解文摘的领域局限性,并能实现文摘系统的可移植性和自适应长度等功能,主要有以下内容:
(1)分析了实现自动文摘的常用方法,提出了以修辞分析为主、篇章特征统计分析为辅的文摘方法。利用修辞关系规划文本逻辑结构,再通过修辞结构分析获取文本主题的方法,避免了机械文摘和理解文摘在文本理解上的缺陷。
(2)在修辞分析的基础上,引入成熟的统计方法对篇章特征进行分析,通过评测词条权重、句子权重等信息,对修辞分析结果进行辅助决策,进一步抽取文章主题,提高了文摘质量。
(3)针对本文应用,提出采用双词典设计的中文分词系统,将修辞词独立组成词典,并实现预分词,提高了修辞词的查准率和查全率;同时,将歧义处理分为真歧义和伪歧义来分别处理,并对现有的双向最大扫描算法进行了改进,降低了算法的复杂度,提高了常规分词的精度和速度。
(4)从保证系统的可移植性出发,将修辞词单独组织成修辞词词典,并将修辞词典和识别规则进行模块化设计,初步实现了面向多领域的可移植性。
(5)针对摘要的自适应长度控制和优化聚合,给出了给定摘要比例和摘要句数两种控制长度方法,提高了文摘的灵活性和可阅读性。