论文部分内容阅读
文摘是以提供文献内容梗概为目的,不加评论和补充解释、简明、确切地记述文献重要内容的短文。它可以帮助读者初步了解有关文本的内容,快速地掌握信息,准确地找到自己需要的资料。如果只靠人工来编制摘要,速度远远跟不上信息激增的发展要求,因此自动文摘的研究就应运而生。
中文自动文摘的研究如火如茶地开展了近20年,取得了一些令人鼓舞的成果。然而,对汉语的处理相对西文语言具有许多难点(如分词困难,形态变化少,语法未形成规范等等),若干可能会影响自动文摘效果的潜在问题正逐渐被越来越多的研究人员所重视。
(1)中文分词技术薄弱影响了根据词频统计计算权值并判断重要性的效果。
(2)汉语的功能过于广泛,同义词和一词多义现象十分突出,自动文摘系统无法有效区别。
(3)摘录型文摘系统所产生的文摘常常出现主题遗漏现象,同时也会出现同意不同形的关键句子的冗余现象。
(4)由于文摘中的句子是从原文不同位置抽取的,句子相互之间无多大关联,导致文摘缺乏连贯性。
致力于对上述问题的解决,我们尝试性地提出了一种基于SDD+的中文自动文摘方法。在该方法中,我们采用了如下四种关键技术:
技术1:在分词中采取双哈希二叉树的词典机制。
技术2:采用基于SDD+的矩阵分解方式。
技术3:在SDD+之后,采用先语句聚类,再自动选取的方式。
技术4:以因果关系为例,介绍了连贯性的处理。
为了验证提出的中文自动文摘方法的可行性和有效性,我们分别采用提出的自动文摘方法以及传统的典型文摘方法做了实验。运用内部评测手段进行了系统评估。试验结果证明本系统多数性能指标优于其它几个文摘系统。