论文部分内容阅读
面对当今日益增多的在线文本,如何压缩信息量,从而帮助人们快速有效的选择和利用感兴趣的信息,成为文本处理领域所关注的焦点。文本摘要作为一种重要的文本处理技术和文本压缩技术,旨在将全文压缩为一个意义完整、简洁连贯的短文,便于人们进行快速阅读和选择信息,因此它具有广泛的应用前景和较高的研究价值。
本文首先介绍了自动文摘的研究情况和存在的问题。自动文摘采用的方法可以分为基于物理信息分析、基于自然语言理解、基于结构分析等几种方法。经过分析,我们认为:由于利用文本结构分析既能得到较高的文摘质量又能保证文摘生成不受领域限制,所以是提高文本摘要质量的一个切实可行的方法。但是,从目前国内的研究来看,基于文本结构的文摘方法的研究较少。
本文的目的就是建立一个对于大多数领域适用的基于文本结构分析的文摘系统,使之能高效、准确、精炼地分析文本的物理结构和逻辑结构,提取出文章的主题思想,生成文摘。本文设计了一个基于文本结构分析中文自动摘要系统模型。并根据该模型,对基于结构分析的摘要方法中的关键技术进行了深入的探讨,它们分别是:
中文自动分词技术:中文自动分词是中文文本处理的一个特殊问题。本文中,根据文本摘要等语义信息处理对中文分词的要求,设计了一个多步处理的分词方法:利用中文分词领域新的研究成果,将歧异处理分为真歧义和伪歧义来分别处理;并对现有的双向最大扫描算法进行了改进,降低了算法的复杂度,提高了分词的准确度和速度。
特征抽取和表示:文本特征抽取是文本处理的基本操作,特征项是词汇形式的文本摘要,本文将常用于文本分类中的VSM模型应用到文本结构分析之中,建立项/段落特征矩阵。考虑到VSM模型中忽略了项之间的语义相互关系,即“斜交”现象,采用基于潜在语义分析的特征向量提取方法。充分利用词汇间暗含的语义关系,按照语义重要性来抽取特征项。
文本层次分析:基于文本层次划分的文本结构分析是本文研究的重点。本文认为,层次是介于全文和段落之间客观存在的语言单位,它是若干相邻段落组成的序列,体现文章的逻辑结构。文本结构分析的主要工作是进行文本层次的划分和分析。本文给出了文本物理结构和逻辑结构的表示。提出动态的有序文本层次划分方法:该方法主要思想来源于聚类方法中的动态聚类方法,针对文本层次结构的组成特点,吸收了有序聚类算法中段落顺序性的思想,在保持段落顺序性的前提下进行动态聚类,划分文本层次。这种算法既考虑到文本组织的有序性,又使得层次划分可以灵活调整。
在这些研究的基础上,根据文本结构分析的结果,构造了一个表示文本结构的文本结构树,通过对文本结构树的深入分析,设计实现了关键句抽取和文本摘要生成算法。并进行了试验,取得了较好的效果。