论文部分内容阅读
复述是自然语言中非常普遍的一个现象,它集中反映了语言的多样性,已经被应用到信息检索、自动问答、信息抽取、自动文摘、机器翻译等多个领域。本文从相关语料库出发,运用多种自然语言处理技术和数据挖掘方法,对复述实例和复述模板的抽取进行了深入研究。主要内容包括以下几个方面: 1.复述研究的起点是复述实例语料库的构建。本文基于两种类型的相关语料库,名著的多个译本构成的篇章级单语平行语料库和对同一事件的不同新闻报道组成的可比新闻语料库,分别从中抽取句子级的复述实例。对于译本单语平行语料库,本文针对没有段落对齐标记的问题,提出了一种基于长度和位置信息相结合的句子对齐方法,有效获取了大量句子级复述实例。对于可比新闻语料库,本文实验了三种抽取方法,分别为编辑距离方法、语义编辑距离方法和基于命名实体过滤的启发式方法,根据各种方法的特点,能够从可以新闻语料库中抽取出不同类型的复述实例。 2.与句子级复述实例相比,短语级复述实例具有更细粒度的知识,因此本文针对短语级复述实例的获取进行了专门的研究。本文分别从两种语料库中抽短语复述实例:一种是对齐的句子级复述实例语料库,一种是汉英双语平行语料库。对于句子级对齐复述实例语料库,首先进行了统计和词典相结合的方法进行了复述词对齐,然后利用基于规则的方法,从词对齐后的复述实例语料库中抽取出大规模的短语级复述实例语料库。对于汉英双语平行语料库,针对只输入一个短语从双语语料库中抽取的复述不能够解决歧义的情况,本文同时输入一个双语短语,双语对中的两个短语互相之间能够确定对方的语义,提出了一种基于双语语料库的短语级复述实例获取方法,能够有效的从中获取短语级复述实例。 3.复述模板具有更强的抽象与表达能力,能够被用来生成大量的复述实例。对于复述模板的研究主要存在两个问题,第一是复述模板的表示,第二是复述模板的抽取。而复述模板的表示是复述模板抽取的前提,因此本文在分析了多种复述模板表示方法的基础之上,提出了一种基于语义信息的复述模板表示方法,该方法结合一部中文语义词典《同义词词林(扩展版)》,利用互联网上的丰富信息,自动对复述实例进行泛化以获取复述模板,并从多个角度对泛化后的复述模板进行了评测。实验结果显示,本文的复述模板表示方法,与传统的基于词性的复述模板表示方法,具有更高的合理率和准确率。 4.本文提出了一种面向特定关系的复述模板抽取方法,该方法不需要首先抽取出准确的复述实例,而是面向某一特定关系,只需给定一个简单易得的种子,就可以自动抽取出描述该关系的大量模板,这些模板之间由于都具有描述该特定关系的先验知识,因此具备了一种近似的复述模板关系。本文首先在一个大规模的语料库上进行关系模板的抽取,为了解决数据稀疏问题,又将文本资源从大规模语料库扩展到互联网上,并改进了相应的模板抽取方法。实验结果表明,该方法能够抽取有效的复述模板。 本文界定复述研究的对象是短语或者句子的同义现象,需要用到多种自然语言处理的底层技术,因此,自然语言处理各种底层技术的不断发展和成熟,能够为复述技术进一步深入的研究提供基础。反过来,复述研究的成果,也能够有效的促进各种底层技术的发展,最终使计算机更为精确的理解自然语言。