论文部分内容阅读
复述,即对相同语义的不同表达方式,是自然语言中非常普遍的现象,它反映了人类在使用语言时的灵活多样性,同时也为自然语言处理的研究提出了挑战。近年来,有许多学者针对复述问题展开研究,并尝试将其应用到机器翻译、自动问答、信息检索、信息抽取、文本生成等相关研究中去。复述研究主要包含两大类内容:其一是复述资源的获取,即从各式语料中基于各种方法抽取复述句对、复述短语、复述模板等不同粒度和形式的复述资源;其二是复述生成,通常指的是句子级的复述生成,即由计算机自动生成给定句子的复述句。本文的研究工作涵盖了上面两类问题。首先,本文尝试使用了多种语料库,并针对每种语料库提出了有效的方法以抽取复述短语、复述模板以及复述搭配等细粒度的复述资源。在此基础上,本文将抽取到的复述资源用于统计复述生成。本研究的主要内容包括以下几个方面:1.基于多种方法抽取复述短语资源。复述短语抽取一直是复述研究中的热点问题,有很多方法被相继提出。本文充分借鉴了前人的研究成果并加以改进,分别使用包括单语平行语料库、单语可比较语料库、双语平行语料库、类义词典同义词、词典注释以及搜索引擎用户查询等各类资源抽取复述短语。该工作的意义不仅在于获取了大规模的复述短语,更在于对各种语料资源以及各种复述抽取方法的综合、比较和分析。我们由此清楚地掌握了每种方法和语料资源的优缺点以及抽取得到复述短语的类型和特点等。2.基于“枢轴法”抽取复述模板资源。与复述短语相比,复述模板中含有表示变量的“槽”,可以通过在槽中填入不同的内容而得到不同的复述实例。因而,复述模板在复述的识别和生成中覆盖度更高、效力更强。本文提出了基于枢轴法从大规模双语平行语料库中抽取复述模板。该方法在句法分析和双语词对齐的基础之上分别抽取英文模板和中文模板,并进而利用中文模板作为枢轴来抽取英文复述模板。该方法使用对数线性模型计算两个英文模板的复述概率,其中使用了基于极大似然估计和“词加权”的特征函数。实验结果表明,利用该方法抽取出的复述模板数量大、准确率高,对后续的复述生成作用显著。3.基于二元分类的方法抽取复述搭配资源。复述搭配是指语义相同但字面表达不同的搭配。复述搭配在自然语言处理的众多领域中皆有应用,但前人的研究却鲜有涉猎。本文以动宾搭配为例研究复述搭配的抽取。具体地,本方法将复述搭配抽取视作二元分类问题,并综合使用了基于翻译、词典、极性词以及网络挖掘的多种特征。实验结果表明,本文所采用的二元分类的方法对于抽取复述搭配是行之有效的,其中使用的各种特征对于提高复述搭配抽取的效果皆有帮助。4.提出面向多任务的一体化统计复述生成方法。复述生成在自然语言处理的诸多方向均有重要应用,但在这方面的研究却很不够。本文通过对复述生成问题本质的分析以及与其它相关研究问题(尤其是机器翻译)的比较,提出了一种统计复述生成方法。据我们了解,该方法是第一个专门针对复述生成问题设计的统计方法。该方法的主要特色体现在以下两方面:首先,该方法基于一个统一的统计模型面向不同的应用任务生成复述句,以满足各种任务的不同应用需求;另外,该方法可以非常方便地融合使用以上抽取得到的各种复述资源,从而提高复述生成的性能和效果。总之,本文一方面致力于各种复述资源的抽取,一方面尝试将抽取得到的复述资源统一地应用到统计复述生成的问题上来。本研究取得了一些初步的成果,期待这些成果能对本领域的其他研究者产生一定的借鉴价值。随着自然语言处理的各项底层技术的不断完善以及计算机对大规模语料处理能力的不断增强,相信复述研究在未来会取得更大的突破。同时,复述技术的成熟也将促进其他相关研究的发展!