论文部分内容阅读
近年来,统计机器翻译发展迅速,涌现出很多新的模型和方法,在简单句或者句式固定的翻译上取得了较好的结果,并获得了一定的应用,但是在复杂长句的翻译上仍然存在连贯性差、可读性不高的问题。随着语言资源的不断丰富,人们对翻译质量的要求不断提高,如何改善复杂长句乃至篇章的译文质量逐渐吸引了研究人员的视线。目前对于这类问题的相关研究大多集中于词汇层面的衔接性和连贯性上,而缺乏对句子逻辑结构的深层次理解,因此译文在语法层面的衔接性、逻辑语义层面的完整性和一致性上依然存在问题,并且影响了句子的语义连贯性。因此,研究如何自动获取篇章的逻辑结构信息,并借助篇章信息解决译文的语法衔接、逻辑语义等一系列问题,具有重要的理论意义和应用价值。 本文从面向篇章翻译的基本需求出发,对如何自动获取源语言(这里针对汉语)的篇章结构和逻辑关系进行了深入研究。在此基础上,本文提出了基于修辞结构的翻译方法,并借助复句结构和词对齐信息对翻译中的语法衔接现象建立了翻译模型,最后探讨了如何利用双语的篇章单元信息来保持译文篇章单元的完整性。 论文的主要工作和创新点归纳如下: 1、设计实现了基于最大熵方法的汉语篇章一体化分析器,为面向汉语篇章的机器翻译系统提供了关键的预处理语言学信息:基本篇章单元、篇章结构和篇章关系。 就基于篇章的统计机器翻译而言,构建一个一体化的篇章分析器是必要条件。一方面,目前有关汉语篇章自动分析的工作大都只针对篇章分析中某个单独的任务,比如切分篇章单元,或者识别复句关系;另一方面,目前相关研究工作所依据的理论框架不尽相同,标注标准很不统一,仅将已有的汉语篇章切分或识别的工作简单地串联起来不利于后续的分析和使用。因此,考虑到目前机器翻译任务中(特别是汉-英翻译)存在大量的复句,本文针对汉语复句设计了一体化的自动分析器,在统一的理论标注框架下完成了以下三项任务:(1)汉语篇章单元的切分:采用序列标注的方法自动切分汉语篇章单元;(2)汉语篇章结构的分析:本文提出了基于最大熵模型的篇章结构参数估计方法,并设计了词汇化和句法信息相结合的特征,以CYK解码的方式自底向上地构建篇章结构;(3)篇章关系的识别:在篇章结构树的基础上对篇章关系进行分类和识别。实验结果显示,篇章单元识别效果能达到0.89的F值,当复句关系不超过三层时,复句结构和关系的分析效果较好。 2、提出了一种基于修辞结构的翻译方法,该方法将源语言篇章单元和显式篇章关系融入翻译模型,保证了译文和源语言在修辞关系上的一致性。 目前主流的翻译系统并未考虑如何让译文忠实地反映源语言句子的修辞关系和修辞结构,仅根据翻译模型、语言模型等特征挑选译文,这可能会导致源语言句子的语义完整性在翻译过程中遭到破坏,更无法保证译文和源语言具有一致的修辞关系。本文从显式修辞关系出发,提出了一种基于修辞结构的翻译框架,并将其与基于短语的翻译模型相结合以适应复杂长句的翻译。该方法将源语言篇章单元和显式篇章关系纳入翻译模型的考虑范围,在一定程度上保证了源语言基本篇章单元的完整性,并在译文中保持了源语言句子的修辞结构。实验结果表明,该方法能有效地改善译文质量,增强了译文的可读性。 3、提出了一种基于汉语复句结构的增强语法衔接性的翻译方法,该方法能够提高解码器对源语言逻辑结构的敏感性,显著地改善译文的语法衔接性。 目前在机器翻译领域,专门针对语法衔接性建模的工作比较少,有些研究工作虽然系统地研究了衔接词的翻译方法,但在整句翻译的质量上并未取得显著的提高,因为篇章连接问题不仅仅是衔接词的翻译。本文从源语言的篇章结构和逻辑关系的角度出发,利用源语言复句结构和词对齐设计了一种基于篇章复句结构的翻译规则,这种翻译规则能够将目标语言的衔接词和源语言的篇章结构显式地关联起来。另外,我们还提出了一种从源语言篇章结构到目标语言衔接词的转换模型,并将其融入到翻译的对数线性框架中,以鼓励解码器生成语法衔接性更好的译文。实验结果表明,该方法能从双语平行语料中自动学习出与结构相关的衔接词,并能显著改善译文的质量。 4、提出了一种译文篇章单元完整性的度量方法,该方法能从目标语言的角度衡量译文篇章单元的完整性,帮助翻译系统有效地改善译文质量。 目前利用目标端语言学知识的研究工作大多只利用了词汇层面或者句法层面的知识,没有从篇章层面衡量翻译候选的好坏,可能会使译文语义片段不完整,从而难以形成合法的译文篇章结构。针对以上问题,本文提出了一种衡量译文基本篇章单元完整性的方法。该方法的主要思想是:从标注了篇章单元信息的目标语言语料中自动学习如何预测译文的篇章单元完整性,并在源语言篇章单元的约束下对翻译候选的完整性进行打分。该方法不依赖于特定的翻译模型,具有良好的扩展性。但其性能受限于双语基本篇章单元一一对应的假设,面对真实语料中不完全一一对应的情况,我们进一步提出了适应性解码的解决办法,根据翻译过程中的各项特征表现,自动判断当前句子是否应采用篇章单元完整性模型。实验结果证明,在翻译系统中结合完整性模型和适应性解码可以进一步提高翻译系统的鲁棒性和译文质量。