论文部分内容阅读
双语对齐是平行语料库加工的关键技术之一。目前的自动双语对齐研究较少利用语言学知识,这导致了基于这些研究的对齐结果缺乏语言学意义。翻译单位概念旨在描述译者如何选择源文和译文之间的对应单位的思维过程。因此,建立基于翻译单位的自动双语对齐模型,有利于计算机模拟人类的翻译过程,从而一定程度上克服目前自动双语对齐研究的盲目性。本研究首先从翻译单位的定义出发,通过定性和定量分析两种手段来确定翻译单位的基本属性。然后,本研究从计算语言学角度探索如何将翻译单位的属性形式化并据此建立基于翻译单位的双语对齐模型,使得计算机能够自动识别并提取双语文本中的翻译单位。最后,本研究根据此双语对齐模型的结果,进一步讨论翻译单位的性质及统计分布规律,并分析该模型在机器翻译(尤其是基于实例的机器翻译)系统中的应用价值。本研究总结了翻译单位的研究现状,指出翻译单位虽然是翻译界广泛关注的问题,但是各研究派别对于该概念的定义和性质看法莫衷一是。通过对比翻译单位的主要定义,本文作者总结出翻译单位的四个基本属性(或特征),即紧密性、独立性、无歧义性和无对应性。这些特征分别从源文某语言单位内部各成分之间的联系、该单位与上下文之间的联系、该单位是否具有歧义或该单位的各成分在译文中的对应情况等角度来分析它是否可以被视为翻译单位。各翻译单位定义的差异在于它们分别强调翻译单位的某一方面属性(或特征)。与此同时,本研究从NIST 2002机器翻译评测项目的测试集中选取491对句珠,依据紧密性、独立性、无歧义性和无对应性标准对其中的翻译单位进行手工标记。统计结果表明,分析角度不同,对翻译单位的判定结果也不尽相同。具体来说,紧密性、独立性和无歧义性标准倾向于将词与其上下文语境组合认定为翻译单位,而根据无对应性标准划分的翻译单位则倾向于以词为主。前者比后者长度更大,而且与后者呈现包含与被包含关系。随后,研究者综合上述翻译单位的四种基本属性,提出了面向自动双语对齐的翻译单位的工作定义,并分别讨论这些属性形式化所需的计算语言学模型及语言资源。具体来说,本研究主要应用GIZA++统计词对齐模型、N元组互信息势差(mutual information potential difference,MIPD)及基于向量空间模型(vector space model,VSM)的语义相似度计算等方法来判断源文某语言单位的紧密性、独立性、无歧义性和无对应性。其中,GIZA++词对齐模型用于提供双语文本中词汇层的对齐信息,据此我们可以判断词是否是基于无对应性标准的翻译单位;N元组互信息势差是本研究提出的一种基于互信息的新统计量,它将紧密性和独立性结合起来以便更加科学地判定翻译单位;而向量空间模型则通过计算某源文单位所有对应译文间的语义距离来判断该单位是否是基于无歧义性的翻译单位。为了满足计算的需要,本研究在使用双语语料库的同时,还引入Google公司的Web 1T 5-gram大规模单语语料库来克服数据稀疏问题。本次研究所建立的基于翻译单位的自动双语对齐模型的工作机制是:首先,对源文和译文进行词性标注和句法分析,同时以GIZA++统计词对齐结果作为锚点,得到源文与译文在各语言层次上的对齐关系。然后依次对这些对齐片段进行紧密性与独立性、无对应性及无歧义性分析或计算。当且仅当源文某单位符合以上一个或多个属性标准时,才被最终认定为是翻译单位。总而言之,该模型在现有的双语句子级对齐的基础之上,通过一系列计算确定了源文与译文在翻译单位层次上的对应关系。通过分析基于翻译单位的自动双语对齐模型的实验结果,本研究达到了对翻译单位本质的新认识:首先,翻译单位是一系列的源文单位,它们由于某种因素,如该单位内部各成分紧密相连、相对独立于上下文语境、没有歧义或者某些成分在译文中缺少对应而被视为一个整体进行翻译。也就是说,翻译单位身份之成立,既有可能是源文的形式特征或语义特征自身使然,也有可能是源文与译文对比分析的结果。其次,分析角度不同,翻译单位的大小也不相同。翻译单位本质上是动态的。基于翻译单位的双语对齐模型不仅为翻译单位理论研究提供了新的视角,而且为自动双语对齐提供了必要的语言学指导,因而有助于提高基于语料库的机器翻译系统的表现。本对齐模型在翻译单位的层次上进行双语对齐,从而避免了系统在不可能或不必要的层次上进行盲目地对齐。通过对通用的GIZA++统计词对齐结果进行增加、删减及检验等操作步骤,本对齐模型提高了自动双语对齐的数量和质量。另外,本对齐模型的实验结果为机器辅助翻译系统提供了有用的语言素材。它们可作为翻译记忆库或术语库中的内容呈现给译者,为其解决翻译问题提供参考,从而提高翻译质量和翻译效率。本研究的不足之处在于,作为将翻译单位应用于自动双语对齐研究的初步尝试,在选择合适的统计方法或计算模型来实现翻译单位的计算时还有很多不成熟的地方。本研究过于依赖GIZA++的词对齐结果,但是该对齐结果的正确率并不令人满意。另外,除上述计算语言学模型和资源之外,其它一些技术方法,如Wordnet等语义词典,理论上也能够应用于翻译单位的计算任务,但是它们在本次研究中并未得到详细讨论。最后,本研究提出了今后可能的研究方向。这主要包括:进一步分析基于翻译单位的自动双语对齐模型对统计机器翻译系统的具体影响,以及根据该双语对齐结果深入探究翻译单位的普遍规律。