论文部分内容阅读
进入21世纪,计算机互联网的迅速普及使人们可以很方便的接触到世界各国的语言文化知识。但是当一个人去看他所没有掌握的那些语言的内容时,就需要把这些内容翻译成他所懂得的语言形式,如果靠人工来翻译会很不方便,因此就产生了用计算机来翻译的需求,即机器翻译。
机器翻译系统最早采用基于规则的转换技术来实现,现在该项技术越来越成熟,但是利用它进行翻译的结果仍不十分理想。这是由它的内在缺陷决定的:规则的获得比较困难;规则并不能概括一种语言的全部语言现象;规则之间会出现冲突。
1984年,基于实例的机器翻译技术首先被日本机器翻译专家长尾真(Nagao.M.)提出并日益受到重视,它在西方拉丁语系中得到了较好的研究与应用。基于实例的翻译系统有三个优点:系统容易维护;容易产生高质量的译文;同语种相关的知识较少等。
但是基于实例的翻译技术到目前还存在两个难点:双语的对齐(特别是当两种语言相差较大时);匹配算法,即如何充分利用语料库中的知识从而得到较好的翻译结果。
随后,这种技术被国内的计算语言学者引入到汉外的机器翻译系统中。在被用于汉外翻译系统中后,基于实例的翻译技术除了其已经存在的难点外,又引入了新的难点,例如:
1、汉语句子需要分词,而分词的错误会影响到翻译的结果,甚至还有放大效应;
2、汉语和西方语言(如英语)间的对齐效果不是很好,如在西方语言之间存在较多的同源词,而在汉语中就没有。
本文认真研究并对比了几种常用的机器翻译技术,如:基于规则的技术、基于统计的技术、基于实例的技术、以及在目前比较流行的多引擎翻译技术。考察了各种技术的优点、缺点及其难点。重点研究了基于实例的翻译技术及其翻译过程,包括双语语料库的设计,语料库的自动建立,翻译时的匹配技术及翻译结果的选择。在深入研究了前人在该领域的这些重要研究成果后,根据汉语语言的特点,提出了一种新的基于实例的汉英技术翻译策略,我们称之为基于语言片断对齐的汉英翻译,该策略对当前的汉英翻译技术的改进是不预先进行待翻译汉语句子的分词操作,这样可以避免由分词错误所带来的翻译错误,同时它也可以很好的确定翻译片断的边界,得到较好的翻译译文。
我们的工作具体包括三个部分:设计了一个适合于我们所提出的汉英机器翻译策略的汉英双语语料库。为了我们翻译策略的需要,我们在语料库的结构上不仅做到双语句子级的对齐,也进行了词语(语言片断)级的对齐,提出了一种翻译时汉语句子的匹配算法。在本策略中,我们根据汉语句子的特点,在进行翻译时的汉语句子匹配时,没有对待翻译的汉语句子预先进行词语切分,而是把它与语料库中的汉语句子进行字对齐操作。在语料库中,可以进行翻译的基本单位被括在两个“/”之间,我们称之为语言片断。根据这些语言片断,我们来确定待翻译句子词语划分的边界和可以进行翻译的句子片断边界。
研究并讨论了一些汉英双语语料库的自动构建问题。由于用手工来建立大规模的双语语料库费时费力,因此在语料库建立过程中就要尽量采用计算机自动建立。本文在语料库的自动建立过程中一些步骤采用了前人比较成熟的技术,如双语段落的自动对齐、句子自动对齐和词语自动对齐技术。双语词典包含两部分:手工建立的基础部分和用统计的方法在语料库中统计得出的附加部分。最后,在词语级对齐的双语语料库中引入聚类(clustering)技术,对一些用法相同或相近的词、短语、语言片断进行聚类,以提高语料库的覆盖度,并进而提高翻译结果的质量。