论文部分内容阅读
虽然机器翻译已经有了50年左右的历史,但目前它的研究仍然没有取得实质性的突破。机器翻译的方法主要包括基于规则、基于例子和基于统计的三种方法,但它们都有各自的局限性,而基于模板的机器翻译(简称TBMT)在某种程度上可以综合它们的优点,所以引起了国内外学术界一定的关注。但TBMT需要大规模的翻译模板才可以获得较高的正确率,因此如何解决构建大规模模板库的问题就显得非常重要,本文的目的就是对怎样从双语平行语料库中自动抽取翻译模板的算法进行研究。
本文首先概括了机器翻译的历史、发展及主要的方法策略,同时对基于模板的机器翻译作了简单介绍。然后以TranslationTemplateLearner(TTL)算法为原型,提出了一种改进的英汉翻译模板提取算法——基于句子比较的翻译模板抽取(简称ATTEBSC)算法。TTL算法最初被应用于英语——土耳其语模板自动抽取的研究,而这里ATTEBSC算法主要被应用于自动抽取英汉翻译模板。ATTEBSC算法的基本思想是通过句子的比较来获取翻译模板,既不需要双语词典,也不需要进行句法分析,它的实质是先利用一种基于向量空间模型的方法对语料库中的句子进行聚类,把具有相同或相似结构的句子合成一类;再利用计算最长公共子序列(LCS)的方法把同一类中的句子按照设定的阈值进行过滤并把相应的句子对改写成TTL算法所要求的格式,最后通过这种格式分析对应变量或常量实现模板的自动抽取。实验表明,ATTEBSC算法能够学出许多有价值的模板、效果良好。虽然它也会生成大量的无用模板,但是它具有容易计算和资源需求少的优点,而且能够方便地通过人工干预进一步提高模板的准确率,不失为一种有效的翻译模板提取算法。
此外,本文还实现了一个英汉翻译模板抽取系统,其核心是将与模板抽取相关的关键算法封装成可复用的组件,主要的算法包括:最大逆向匹配、最大概率法分词、句子聚类、LCS计算和ATTEBSC等。同时,该系统也集成了一些必要的相关辅助功能,以方便上述各种算法的使用。