论文部分内容阅读
人名翻译接收一个源语言表示的人名作为输入,输出该人名以目标语言表示的翻译。在人名翻译过程中,在保持源语言和目标语言发音基本不变的原则下,调整源语言人名使之符合目标语言的语言习惯。人名自动翻译是很多跨语言应用的一个很重要的组成部分。近年来,人名音译的研究受到越来越多的关注,特别是当音译涉及的两种语言的字符集差异比较大的情况(例如:英文和中文这两种语言)。尽管关于中英文跨语言应用有很多,但是对这两种语言之间的自动音译目前还缺乏全面系统的研究。
本文主要针对英汉人名音译问题进行研究,系统地比较了几种音译模型在进行英汉人名音译时的性能。主要内容如下:
(1)将英汉人名音译问题转化成序列标注问题,并采用基于记忆的学习方法、最大熵模型和条件随机场模型三种机器学习方法进行英汉人名音译。通过实验对比了这几种方法在多种特征集上的音译性能,实验表明,在使用相同特征的条件下,条件随机场模型的性能最好。
(2)将基于短语和基于双语N-gram的两种统计翻译模型应用于英汉人名音译,并对比了它们的性能。实验表明,当翻译模型和语言模型从同一个训练语料上获取的时候,基于双语N-gram的音译模型的性能优于基于短语的音译模型。此外,还考察了两种统计音译模型在不同语言模型上的表现,实验结果显示,好的语言模型有很强的重排序作用,能较大地提高英汉人名音译性能。
(3)通过对以上五种音译模型在英汉音译问题上的实验结果进行分析,本文作者发现,以上五种模型的性能虽然有差距,但是差距并不明显,而且它们的结果的重合度很高。另外,正确结果大多数会出现在结果列表中,但是很多出现在靠后的位置。这可能预示着单纯用统计方法进行英汉人名音译在方法上是不足够的,需要求助于别的手段获取更好的音译结果。在这个指导思想下,本文设计了网络挖掘和统计音译结合的英汉双语人名音译系统,并实现了其中的统计音译模块。
以上工作为网络挖掘和统计音译相结合的英汉双语人名音译系统的研发奠定了基础。