论文部分内容阅读
随着全球化程度的提高,世界各国之间的各种交流越来越频繁,语言是最直接的交流方式,机器翻译就是研究如何利用计算机实现一种语言文本到另一种语言文本的翻译。过去几十年中,统计翻译方法成为研究的热点,翻译模型也从基于词的模型发展为基于短语的模型,并在近期的国际翻译评测中取得了领先的成绩,成为统计机器翻译的先进的技术,但基于短语的翻译依然存在数据稀疏、长距离重排序等问题,近来研究者试图在翻译中引入语言学知识来解决这些问题,基于句法的翻译越来越引起研究者的浓厚兴趣,而在基于语法的翻译中融入基于短语翻译的优点也成为大家的共识,本论文正是研究基于短语与句法结合的翻译中的关键技术,并通过各种实验探讨各种技术对翻译质量的影响,论文的工作归纳如下:
1.提出了一种基于双向裁剪的翻译模型。
翻译模型是统计机器翻译的核心,它直接影响着翻译质量。在基于词的基准统计翻译系统中,本文提出利用源语言与目标语言双向翻译概率进行平滑训练,得到最终的基于词的翻译模型。本文提出的模型有助于消除单向IBM翻译模型训练中噪声的影响,在实验中BLEU得分提高了0.009。
2.提出了一种“空扩展”柱搜索算法。
在基于短语的统计翻译中,由于语言知识的差异,中文翻译成英文时,某些目标语言词需要被补充,这些出现频率很高且在IBM翻译模型中对空的词称为Fzerwords,对应于Fzerwords的路径扩展称为“空扩展”,论文解码时采用了“空扩展”柱搜索算法,这种搜索算法使Fzerwords修正了翻译结果,实验中使得翻译结果的BLEU得分提高了0.01以上。
3.提出了一种基于多特征融合的翻译模型训练方法,并提出通过提取短语模板对短语进行泛化,解决数据稀疏与重排序问题。
论文提出利用四种特征融合训练翻译模型,并与其它模型以log-linear形式结合,通过最小错误率训练特征系数;为了解决翻译中的重排序与数据稀疏问题,论文提出通过提取包含命名实体的N类模板与非命名实体的X类模板,对原始的短语进行泛化,部分的解决了短语间的重排序问题。
4.提出了基于串到树对齐模板的翻译模型,通过提取三类串到树对齐模板来解决翻译中源语言词到目标语言词的转换及重排序问题。
通过对目标语言进行句法分析,本文提出抽取并训练三种串到树对齐模板:对应于源语言词串与目标语言子树的翻译模板TransTemplatel、源语言与目标语言子树都由终结符与非终结符构成的模板TransTemplate2、至少一端只由非终结符构成的重排序模板ReorderTemplate,三种模板都具有语言学信息,论文利用三种模板解决短语内部及高于原始短语层次的长距离重排序问题,从而使翻译结果更符合语言学的要求。
5.论文提出了融入串到森林对齐模板的串到树对齐翻译模型。
通过对串到树对齐模板的扩展,融入了串到森林对齐模板。串到森林模板通过描述串和多个子树之间的对齐关系来捕获非句法短语,使串到树翻译的功能进一步增强,论文还进一步讨论了串到树模板与分层短语的融合。
本论文在基于短语与句法结合的翻译中,对翻译模型的训练、重排序问题、语言学知识的引入等问题进行了探讨与研究,通过实验证明了各种技术对翻译性能的提高,为进一步研究各种翻译方法的融合打下了基础。