论文部分内容阅读
机器翻译是自然语言处理中的一个重要研究方向。近年来,统计机器翻译取得了很大的成功,基于短语的翻译系统在机器翻译评测中占据了主要地位,并且取得了领先的成绩。最大熵模型可以方便地添加不同的知识源,目前已经成为统计翻译的主流框架。
本文针对统计机器翻译解码器的设计与实现以及统计机器翻译实验平台的建设问题做了相关的研究和探讨,主要内容归纳如下:
(1)实现了最小错误率的参数训练方法
最小错误率的最大熵翻译模型参数训练方法直接以翻译结果的评价标注为优化准则,在一定程度上可以提高参数训练的质量。本方法的实现为实验系统开发和平台建设提供了灵活方便的工具模块。
(2)设计实现了基于柱搜索的解码器
在解码器实现过程中,充分考虑了算法的执行效率和可扩展性等因素,为统计翻译系统的实现奠定了基础。
(3)建立了统计翻译系统实验平台
在上述工作和已有技术的基础上,建立了一个统计翻译系统实验平台。该平台提供了丰富的功能选项和接口,为统计翻译系统的深入研究提供了方便。