论文部分内容阅读
近年,统计机器翻译取得了很大的进展:从基于词的模型,到基于短语的模型,再到各种句法的模型。虽然句法的模型有诸多优点,如可以处理长距离调序等,但它们也并不是完美的,都存在各自的瑕疵,如层次短语模型在解码过程中可能会大量使用“粘合规则”,MEBTG(基于最大熵的括号转录语法)模型在解码时仍然采取严格的字符串匹配等。
对于一些较大语种之间统计机器翻译,如英语和汉语,英语和阿拉伯语等,一些大学,科研机构等已经对其进行了深入的研究,但对国内的一些小语种和汉语之间的统计机器翻译很少有人对其进行深入的研究,比如维吾尔语和汉语之间的翻译。
本文的主要工作和取得的主要成果如下:
1.提出并实现了基于部分翻译假设共享的多模型协同解码系统,系统中的每个成员模型都可以共享其它成员模型的搜索空间,从而使得整个模型的解码空间得到极大的扩展。不同成员模型生成的部分翻译假设采取竞争的形式参与解码,使整个模型的搜索空间限制在较优的搜索空间范围内,这个较优的空间可能来自各个成员模型搜索空间的一部分。整个模型吸收了各个成员模型的优点,去除它们的缺点,例如,可以用最大熵调序模型取代层次短语模型和基于树模型中的粘合规则,而它们的联合同时使整个模型具备了泛化能力,而且使得生成的翻译假设更符合语言学知识。
2.对维汉翻译质量有影响的因素做了深入的探讨,分析,提出并验证了一些解决方案,它们包括汉维/维汉翻译中的词对齐问题,维汉翻译中的OOV问题,汉维翻译中的依存关系问题等。
3.使用多线程,负载均衡等技术设计并实现了在线多语言机器翻译框架。