论文部分内容阅读
随着科技的进步、社会的发展、全球化进程的加快和国际交流的日益频繁,消除不同语言的障碍也显得愈加重要。机器翻译作为解决这一问题的有效手段,受到了研究者们的普遍重视,近几年来得到了快速发展。
机器翻译就是利用计算机实现从一种语言到另一种语言自动转换的技术。目前,基于统计的翻译方法是研究的热点。机器翻译经过几十年的发展已经取得了巨大的进步,但是仍然有很多理论问题和实现技术问题没有得到解决,全自动高质量的翻译仍然难以获得。本论文就是面向口语翻译中未登录词和未登录短语的翻译问题,以及统计翻译中的数据选择问题开展相关研究。这项研究具有重要的理论意义和应用价值。
论文的主要工作和创新归纳如下:
(1)提出并实现了针对未登录词的交互式翻译方法。未登录词是口语中普遍存在的现象,通常是句子中的关键信息点,无法正确翻译的话会对系统的翻译性能造成很大的影响。但是由于数据稀疏问题,系统难以自动解决。因此,我们提出了针对未登录词的交互式翻译方法。该方法首先通过人机交互,确定未登录词的边界;其次利用分类器判断未登录词的类别;然后调用对应翻译模块翻译未登录词,生成候选翻译;最后由用户判断未登录词的候选翻译是否正确。经人机交互后成功翻译的未登录词将被保存进记忆库,再次遇到相同的问题时系统可以自动处理。由于系统使用者为机器翻译系统提供了未登录词的知识,因而该方法有效提高了译文的质量。
(2)提出并实现了针对未登录短语的交互式翻译方法。由于基于短语的统计翻译系统采用短语精确匹配的策略,大量短语由于得不到精确匹配成为了未登录短语,同时短语表中很多语义相同的相似短语得不到充分地利用。我们提出了针对未登录短语的交互式翻译方法。该方法首先采用短语模糊匹配的方法为未登录短语在短语表中查找相似短语,并生成扩展句子;然后利用组合分类器判断哪些句子的翻译质量得到了提高;最后采用基于有限状态自动机的对话管理模型进行人机交互,由用户选择语义保持不变的扩展句子。由于该方法充分利用了短语表中的相似短语,达到了提高翻译系统性能的目的。
(3)提出并实现了面向统计翻译系统参数训练的数据选择方法。统计翻译系统的性能严重依赖于语料库的数量和质量。以往的工作集中于如何收集更多的训练语料,而我们的研究关注于如何提高语料的质量。在训练集语料上,我们采用基于长度比值和翻译比率的策略过滤噪音策略,然后采用基于未见短语覆盖度的方法选择训练数据。在开发集语料上,我们提出了基于短语覆盖度和基于句子结构覆盖度的数据选择方法。采用我们的方法,可以提取出信息量更高的句对,从而在不降低系统性能的基础上,减少了训练集语料和开发集语料的规模。
综上所述,本论文在口语翻译中的未登录词和未登录短语翻译问题,以及统计翻译系统的数据选择问题上进行了深入研究,提出的交互式翻译方法有效解决了未登录词和未登录短语问题,数据选择方法可以显著减少训练集语料和开发集语料的规模,提高了口语翻译系统的性能,在口语翻译系统的实用化方面进行了有益的探索。