论文部分内容阅读
针对基于短语的统计机器翻译(SMT)模型中由于采用精确匹配策略导致的短语稀疏问题,提出了一种基于短语相似度的统计机器翻译模型。该模型将基于实例的翻译方法引入到统计机器翻译中。翻译时,对于训练语料库中未出现过的短语,通过计算源语言短语之间的相似度,采用模糊匹配策略从短语表中查找相似的实例短语,并根据实例短语为其构造翻译。与精确匹配策略相比,利用相似度进行模糊匹配增加了对短语表的利用程度,缓解了短语稀疏问题。实验表明,该模型能够明显地提高统计机器翻译的质量。效果超过了当前最好的短语系统“摩西(Moses)”。