论文部分内容阅读
近年来,随着统计机器翻译(SMT)的快速发展,SMT系统开始应用于各大软件公司。高质量的译文对于进一步促进SMT实用化至关重要,然而,到目前为止,面向工业界应用的SMT系统生成的译文质量仍然无法真正满足用户要求。因此,为了提高机器翻译译文质量,自动对译文进行错误预测与分类成为SMT技术发展和应用的重要研究内容之一。 本文基于机器学习策略,将机器翻译译文错误检测问题作为一个监督分类问题,即给定一组候选译文,从已标注分类类别的数据集中抽取多个置信度特征,通过监督学习策略学习一个分类模型,然后将测试数据候选译文中的单词分为“正确”与“错误”两类。 本文首先抽取了3种典型的用于翻译错误检测和分类的单词后验概率特征,即基于固定位置的词后验概率、基于滑动窗的词后验概率和基于词对齐的后验概率;之后从语言学和源端信息出发,抽取了三种语言学特征(词性、词及由LG句法分析器抽取的句法特征)和一个源端单词特征。然后分别采用最大熵分类器和SVM分类器对以上特征及特征组合进行了错误分类实验,并进行了评价。在NIST汉英机器翻译数据集的实验结果表明,基于灵活对齐位置的单词后验概率表现要优于固定位置的单词后验概率,而且,语言学特征、源端单词特征对于进一步降低分类错误率是有效的,多特征组合可以显著降低分类错误率,提高译文错误预测能力。同时,实验也验证了无论是在独立特征实验还是组合特征实验中,SVM分类器都要优于最大熵分类器,其分类效果更好。 在独立分类器实验基础上,本文也提出了基于乘性组合的多分类器组合方法,将最大熵分类器和SVM分类器进行组合,并利用以上特征进行了实验。实验结果表明多分类器组合方法可以更显著降低分类错误率,提高错误预测性能。