论文部分内容阅读
互联网的飞速发展所产生的越来越多的双语数据,使得基于统计的机器翻译( SMT)成为了机器翻译领域的主流方法。然而相比已标注数据(双语句对,词对齐结果等),可用于统计机器翻译的未标注数据(单语的句子,未标注对齐的双语句对等)更容易获得,其数量也远远大于已标注的数据。如何利用未标注数据提高统计机器翻译的质量成为一个热门的研究方向。半监督的学习方法,能够利用未标注数据参与模型的训练和优化,提高统计模型的性能,在SMT中的应用也越来越受到重视。本篇博士论文将深入地研究如何将半监督的学习方法(包括自学习、互学习和基于图的学习)应用于统计机器翻译的各个阶段(包括词汇对齐、规则抽取,特征权重训练、翻译重排序和解码),提高统计机器翻译的质量。论文组织如下: 1.针对基于反向转换文法词汇对齐中的1-1对齐约束,本文通过引入短语对和层次短语对提出了增强的反向转换文法,并使用半监督训练方法来训练对数线性模型中的特征值和特征权重,以提高基于反向转换文法的词汇对齐的性能,从而可以抽取更为准确的翻译规则,提高SMT的性能。 2.针对基于句法的SMT(SSMT)的规则抽取中词汇对齐和句法分析不一致的问题,本文提出了基于边界集的目标化自学习方法和基于强制对齐的重训练方法,来利用词对齐信息修正句法分析结果中的错误,从而改善了翻译规则的质量,提高了SSMT的性能。 3.针对特征权重训练中的领域适应问题,本文提出了基于最小贝叶斯风险的自学习和互学习方法。为解决自学习和互学习训练过程中的不稳定现象,本文使用了基于最小贝叶斯风险的句子级系统融合方法来选择合适的翻译候选参与自学习和互学习的训练,显著地提高了目标领域上的翻译性能。 4.针对翻译结果的一致性问题(即相似的输入句子应该得到相似的翻译结果),本文使用了基于图的半监督方法,将SMT看做结构学习问题,并针对该问题提出了结构化的标记传播算法。本文进一步地将结构化标记传播算法获得的一致置信度作为特征,应用于常用的对数线性模型中,将该模型应用于SMT的重排序和解码,提高了SMT的性能。