论文部分内容阅读
结构对齐无论对于基于实例的机器翻译还是基于统计的机器翻译都是一项基础性的研究工作。高质量的对齐短语是进行基于语料库的机器翻译获取高质量译文的重要保证。结构转换是结构对齐在统计机器翻译中的应用。本文主要研究结构对齐以及结构转换技术。具体来讲主要包括以下几个部分内容: 1.研究基于双语句法分析的结构对齐技术。基于双语句法分析的结构对齐依赖于双边句法分析和词汇对齐结果,将对齐限制在句法树结点之间,虽然抽取的短语较少,但是正确率较高。本文给出双语结构对齐的规范,设计了一种双语结构对齐的算法,并实现结构对齐的人工校正工具StructCheck。 2.研究基于源语言句法分析的短语对齐技术。基于源语言句法分析的方法克服了不同语系的语言句法分析差异较大的情况,可以抽取更多的短语。本文采用基于中心语块扩展的方法进行短语对齐,评分时选择短语直译率、短语翻译概率和短语长度差异三个特征,对候选译文采用N-Best策略进行分析。实验证明该方法取得较好的效果。 3.设计并实现基于元结构互译的结构转换模型。该模型建立在Koehn基于短语的统计机器翻译思想的基础上。本文给出元结构的概念,从源语言句法树中抽取元结构组,根据词汇对齐找出对应的目标语言的元结构组,通过计算元结构组翻译概率,得到元结构组转换表。解码时采用beam-search方法进行扩展译文,得到目标语言的元结构组序列,并根据结构转换过程的元结构组翻译顺序对源语言进行调序,进而提高基于统计的机器翻译系统的性能。