论文部分内容阅读
本文主要研究双语最大名词短语的识别对齐及其在统计机器翻译中的应用。机器翻译本质上是个语言问题,其最终解决也必须依靠语言学知识的运用。研究如何更有效地在统计机器翻译中融入有价值的句法层面的语言学知识,对于推动统计机器翻译的发展,具有重要的理论意义和应用价值。本文针对汉-英语言对,在考察了具有丰富句法和语义信息的汉英最大名词短语的结构特点后,从统计机器翻译的实际应用出发,致力于最大名词短语在双语中的扩展—双语最大名词短语的识别和对齐的研究,并论证在统计翻译模型中融入双语最大名词短语的可行性。研究内容主要包含以下四个部分:⑴提出并研究引入混合特征的汉语最大名词短语双向标注融合识别算法以汉语最大名词短语识别为研究任务,在分析现有方法的基础上,从汉语的语言学特殊性以及基于支持向量机的序列标注算法的特点出发,考查了基于混合特征的融合算法的适应性。通过理论分析和实验证明,采用词和基本组块混合标注单元的标注方法对汉语最大名词短语的识别是有效的,并且其正反向识别结果具有一定的互补性,在此基础上提出的基于“边界分歧”的双向序列标注融合算法能发掘双向识别的互补性,并达到较高的融合精度,F-1值达到88.24%,比采用传统模式的基线模型提高了2.34%。⑵提出并设计实现一体化的双语最大名词短语的识别对齐算法在汉英最大名词短语结构分析的基础上,提出了一体化的双语最大名词短语识别对齐算法。该算法有效发掘双语最大名词短语识别的互补性,利用双语序列的对位信息辅助最大名词短语的识别,建立一个双语最大名词短语识别对齐一体化模型,实现识别和对齐的双赢。实验结果表明,一体化的双语最大名词短语的识别对齐算法显著地提高了双语最大名词短语的识别对齐性能,F-1值达到81.91%,比基于句法树的方式提高了超过10个百分点。⑶提出并设计实现基于双语协同训练的最大名词短语识别算法以提高最大名词短语的识别性能和领域适应性为目标,提出了双语协同训练算法,并对增量标记的选择做了详细的论述。双语协同训练算法不同于普通的协同训练,该算法把汉英两种不同语言的句子看作一个数据集的两个不同视图,融合汉英语言特征,充分利用汉英最大名词短语识别的互补性,进行协同训练。协同训练过程中跨领域未标注数据的加入增强了识别算法的领域适应性,这对于统计机器翻译中的大规模跨领域的语料处理任务有重要的意义。实验结果表明,该算法显著提高了最大名词短语的识别性能和领域适应性,跨领域的最大名词短语识别的F-1值提高了4.52%。⑷提出并实现融入双语最大名词短语的统计机器翻译模型提出了三种由简到繁的把双语最大名词短语融入到统计翻译模型的策略,整体翻译性能逐步上升。其中,Method-III采用“分而治之”的策略,以“硬约束”的方式在统计机器翻译中融入最大名词短语,并在双语最大名词短语层面上,融合了短语翻译模型和层次短语模型,显著地改善了翻译系统的输出,复杂长句翻译效果尤其明显,BLEU值比基于短语的基线翻译模型提高了3.03%。综上所述,本论文在汉语最大名词短语识别、一体化的汉英最大名词短语识别对齐以及最大名词短语识别算法的领域适应性等方面进行了大量的实验和深入的研究,显著地提高了双语最大名词短语识别对齐性能,增强了识别算法的领域适应性,并在统计机器翻译中融入双语最大名词短语,改善了译文的质量。