论文部分内容阅读
目前,统计机器翻译已经成为机器翻译研究的主流,其研究经历了基于词模型、基于短语模型和基于句法模型的演变过程,正向着语义知识的模型迈进。在英汉等语言上已经取得了令人瞩目的可喜成绩。而面向藏语句法翻译模型的研究还处在起步阶段。这一方面是因为藏文信息处理的起步比较晚,另一方面是由于目前尚未完全解决藏语句法翻译用基础性关键技术。句法翻译模型是基于句法树的翻译模型,这种模型是利用句法树中所包含的句法知识和语义知识来构建的。其先决条件是具有比较成熟的词法分析技术、句法分析技术以及基于句法树的翻译规则自动抽取技术。而且依存句法树结构作为语义分析的先决工作,有助于提高统计机器翻译的质量。为此本文对依存树到串藏语机器翻译的一些关键技术进行了探索,目标在于完整地实现一个源端为藏语依存树的机器翻译系统。主要的研究内容和成果分四部分,具体如下:1.实现了一个包含分词和词性标注的藏语词法分析系统。考虑到藏语词法分析的实用性,提出先分词后词性标注的策略进行研究和实验。第一,分词部分提出了判别式的感知机模型加词图重排序的藏文分词方法,和基于规则的藏语音节切分方法。利用音节特征感知机模型进行词语粗切分并生成词图,然后在词图上计算最短路径时查询词典惩罚边权重,生成最优分词结果。兼顾了词语组成单元音节的局部特征和词语间非局部特征。第二,词性标注部分同样采用感知机方法提出基于判别式模型的藏语文本词类标注方法,融合藏语格词接续和词法特征训练出在线平均感知机词性标注模型,利用柱搜索解码算法实现了分词后的词性标注子模块。经实验证明,达到了比较理想的实验效果,目前已应用于全国藏汉机器翻译评测和句法分析等应用研究领域。2.根据藏语自身特点,首先制定了36类藏语依存句法标注规范。其次,藏语依存树库构建过程中存在的问题,提出了新颖的半自动依存树库构建模式,实现了基于词对依存分类模型的半自动树库构建可视化工具。首次构建了藏语依存树库TDTreebank V1.1,规模达1.1万句。第三,针对藏语特性提出融合丰富特征的统计藏语依存分析模型,实现了基于一层感知机模型的藏语依存句法分析器。实验结果表明,藏语依存句法分析的性能基本达到实际可用的水平,初步解决了目前藏语还没有依存句法标注规范、树库和依存句法分析器的实际问题。3.实现了藏语依存树到串模型翻译规则的抽取算法。根据依存树中依存关系的支配准则,用头-依存关系HDR (head-dependent relation)片段对藏语依存树进行分解,保证每个HDR片段包含与其他HDR片段重叠的节点,使得只需替换作为基本操作来描述依存树的生成过程。翻译规则的抽取算法通过树标记、可接受HDR片段的识别和规则的生成三步完成。翻译规则的源端为泛化的HDR片段,目标端为变量和目标语言词组组成的序列,对其进行泛化时引入了藏语开放词和封闭词性的约束,以改善翻译规则的判断能力。同时在生成头节点翻译规则时,引入了藏语基本数词的翻译模型。实验结果表明,词性的约束和基本数词的翻译有助于提高依存树到串模型的性能。4.实现了藏语依存树到串模型机器翻译的解码算法。本文选择自底向上的线图分析算法,由于在翻译规则中使用了子树一致性跨度的可接受HDR片段识别方法,对头-依存基本结构单元的操作只作替换,而且调序信息也表示在翻译规则中,故不再需要调序模型,简化了翻译解码算法。对于翻译规则词汇化和多种泛化的翻译表示方法,本文采用了所有翻译规则的完全匹配策略翻译方案,并用条件过滤和立方体剪枝算法生成最终的翻译假设。在小规模藏汉平行语料上进行了实验,结果表明,藏语依存树到串模型表现出了比较好的性能。本系统是目前第一个完成基于藏语句法翻译模型的藏语统计机器翻译系统。