论文部分内容阅读
平行语料库是自然语言处理(NLP)和机器翻译(MT)研究和工程应用的重要基础资源,基于平行语料库的各种方法不仅能够改进机器翻译的质量,还可以加强机器辅助翻译中的人机交互。现有平行语料大多只实现了句子一级的对齐,只有部分词对齐或同现词串对齐。尽管网络文本挖掘技术的不断提高,平行语料的规模空前增长,基于实例和统计的机器翻译技术取得长足发展,很多复杂的语言现象和翻译难题还是急需含有语言学深加工的语料的支撑,以提高分析和翻译的准确性。平行对齐树库的构建和应用就是一个重要的方向。平行对齐树库可用于自动词对齐系统的训练和评测,翻译规则抽取,词义消歧,翻译词典抽取及跨语言文化研究等,尤其是能够在加强句法分析、抽取灵活而复杂的语言经验规则和翻译调序规则方面提高机器翻译系统性能。本文比较传统短语结构语法(PSG)和依存语法(DG)及现有相应树库资源,提出融合两者优势的短语依存语法(PDG)并设计相应短语依存树库(PDT)标注方案,构建包含中英单语PDT和实现节点对齐的大工中英平行短语依存树库(DUT-CEPDT). PDG放弃PSG的主谓二分法,采纳DG以谓词为中心的格语法;放弃DG强行单一中心语二分法,保留PSG的中间层级,保留并列的多中心结构,最大程度实现多语统一的分析方案;标注统一的基于语义的依存方向,在每个节点标注的依存关系类型包含句法功能和语义角色两个特征。翻译对齐的内容是对齐翻译过程,是从词、短语、句子到段落各层级彻底对齐。语料分别经过分词和词性标注之后,导入到可视化语言学树库编辑器,构建从段落到词的短语结构层级关系,同时标注各层结构的依存方向和类型。最后开发专门的PDT节点对齐编辑器,进行节点ID关联连结,实现中英文树库的节点对齐。已加完成2年中国政府工作报告和100份62届联合国大会决议的标注,中文169,360字,英文128,283词。依次进行的短语结构划分与结构类型标注、句法功能依存类型标注和节点对齐三项标注一致性实验表明设计的标注方案有较强的可操作性。DUT-CEPDT不仅用于抽取翻译对和翻译规则,用于基于树库句法分析的机器翻译系统研发,还用于复杂而精细的语言学研究,并研发语言和语言学教学辅助系统。