论文部分内容阅读
机器翻译研究在过去几十年的时间内取得了很大进步,在系统研发和理论创新两方面均有很大进展,某些机器翻译系统甚至开始步入人们的日常生活,比如Google的网上翻译。然而,机器翻译的发展依然受到语义问题的制约和束缚。这些语义问题主要是指歧义,包括词的多义、短语结构多义等等现象。由于语义研究的复杂性,因而学术界纷纷引入其它的方法避开语义计算,比如利用双语对齐语料确定语言之间的对应翻译关系。双语对齐是比较流行并且比较有效的双语翻译知识提取方式,主要包括词对齐和短语对齐。这种处理方式的主要特点是速度快而且比较有效。由于语料翻译多采用意译法,这使得双语文本经常出现段落错位和漏译。同时,由于在翻译中经常出现翻译歧义、位置歧义、高低频串、双语词典覆盖率和未登录词等等因素的影响,使得双语词对知识和短语对知识比较粗糙,并且含有一定错误,出现很多不能找到对译的成分以及难以提取到固定翻译。考虑到机器翻译的语义问题和对齐语料的优缺点,我们开发了一个面向英汉机器翻译的树库资源。该树库采用机器预处理和人工加工相结合的方法进行建设。其主要特点是,对所有的英语句子进行完全句法分析,同时对其句法分析形式进行了部分改造,将句法树的深度进行“压缩”并作部分改变,使其更符合英汉机器翻译的特点。另外,对英语的单词都依据一定的原则进行翻译,然后将译文逐层上传,层层累积,在根节点得到整句汉语译文。由于将汉语译文附着在对应的英语句法树的节点上,这就使得两种语言的两颗句法树合二为一,被纳入到了同一种语法体系之下。同时从语料中人工标注大量的英汉固定翻译模板,包括连续模板和非连续模板,这些模板有助于减轻句法分析难度和提高译文质量。实验表明,使用该方法构造的树库的翻译质量是可靠的,在BLEU和NIST测试方面与不受限制的专家译文不相上下。本论文完成的主要工作是:第一,针对现有的英汉机器翻译中使用的资源的种种不足,提出了一种新的英汉语言资源标注形式。这种新的形式可以将英汉两种语言的语法成分置于同一种语法体系之内,在英语和汉语之间进行平衡和调整。并用这种标注形式标注了三万句的英汉翻译树库。该树库包含丰富的语言信息和翻译信息,包括词性标注和单词翻译、短语翻译、句子翻译和大量的英汉翻译模板。这种标注形式在一定程度上避免了当前资源建设中的种种不足。第二,构造了一个界面友好的树库标注工具,可以用来减轻标注人员压力。(工具代码将完全公开)。第三,完成了一份较详细的标注规范以指导树库标注。