论文部分内容阅读
当今自然语言处理最见成效而且被普遍应用的是统计方法。这不仅是因为自然语言普遍存在不确定性,传统的理性主义规则方法显得力不从心;而且从人力资源的成本和经济效益来看,语料库方法受到普遍的青睐。尤其在重现频率高、实际使用面广泛的专用领域的机器翻译中,双语语料库的加工具有重要的应用价值,也同样有理论意义。双语短语对齐指揭示对译的句子之间短语层次上的对应关系,是双语语料库加工的重要环节。短语对齐的双语语料库可用于翻译知识的自动获取。本系统的输入是面向特定领域的、句子对齐的、未经切分词性标注的英汉双语语料库,输出是短语对齐的双语句法树库。传统的双语短语对齐思路是分别对源语言、目标语言进行句法分析,经排歧后得出一对句法树对,然后对这对句法树对进行短语对齐。该方法的缺陷是对齐正确率受句法分析正确率影响很大。本文利用双语的特点,在“两种语言比一种语言含有更多的信息”认识的基础上,提出同时进行句法消歧和短语对齐的思路。以源语言句作为目标语言句的附加信息排除目标语言句的歧义;同时以目标语言句作为源语言句的附加信息排除源语言句的歧义。使排歧在两种语言之间进行。这样同时分析两种语言反而比分析一种语言还要容易,难度上体现出“1+1<1”的优越性。实现这一目标的理论基础是反映对译的源语言句法树和目标语言句法树之间对应和约束关系的对齐模型。由于对译的两种语言的句法树间通常不存在简单的对应关系,所以如何克服翻译中异常现象的干扰,揭示出其间复杂对应关系是主要难点。现有理论只能处理简单语序调整情况,而对其它翻译异常无能为力。本文提出了翻译中的相对不变准则,并在此基础上提出了基于抽象句法树的对齐模型,不但能处理语序调整情况,还能处理其它翻译异常。词性标注是对齐的预处理环节。本文提出了具有双重状态的隐马尔可夫词性标注模型。汉语词性标注的困难在于确定兼类词的词性。兼类词在汉语词典中仅占很小的比例(约为1500个),因此,本文对兼类词进行特殊处理,使每个兼类词具有一个专有的状态转移概率矩阵。标注过程中遇到兼类词时,不但使用常规的状态转移概率信息,同时还结合特定兼类词的状态转移概率信息,计算兼类词上下文中的状态转移概率,对属于同一词类的不同词区别对待,从而提高了模型的精确性。由于兼类词的数目小且使用频率高,所以不会受到存储空间和数据稀疏问题的影响。前期语料库准备工作中研究使用的双语语料库是汽车使用说明书方面的专业领域语料库,由作者负责组织和加工,花费5个人年、历时半年完成。该语料库由2.6万对句子对构成,约60万字/100万单词。经过反复检查获得较好的一致性,保证了语料库的翻译质量,也为双语句法树库提供了必要条件。系统实现分为三大模块:资源管理模块(包括英语语料库管理、汉语语料库管理、英语词典管理、汉语词典管理),提供词典和语料库的查询和修改功能;对齐预处理模块(包括英语词形分析和词性标注、汉语分词和词性标注、英语句法分析、汉语句法分析、英汉串频统计、术语获取),生成候选句法树对集合;对齐模块(包括句子对齐、词汇对齐和短语对齐),生成对齐的句法树对。