论文部分内容阅读
在自然语言处理领域,双语平行语料库的重要性日益加强,其研究工作主要是集中在构建、对齐和标注等方面。它在在机器翻译、词典编纂、多语言信息检索、术语提取等领域有着重要的研究价值。 在过去的三十年里,各国的研究人员相继建立了许多印欧语言的平行语料库。与之相比,汉英双语平行语料库的研究国内外都相对较少,近年来才刚刚起步。本文的工作主要集中在汉英双语平行语料库词语对齐及词义排歧的研究上,主要包括以下部分: 1.实词对应。在详细考察各类统计参数的基础上,对高频实词提出了适合于汉英两个不同体系语言的一种混合的统计方法,而对低频实词则充分利用词典获取对应信息,最后采用一种综合的基于竞争链接的对应算法,取得了较好的效果。 2.双语语块的识别和对应。本文充分利用已有的实词对应信息,将语块的划分和对应同时进行,这样使得对应和划分能相互提供信息,有效地避免了当前绝大多数算法中存在的双语语块边界划分不一致的情况。 3.名词短语的对应。本文根据名词短语的统计特征,对高频名词短语采用迭代重估算法;对低频短语,则采用类似于低频实词的对应方法。这样就能够从整体上把握对应信息,并使结果具有很高的覆盖率。 4.双语词义排歧。当前大多数基于双语语料的词义排歧算法都局限在利用单个多义词的上下文环境及其对应信息,本文则充分利用当前Hownet资源中概念的可计算性,将词义排歧的问题转化为多义词和另一种语言的相应句子的整体意义相似性问题,从一个新的角度来进行词义排歧,因此得出了满意的研究结果。 本文利用汉英两种语言各自的特点,充分利用已有信息,实现了对平行语枓库中各种信息单元的对齐,实验结果表明,效果显著。