论文部分内容阅读
随着计算机和互联网的发展,在自然语言处理领域,以双语(或多语)平行语料库为基础的应用日益增多。除机器翻译方面的应用之外,平行语料库的建设对于双语词典编纂、词义消歧和跨语言信息检索也具有重要价值。
在平行语料库的加工中,研究不同级别的对齐技术是一个核心课题。平行语料的对齐不仅是通过平行语料库获取一些语言知识的必要前提,也是基于实例的机器翻译中实例库构建不可缺少的关键环节。
汉英词典对于跨语言信息检索、计算机翻译等许多领域具有重要意义。为了利用双语语料库获取汉英词典,本文在对三种常见的基于共现信息的短语对译计算模型进行了研究之后,以对数相似性模型为基础,采用迭代策略实现了翻译词典获取。实验表明,该方法能够有效地提高词典获取的正确率,提高基于语料库的汉英词典编撰效率。
随着网络信息的日益丰富和用户需求的提高,人们已经不能满足于仅仅在同一语种中进行检索,跨语言的信息检索(CLIR)因而受到人们越来越多的关注。为此,我们把本文抽取的双语词典应用到跨语言信息检索中,以google为例,介绍双语词典在跨语言信息检索中的实际应用。