论文部分内容阅读
未登录词翻译一直是机器翻译和跨语言信息检索的重点和难点之一。随着社会信息化和网络的飞速发展,网络上出现层出不穷的新词、术语等,且不能被现有词典一一覆盖。由于新的未登录词的不断出现,传统的未登录词方法中,也因为语料库稀缺等问题而影响翻译的准确率。未登录词的翻译面临着新的挑战。因此,如何正确的翻译这些未登录词成为自然语言处理中一个重要的研究难题。未登录词翻译一直是自然语言处理领域研究的重点问题。传统的翻译方法主要有基于音译和基于语料库的方法,但都共同面临着语料库稀缺的问题。目前,随着网络信息资源越来越丰富,研究者们逐渐提出基于网络资源的翻译方法,这种方法关键在于是如何快速的获取翻译语料、准确定位翻译候选以及翻译候选评估。但现有方法中,存在翻译候选特征表示不全面以及评估方法过于简单的问题。本文在分析传统未登录词翻译方法和现有基于网络资源翻译方法的基础上,提出一种融合网络挖掘、多特征表示和有监督学习的英汉双向未登录词翻译方法。根据本文提出的方法,整个英汉双向未登录词翻译系统可以分成三个部分:翻译候选的抽取算法、翻译候选的多特征表示以及翻译候选的评估方法。1.在翻译候选的抽取方面,由于中英文语言的差异,分为中文翻译候选抽取和英文翻译候选抽取。在中文翻译候选抽取中,采用基于PAT-Tree的抽取方法。在英文的翻译候选抽取中,由于英文不需要分词,先采用一种简单的翻译候选抽取方法,然后采用信息熵和启发式规则相结合的噪声过滤算法。2.在翻译候选的表示方面,综合分析了翻译候选内部和上下文各种特点,提出结合全局特征、局部特征和布尔特征相结合的表示方法。这些特征较全面的表示了翻译候选,为翻译候选的评估提供了良好的基础。3.在翻译候选的评估方面,采用SVM和Ranking SVM的方法进行评估。SVM已被广泛用来处理分类问题。但经过分析,将翻译候选的评估归为分类问题并不十分恰当,而更准确的将其划为排序问题。因此,本文采用SVM和RankingSVM分别评估翻译候选。经过实验,发现Ranking SVM的准确率略高于SVM。最后,分别通过对英汉和汉英翻译中的人名、地名、组织机构名三类未登录词进行实验,取得了较好的翻译准确率。另外,为了表示本文所提方法的一般性,对由各类术语组成的命名实体进行了翻译,也取得了较好的效果。