论文部分内容阅读
随着计算机的普及,计算机应用技术的迅猛发展和全球一体化进程的不断加深,使用不同语种的群体间的交流障碍日益突出。针对这一问题产生了机器翻译(Machine Translate)这一崭新学科,同时它也是人工智能的一个热点研究领域。机器翻译涉及到数学、语言学、计算机学等诸多领域,是一个典型的多边缘交叉学科。可以毫不夸张地讲,在进入21世纪之后,几乎每一个生活在信息网络时代的人,都要直接或间接地与机器翻译打交道。无论在科学技术上、商业上还是政治上,机器翻译都无疑是一个非常重要的实用学科。机器翻译的最终目标就是追求翻译结果的信、达、雅,但受限于人类对自身认知水平研究的限制,翻译结果并不能总是达到预期。经过近百年的发展,出现了种类繁多的机器翻译系统,例如基于规则的(Rule-Based Machine Translate,RBMT)、基于统计的(Statistics-Based Machine Translate,SBMT)等等。它们的使用环境不同,各有利弊。近年来,随着统计机器翻译系统进入瓶颈期以及存储技术的不断发展,基于实例的机器翻译方法(Example-Based Machine Translate,EBMT)日益受到青睐。实例机器翻译方法不需要对句子进行深度的语法分析,只利用原始语料库中的相似实例,进行匹配替换处理。语料库中的相似实例越多,相似程度越高,翻译结果就会越精确。本文主要针对实例机器翻译系统中相似实例的查找过程进行研究,希望找到一种速度更快、相似度计算结果更贴近真实值的相似实例检索方法。本文首先介绍了相似文本检索和机器翻译系统的研究现状及各自存在的主要问题。其次,研究了Simhash算法的原理和基于向量空间模型(VSM)的TF-IDF方法。然后,重点介绍了本文提出的借助Simhash实现相似实例快速检索的算法原理,各个关键环节的处理,以及需要用到的同义词典——WordNet。接着,根据本文提出的方法,在VS2010平台上,采用C++语言编程,搭建了一个相似实例检索系统模型,它可以作为实例机器翻译系统模型的一部分,并借助此模型对本文提出的方法进行了相关测试。最后,将本文提出的方法与基于相同词汇的、基于编辑距离的和单独使用TF-IDF方法在时间和相似度计算结果方面进行了比较。从实验结果可以看出,本方法能够降低相似实例检索过程的时间消耗,且语料库规模越大,效果越明显;当候选的相似例句中含有同义词时,本方法计算出的相似度结果更能客观反应两句间的实际相似程度。