论文部分内容阅读
机器翻译是应用计算机将一种源自然语言自动地翻译成另一种目标自然语言的技术。随着时代的迅速发展,人们为了更容易地互相交流和获取信息,对于机器翻译的需求也在逐渐加强。如何提高机器翻译质量已经成为研究者们的研究热点。统计机器翻译系统对平行语料有很强的依赖性,然而,一些语言对以及特定领域中平行语料资源稀缺,甚至不存在,使得机器翻译不能顺利进行。即使存在丰富数据资源,一般也来自于不同领域。这种领域上的差异导致很多词语在不同领域中有不同的译法,使得跨领域机器翻译效果并不理想。为了解决这些问题,本文提出了基于单语语料库的词语新译挖掘方法研究。本文在进行词语新译挖掘时,将其拆分为两个子任务,分别是:词语新译法发现和词语译文挖掘,并将二者融合进行一体化研究,最终还将挖掘的词语新译应用在机器翻译实际场景中。本文的具体研究内容如下:(1)在词语新译法发现任务中,本文将其转换为分类问题,判断词语是否存在新译法。在原有方法基础上对特征加以改进,提出了基于丰富特征的方法,引入了语言学特征,分别是目标语言、词性和句法特征,这些特征更符合本文所要解决的新译法发现任务的特点,能够提高分类器的准确性。(2)在词语译文挖掘任务中,本文对基于分布表示的方法加以改进,提出了基于神经网络的方法。首先对词语进行聚类,然后在每个类别中利用神经网络来代替线性函数,挖掘词语向量表示之间的映射关系。所有操作都是在单语语料库上进行。改进后能够更好地挖掘同一语言词语之间的关联,以及不同语言词语之间的映射关系,达到提高挖掘词语译文准确率的目的。(3)本文还对词语新译法发现和译文挖掘进行一体化研究,将两个子任务结果进行融合,来对抽取的词语新译进行过滤,提高抽取词语新译的准确性。最终将在从新领域抽取的词语新译加入到原领域机器翻译系统中,提高跨领域机器翻译系统性能。实验结果表明,本文提出的方法能够比较好的完成词语新译挖掘任务,在实际应用中能够使跨领域机器翻译系统性能提升1个BLEU百分点。