论文部分内容阅读
机器音译就是根据发音将给定的源语言中的专有名词自动翻译成目标语言对应的词汇的过程。相对于机器翻译而言,机器音译不存在语义层次的翻译要求,并且是一种顺序翻译的过程,不存在音译对之间调序问题,所以机器音译是一种相对弱化的机器翻译。因此机器音译的研究对于机器翻译而言具有重要的理论意义。目前不断增长的全球化趋势需要跨过语言壁垒获得全世界范围内的有效有价值的信息,因此机器音译在跨语言应用中的作用也日益凸现,机器音译的研究因此也受到越来越多的关注。不同语系间的机器音译存在着巨大的挑战性,如英/汉之间的机器音译。因其采用不同字母表和发音系统,音译过程相当复杂且存在众多导致音译性能下降的因素。目前关于中英文的跨语言应用研究有很多,本文调研了近三年机器音译研究现状,对重要会议上发表的所有16篇音译相关文献中提出的新方法进行了全面而详实的分析,通过比较,本文采用性能较好的基于字形的英汉机器音译框架,首先探索了语料规模的扩大对于音译性能的影响,进而引入判别学习解决英汉音译中提高性能的瓶颈问题,即改进音译单元对齐效果的问题,并探讨了不同的半指导学习样本对于判别式模型的作用,以期获得较好的学习性能。本文即是从提高英汉机器音译性能的可能途径入手,研究改进音译的方法。具体的讲,本文从以下几个方面进行了研究:1.本文进行了语料规模对于机器音译性能影响的研究。在基于字形的英汉机器音译框架下,采用了噪声通道模型(NCM)和联合信源通道模型(JSCM)建模以捕捉字形的上下文信息,并进行了两种模型下机器音译性能实验。进而进行不同语料规模的实验,研究语料规模给基于字形机器音译带来的改变。2.利用EM算法进行了英汉音译单元等级上的对齐研究,并引入判别学习方法解决英汉音译单元对齐中存在的问题。本文使用了新的音译单元对齐EMD方法,并通过实验比较了EM算法和EMD方法获得的对齐语料的性能。实验表明采用EMD算法提高了英汉机器音译单元对齐的性能。3.本文介绍了现有的机器学习方法,及判别学习框架下的机器音译单元对齐方法,并着重在半指导需要的标注数据的选取上作了讨论。使用不同的标注语料进行音译单元对齐的封闭测试和开放测试。讨论半指导机器学习方法对于提高音译单元对其性能的作用。同时分析根据不同的规则选择的半指导标注语料对于模型性能提高的作用。