维汉机器翻译中调序关键技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:q80602655
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言表现出多种多样不同的单词顺序,而统计机器翻译所面临的主要挑战之一就是如何模拟这些顺序的差异。机器翻译被看做是由两个相关联的问题组成:预测译文中的单词和决定这些单词的顺序,也即翻译和调序。尽管许多研究者专注于改善翻译模型来提高译文质量,比如由最初的基于词的翻译模型,到基于短语的翻译模型和基于层次短语的翻译模型,再到基于句法的翻译模型,都递进式的改善着机器翻译的性能。目前机器翻译开始步入瓶颈期,随着大语种之间平行语料收集规模的不断扩大,一定程度的保障了译文的诚实度(译文是否覆盖了源句子的意思?),但是流利度(译文是否符合目标语言顺序?)面临着极大的挑战,尤其是面对资源缺乏的小语种翻译,比如本文所研究的维汉机器翻译。   在维汉机器翻译中,维吾尔语是一种形态学变化丰富的粘着性语言,也即通过在词干后附加词缀构成新词,同时维吾尔语和汉语具有不同的句法结构,维吾尔语是主宾谓结构而汉语是主谓宾结构。其次维吾尔语属于小语种,平行语料资源困乏,在相同规模语料所构建的维汉机器翻译系统中,结果译文中存在着严重的目标译文乱序现象,因此维汉机器翻译与中英等具有相同语序的大语种机器翻译相比,译文质量相差甚远。   针对上述维汉机器翻译所面临的挑战,本文通过认真学习钻研大语种机器翻译中的成熟理论和算法模型,同时认真分析维吾尔语自身的语法特性,提出了一种符合维汉机器翻译特点的调序模型,并进行了实验系统验证。   本文的主要贡献如下:   1.针对维汉机器翻译的特殊性,通过深入学习分析维吾尔语的语法特点,比如构词方式、维汉语序差异等,重点研究了如何在维汉机器翻译中既能体现维吾尔语的语法特点,又能兼顾当前翻译模型的优势。为此本文提出了一种基于维吾尔语短语的形式化定义,从而在短语级别上间接的体现维吾尔语词的特点,兼顾了维吾尔语语法特性,以便能够在维汉机器翻译中构建性能良好的调序模型。   2.当前维汉机器翻译系统所产生的译文中,存在着严重的乱序现象,导致维汉机器翻译系统翻译性能偏低。针对该问题,本文对当前机器翻译领域的主流调序方法进行深入学习,在此基础之上,借助统计机器翻译中短语表的获取方法,从维汉平行语料中获取调序实例,再按照维吾尔语短语的形式化定义对调序实例进行特征化,最后利用最大熵分类算法来估计调序特征的权重,使得对于维汉机器翻译具有更好的调序能力。   3.机器翻译的两大基本问题是翻译和调序。基本的翻译框架利用翻译模型来保证源语言和目标语言之间能够进行对应意义的翻译,而语言模型则是从诸多的翻译假设中选择一个最符合目标语言的顺序的翻译假设,从而得到符合目标语言顺序的译文。本文通过深入学习钻研目前机器翻译领域中性能较好的开源翻译引擎之一Moses,然后将本文所创建的维汉调序模型融入翻译引擎Moses之中,并与Moses中现有的调序模型进行实验对比,实验结果表明本文所构建的调序模型在维汉机器翻译中优于Moses中现有的调序模型,较好的改善了译文中的乱序现象。  
其他文献
未来的深空网络可以在多个行星之间进行数据传输。其中最大的挑战是具有长链路传播延时、高链路误码率、不持续链路连接和不对称链路带宽特性的深空骨干网络。大传播延时和高
图像编辑是图形图像处理领域的重要研究内容,无论是在影视、传媒、文化和艺术等领域,还是在人们的生活中,都有着广泛的应用。其中,有两种使用很广泛的编辑技术,一直在国际上得到热
互联网存在的最基础意义就是内容分发,即将数字内容从一个节点分发到另一个或多个节点。从2006年亚马逊公司推出“弹性计算云”和2007年苹果公司推出“iPhone”开始,互联网内容
为了节约存储空间和传输带宽,视频编码已经成为国内外研究的热点之一。同时一系列的视频编解码标准已经被制定出来,包括MPEG-x,H.26x。在这些编码标准中,为了获得比较好的编码效
计算机和网络技术的发展,使得我们可以更方便有效地保存、共享和传播各类信息,也催生了对可靠的身份认证技术的需求。传统的口令和卡片认证等方式不易管理、使用也不方便,而且不
DFT(离散傅里叶变换)是在信号处理、数据图像处理、数值计算等科技和工业领域应用较为核心和重要的一类变换,FFT(快速傅里叶变换)则是DFT的一种最广泛使用的高效计算方法。而DST(离
故事在儿童的成长过程中起着关键的作用,故事叙述已被证明可以有效地帮助儿童提高读写能力、听力、词汇能力、创造力和想象力等多个方面。随着计算机技术的发展和信息技术的不
资源下载、流媒体等内容共享类业务已经成为当前互联网的主要业务之一,随着互联网用户群规模的膨胀和用户对业务要求的不断提高,传统的客户端-服务器模式已经不再适合,P2P技
该文对查询并行处理技术进行了研究,在分析己有研究的基础上,提出了自己的观点、技术和方法,主要的研究工作如下:1、论述了现有常用的数据划分方法,包括各种一维数据划分方法、多
学位