汉维统计机器翻译中的句法形态信息研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:liang672369282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国内的机器翻译研究集中在汉语和英语互译上,针对少数民族语言的机器翻译以蒙古语居多,对于维语的机器翻译仍处于起步阶段。对于新疆这样一个多民族聚居的地区,以汉族和维吾尔族居多。随着信息化时代的到来,各民族之间的交流日趋频繁,而语言的差异为信息交流带来了障碍,所以民族语言之间的翻译对于促进民族间的交流具有重要意义。   在统计机器翻译中,基于短语的统计机器翻译方法是一种经典的方法。根据汉维机器翻译研究现状,利用现有技术和工具构建了基于短语的汉维统计机器翻译平台,将其作为基线系统,对汉维机器翻译进行初探。汉维机器翻译中存在的主要问题有以下三个:(1)缺乏大规模汉维平行语料库。(2)汉语和维语的语序差异较大。(3)汉语和维语的形态差异较大。此外,由于基于短语的方法在长距离重排序能力上表现欠佳,并且不包含句法和形态信息等语言学知识。以上问题导致在汉语到维语的统计机器翻译中,未登录词较多,且产生的维语译文出现语序混乱现象。   针对上述问题,本文讨论将汉语句法信息和维语形态学信息加入到汉语到维语的统计机器翻译模型构造中,以解决维语译文的语序问题和降低词形错误率:   1、对汉语句子中的短语进行调序,使其与维语句法相近。在对汉语和维语的语序进行系统研究的基础上,归纳了一系列汉语句法重排序规则。训练前,对源语言句子进行句法分析,对分析得到汉语短语结构树运用本文提出的重排序规则进行调序,使汉语和维语的在语序上相近。   2、使用维语的形态信息,使之参与模型的训练。对汉语和维语的形态学差异进行了分析,在系统地总结了维语形态学特征的基础上,研究维语形态特征的提取方法,以及在引入维语形态特征后语料库的形式。   针对汉语和维语的句法差异和形态学差异,在汉语到维语的统计机器翻译中,对源语言端进行句法调序,对目标语言端进行形态分析,将句法信息和形态学信息以“因素”的形式引入到对数线性模型中。实验证明,本文提出的方法能够获得较好的系统性能,较基线系统有实质性的提高。
其他文献
随着移动通信技术的迅猛发展,在不同的网络接口在同一台设备上接入一个以上的通信网络成为现实,多条路径上同时传输数据(CMT)的服务能够充分利用网络资源,提高大带宽、时延抖动
稳态强磁场实验装置作为“十一五”国家重大科技基础设施项目,旨在为我国多学科前沿发展提供理想的稳态强磁场极端实验条件。中央控制系统是稳态强磁场实验装置的关键系统,是
硅后时延通路,即时速路径,是制约实际电路最高工作频率的关键路径。而针对时速路径特点及其故障分析、测试等方面的研究,对高性能集成电路的设计和制造均具有重要意义。目前工程
语义Web是当前Web的本质变革,旨在通过本体精确定义Web信息共享词汇的语义,建立数据层面的链接(a Web of data),更好地支持信息共享与Web应用。描述逻辑在其中扮演着重要角色:它
随着VoIP(Voice over IP)逐渐普及,VoIP的安全性已经成为一个重要问题,其中垃圾语音(SPIT,Spam over Internet Telephony)很可能成为进行商品推销、市场调研、骚扰甚至诈骗的工
数据访问延时是影响系统性能的关键因素之一。在MapReduce环境中,由于输入数据远大于处理代码,不在数据节点执行的Map任务将会引起大量的远程数据访问延时;由于Map任务分布在成
随着嵌入式系统的发展,嵌入式SOC芯片以其高集成度和快速定制等特点在工业控制、消费电子等领域获得了迅速的发展。而显示系统作为SOC芯片的重要组成部分,由于其图像显示需要不
近年来,伴随着各种应用日新月异的发展,人们对集群文件系统提出了更全面更多样化的需求。文件的小粒度I/O请求的性能对于集群文件系统的整体性能有着越来越重要的影响,应用迫切
人体动作的表示与识别是近年来在计算机视觉和模式识别领域被广为研究的一个问题,其在智能视频监控、智能人机交互接口以及多媒体检索等领域中都具有巨大的潜在应用价值。本文
为了适应开放、动态和多变的Internet环境,网构软件成为了旨在实现网络环境下计算资源共享和集成的一种新型软件形态。在网构软件开放协同模型中,软件系统的各软件实体以软件服