基于语料库的汉蒙机器翻译关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:a499262792
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年来基于语料库的机器翻译取得了巨大的成功,统计方法已经成为机器翻译方法的主流。汉英机器翻译的发展非常迅速,相对来说蒙古语机器翻译的研究受限于语料库以及基础关键技术的研究滞后而落后。作者认为,通过汉蒙机器翻译的一些主要关键技术的研究,可以为今后的蒙古语自然语言处理和机器翻译打下基础,对进一步的研究起到推动作用。   本文主要围绕汉蒙机器翻译中急需解决的一些关键问题进行研究。具体来说,本文在以下几个方面做了创新性的工作:   1.蒙古语语言模型   语言模型是机器翻译、文字识别、语音识别等工作的基础。考虑到蒙古语的一些特点,我们提出了三种不同的基于词干/词缀的蒙古语语言模型架构。   1)利用长距离依赖的SKIP-N语言模型。通过挖掘蒙古语词语的长距离依赖信息,采用类似于n-gram的统计方法得到远距离的依赖概率。   2)利用词干词缀关系的词干词缀模型。根据蒙古语词可以分成词干、词缀的特点,考虑到词干与词干、词干与词缀、词缀与词缀之间的关系,构成一个组合式的语言模型。   3)Trigger和N-ngram相结合的语言模型。利用Trigger的便于表达长距离依赖和N-gram易于表示短距离依赖的特点,将两者结合构成一种复合语言模型。   2.蒙古语词切分技术   蒙古语词切分是语料库处理的关键步骤之一。在利用一些拆分规则的基础上,提出了利用统计语言模型的分词候选结果评价方法。这里使用了拆分规则和N-gram语言模型、SKIP-N语言模型和词性语言模型。   通过实验,切分的准确率提高到94%。   3.基于实例的汉蒙机器翻译技术   提出了用于汉蒙机器翻译的实例模型。给出了适合与蒙古语特点相适应的实例匹配、片段分割、片段组合和评价的算法。相似度计算采用了词的相似度、词性相似度、连续匹配长度等信息。利用词性过滤、常用词过滤减小了搜索空间。利用语言模型作为候选集的评价方法。   4.统计汉蒙机器翻译   提出了汉蒙统计机器翻译的模型。实现了一个基于短语的汉蒙机器翻译系统。   提出了一种概率化的调序模型。这个模型利用短语的相对位置差作为概率计算的基础。利用正态分布模型概率化调序模型。通过实验结果我们知道,这个方法对汉蒙机器翻译非常有效。
其他文献
学位
程序员很难保证首次书写的代码是正确的。因此,排错是软件开发过程中必不可少且有相当难度的工作。此外,在软件维护阶段,程序员常常需要对别人书写的代码进行排错。这种情况下,程
随着互联网的飞速发展,电子商务已经走进了人们的日常生活。目前国内有银联、快钱、贝宝等数十家有影响的电子在线支付应用系统正在运营,给电子商务提供了丰富的支付方式。然
近年来,以离散点为表面表达方式的点模型由于其数据获取方便、数据结构简单等优点,成为计算机图形学中的一个新的研究领域。由于许多应用中数据模型的规模和复杂度急剧增长,
搜索引擎是互联网用户最常用的信息查询工具。目前主流的搜索引擎并没有明确区分不同用户的查询意图,而不同用户即使输入相同的查询词,其查询需求也是有差别的。个性化信息检索
学位
随着软件的复杂度越来越高,由此引起“软件危机”也就变得越来越严重。从而引发了软件复用技术的研究。构件化软件开发作为一种十分有效的软件复用技术,可以有效的缓解“软件危
随着分布式对象技术和XML技术的发展,面向服务的体系结构提供了基于Internet构造跨企业分布应用的标准框架,成为人们获取和发布应用资源的一种新方式。服务开放的存在于Interne
本文在对防火墙的各种技术对比的基础之上,结合计算机网络安全的本质与要求,对包过滤防火墙这一传统的防火墙体系结构进行了分析与改进并提出一种新的包过滤防火墙系统设计方
学位
近年来,随着科技的发展和人们生活水平的提高,数码产品尤其是数码相机和摄像机得到了广泛应用。但由于拍摄条件以及水平的限制,人们往往会拍摄到一些曝光不足、效果不好的照片和
随着计算机网络的普及应用,基于网络的空间信息资源正日益丰富,其应用领域也在快速地拓展,以满足全社会对空间信息的需求。开放的Internet虽然为Web GIS提供了广阔的社会应用前