基于语料库的汉蒙机器翻译关键技术研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：a499262792

【摘要】

：

近几年来基于语料库的机器翻译取得了巨大的成功，统计方法已经成为机器翻译方法的主流。汉英机器翻译的发展非常迅速，相对来说蒙古语机器翻译的研究受限于语料库以及基础关键技

【作者】

：

侯宏旭

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2008年期

【关键词】

：

机器翻译汉蒙语言翻译蒙古语词切分语言模型语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近几年来基于语料库的机器翻译取得了巨大的成功，统计方法已经成为机器翻译方法的主流。汉英机器翻译的发展非常迅速，相对来说蒙古语机器翻译的研究受限于语料库以及基础关键技术的研究滞后而落后。作者认为，通过汉蒙机器翻译的一些主要关键技术的研究，可以为今后的蒙古语自然语言处理和机器翻译打下基础，对进一步的研究起到推动作用。　　本文主要围绕汉蒙机器翻译中急需解决的一些关键问题进行研究。具体来说，本文在以下几个方面做了创新性的工作：　　 1.蒙古语语言模型　　语言模型是机器翻译、文字识别、语音识别等工作的基础。考虑到蒙古语的一些特点，我们提出了三种不同的基于词干/词缀的蒙古语语言模型架构。　　 1)利用长距离依赖的SKIP-N语言模型。通过挖掘蒙古语词语的长距离依赖信息，采用类似于n-gram的统计方法得到远距离的依赖概率。　　 2)利用词干词缀关系的词干词缀模型。根据蒙古语词可以分成词干、词缀的特点，考虑到词干与词干、词干与词缀、词缀与词缀之间的关系，构成一个组合式的语言模型。　　 3)Trigger和N-ngram相结合的语言模型。利用Trigger的便于表达长距离依赖和N-gram易于表示短距离依赖的特点，将两者结合构成一种复合语言模型。　　 2.蒙古语词切分技术　　蒙古语词切分是语料库处理的关键步骤之一。在利用一些拆分规则的基础上，提出了利用统计语言模型的分词候选结果评价方法。这里使用了拆分规则和N-gram语言模型、SKIP-N语言模型和词性语言模型。　　通过实验，切分的准确率提高到94％。　　 3.基于实例的汉蒙机器翻译技术　　提出了用于汉蒙机器翻译的实例模型。给出了适合与蒙古语特点相适应的实例匹配、片段分割、片段组合和评价的算法。相似度计算采用了词的相似度、词性相似度、连续匹配长度等信息。利用词性过滤、常用词过滤减小了搜索空间。利用语言模型作为候选集的评价方法。　　 4.统计汉蒙机器翻译　　提出了汉蒙统计机器翻译的模型。实现了一个基于短语的汉蒙机器翻译系统。　　提出了一种概率化的调序模型。这个模型利用短语的相对位置差作为概率计算的基础。利用正态分布模型概率化调序模型。通过实验结果我们知道，这个方法对汉蒙机器翻译非常有效。

其他文献

基于深度神经网络的心衰病人表示学习和辅助诊疗研究

学位

一种基于测试信息的交互式错误定位方法

程序员很难保证首次书写的代码是正确的。因此，排错是软件开发过程中必不可少且有相当难度的工作。此外，在软件维护阶段，程序员常常需要对别人书写的代码进行排错。这种情况下，程

学位

软件开发交互式错误错误定位测试信息软件维护代码排错

一种开放性综合支付系统的设计与实现

随着互联网的飞速发展,电子商务已经走进了人们的日常生活。目前国内有银联、快钱、贝宝等数十家有影响的电子在线支付应用系统正在运营,给电子商务提供了丰富的支付方式。然

学位

安全电子事务在线支付系统商户系统安全性

三维点模型几何处理与绘制技术研究

近年来,以离散点为表面表达方式的点模型由于其数据获取方便、数据结构简单等优点,成为计算机图形学中的一个新的研究领域。由于许多应用中数据模型的规模和复杂度急剧增长,

基于隐式反馈的个性化信息检索技术研究

搜索引擎是互联网用户最常用的信息查询工具。目前主流的搜索引擎并没有明确区分不同用户的查询意图，而不同用户即使输入相同的查询词，其查询需求也是有差别的。个性化信息检索

学位

个性化信

面向领域的软件构件技术研究

随着软件的复杂度越来越高，由此引起“软件危机”也就变得越来越严重。从而引发了软件复用技术的研究。构件化软件开发作为一种十分有效的软件复用技术，可以有效的缓解“软件危

学位

软件构件软件重用面向领域构件描述构件库BIDMCORBA

基于交互性Web服务构建复合应用的关键技术研究

随着分布式对象技术和XML技术的发展，面向服务的体系结构提供了基于Internet构造跨企业分布应用的标准框架，成为人们获取和发布应用资源的一种新方式。服务开放的存在于Interne

学位

交互性Web服务复合应用服务描述服务选择服务组合

基于包过滤技术的防火墙研究

本文在对防火墙的各种技术对比的基础之上,结合计算机网络安全的本质与要求,对包过滤防火墙这一传统的防火墙体系结构进行了分析与改进并提出一种新的包过滤防火墙系统设计方

学位

图像和视频亮度的自动调整技术研究

近年来，随着科技的发展和人们生活水平的提高，数码产品尤其是数码相机和摄像机得到了广泛应用。但由于拍摄条件以及水平的限制，人们往往会拍摄到一些曝光不足、效果不好的照片和

学位

图像亮度视频亮度对比度增强亮度调整自动调整算法

基于SVG的图形水印技术研究

随着计算机网络的普及应用，基于网络的空间信息资源正日益丰富，其应用领域也在快速地拓展，以满足全社会对空间信息的需求。开放的Internet虽然为Web GIS提供了广阔的社会应用前

学位

数字水印SVG图形变换矢量地图

基于语料库的汉蒙机器翻译关键技术研究

与本文相关的学术论文