融入形态学分析的汉蒙统计机器翻译研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:hegang520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统计技术是目前机器翻译研究的主流技术。统计机器翻译研究的先决条件是要有充足的双语平行语料库。翻译系统的性能与语料库规模是密不可分的。近年来,汉蒙机器翻译研究已取得了一定的成绩,但与汉英等其他语言的机器翻译相比存在着较大的差距。主要体现在几个方面:在平行语料库规模方面,汉英及欧洲语言间的语料库规模和汉蒙语料规模差异巨大;在词法分析等基础性研究方面,与英语等语言相比蒙古语的词法分析研究起步晚,并不成熟。这些已经严重限制了汉蒙机器翻译的发展。蒙古语是一种形态丰富的黏着语,而汉语是孤立语,几乎无形态变化。形态非对称语言间的机器翻译具有一定的难度,但在机器翻译研究中合理利用语言形态信息将会一定程度上解决译文词形错误和缓解由语料库规模小而导致的数据稀疏等问题。本文从蒙古语形态信息的分析和融合两个角度出发,首先,构建了基于词缀库的无监督词形切分系统,然后利用规则进行后处理,提高了系统切分准确率。系统最大优点在于可以直接利用生语料库进行训练,客观性较强。然后,对蒙古语词进行形态分析的基础上,提出了要素翻译模型。要素翻译模型在训练过程中将词干、词缀、词性视为要素进行翻译,通过多个翻译模型和生成模型,完成目标语言词形的生成。实验结果表明,与基准实验相比引入蒙古语形态信息的要素模型翻译效果更好一些,并达到了预期结果。
其他文献
脑—机接口(Brain-Computer Interface,BCI)是指在人脑和计算机或其他电子设备之间建立的直接的交流和控制通道。作为一种新颖的人机接口方式,脑—机接口使瘫痪的患者看到了与外
移动互联网的出现对于媒体行业来说无疑是一个新的契机,无论是传统的报刊企业还是门户网站,都推出了移动数字媒体客户端。本论文分析研究了当前市场上主流的数字媒体客户端系
解决Folksonomy存在垃圾标签的问题,本文提出垃圾标签检测模型。利用向量空间模型表征用户特征,再用支持向量机将Folksonomy用户二分类。通过检测出隐藏在正常用户群体中的垃
随着计算机技术的飞速发展,软件系统变得越来越复杂,测试技术是保证这些软件系统质量的常用手段,然而影响系统运行的因素有很多,因素与因素之间的交互作用也会影响系统的运行,人们
当前全世界的汽车工业都面临着石油资源短缺和环境污染的压力。为实施可持续发展战略,纯电动汽车已经成为了21世纪汽车工业的发展方向。纯电动汽车具有零排放、热辐射低和噪
随着互联网的快速发展,人们越来越多的社会活动发生在虚拟的网络空间。网络服务商为人们提供各式各样便利的网络服务,例如即时通信、网络支付等。但是目前,这些服务的身份认
目前随着计算机网络的飞速发展,涌现出了大量的对网络要求较高的多媒体实时业务,网络对QoS的需求也迅速提高,越来越需要对QoS具有较高支持度的网络。组播实现了同一信息从源
随着互联网的发展以及移动互联网时代的到来,为了应对大数据下的业务需求,集群的规模也在日益的变大,与此同时分布式系统的自动化部署和自动化管理的问题日益突出。尽管现在
随着GPS定位、无线传感等技术的发展与运用,以及具有定位功能的无线手持、车载设备的普及,使得基于移动对象的位置服务被广泛使用。移动对象的位置等信息随时间发生变化,数据
近年来,微型博客(简称微博)越来越受到网络用户的青睐,成千上万的用户通过发布微博共享他们的观点和情感。其中,有大量带有情感倾向(认为某事物“好”或“坏”)的微博文本,这些微博文