基于层次短语的汉蒙统计机器翻译后处理研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:guaidaokid2003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在汉蒙统计机器翻译方法中最流行的是基于短语的汉蒙统计机器翻译方法,而该方法有它自己的缺点,即长距离调序能力较弱,另外,短语长度扩展到3个以上时,出现非常严重的数据稀疏问题,使得模型性能提高不是很大,为此,D.CHiang(蒋伟)提出基于层次短语的翻译模型试图解决这一问题。基于层次短语的统计机器翻译方法属于形式化句法的翻译方法,该方法的主要思想是短语本身包含了更小的短语,从而利用层次短语本身的规则来解决短语之间的长距离调序问题。本文采用基于短语的翻译模型和基于层次短语的翻译模型分别做了3、4、5和6元语言模型的汉蒙统计机器翻译实验。分析实验结果可以知道基于层次短语方法中4元语法语言模型的译文质量最好,其评测结果的NIST值为:5.9508,BLEU_SBP值为:0.2820,在基于短语方法中也是4元语言模型的译文质量最好,其评测结果的NIST值为5.9054,BLEU-SBP值为0.2689。在这两种机器翻译方法中,基于层次短语方法的评测结果比基于短语方法的评测结果在NIST值上提高了0.0454,在BLEU_SBP值上提高了0.0131。我们对汉蒙统计机器翻译译文进行研究发现存在以下几个问题,并对其进行了相应处理。第一,在译文中存在很多未登录汉语数词。数词是一类无穷词汇的开放性词,是无法用统计方法将文本中的所有数词进行翻译。为此,我们用基于规则的方法实现了汉蒙数词自动翻译程序,然后用该程序对译文进行后处理,对未登录数词进行翻译。在基于层次短语的4-gram语言模型的译文上进行未登录汉语数词后处理后,其评测结果NIST值为:5.9734,BLEU_SBP值为:0.2836。与基准实验相比其NIST值提高了0.0226,BLEU_SBP值提高了0.0016。第二,在译文中存在很多句尾以句中形式出现的蒙古语动词,对这种情况,我们实现了蒙古语动词自动生成程序,并在蒙古语动词词干基础上,生成了包含所有可能词形的蒙古语动词库。接着,利用蒙古语动词库,将译文中句尾以句中形式出现的错误动词用动词库中最可能正确的句尾形式动词替换。对基于层次短语的4-gram语言模型的译文上进行未登录汉语数词后处理,再进行纠正句尾错误形式蒙古语动词处理后,其评测结果的NIST值为:5.9764,BLEU_SBP值为:0.2841。对句尾错误形式动词进行后处理后,在NIST值和BLEU_SBP值上分别提高了0.003和0.0005。在以上研究基础上,本文利用东北大学机器翻译系统,实现了汉蒙统计机器翻译系统。
其他文献
随着Web2.0的飞速发展,网络社区累积了海量的用户生成内容(UserGenerated Content, UGC)。社区问答系统正是产生UGC的典型代表之一,海量的UGC资源对于促进问答技术的发展带来了新
车载导航系统作为智能交通系统的重要组成部分,为车辆提供可靠的、准确的导航定位信息。为了解决GPS车载导航系统存在天线被遮挡情况下定位失灵和定位精度较低等问题,论文构建
随着互联网的快速发展和Web2.0网站的兴起,对社区结构的挖掘成为了网络分析中的研究热点。社区发现对于深入了解网络的内部结构和深层特性有着重要意义,网络总是在变化的,对
Ad Hoc网络是一种灵活的不依赖于固定基础设施的新型无线网络,灵活组网的功能使得其在传统有线网络鞭长莫及的特殊环境下发挥着不可替代的作用。Ad Hoc网络又称为多跳网、无基
随着科教兴国战略的实施和教育体制改革的不断深入,我国高等教育得到了突飞猛进的发展。在这种形势下,各高校为了提高教学质量投入固定资产的金额不断增加,使得高校的资产房
当前,云计算、云存储技术正在飞速发展。由于网络服务带宽吞吐率直接影响着云计算云存储的用户体验,所以人们在使用云计算云存储的过程中,非常重视云计算云存储提供的网络服务带
蚁群算法因其具有分布式计算、信息正反馈和启发式搜索等优点,已经成功地应用于解决各类复杂优化问题,然而蚁群算法中收敛早,易陷入局部最优等缺点也一直存在。聚类分析是数据挖
随着公共安全问题的日益突出和视频数据的爆炸式增长,智能监控逐渐成为计算机视觉的一个研究热点。针对超市监控中的盗窃现象等人体异常行为进行分析和检测,不仅能够减轻监控
医学图像分割在医学研究、临床诊断、医学图像三维重建和可视化、计算机辅助手术等领域中有着广泛的应用和研究价值。所谓医学图像分割,就是根据医学图像中的某种相似性特征,
传统的RFID防碰撞算法在处理碰撞时,阅读器发送数据的传输总次数和传输总位数都比较多。为了更好的解决在多标签环境下标签上传数据的碰撞问题,本文对以往的防碰撞算法进行了优