基于单语语料库训练的蒙汉机器翻译的研究

来源 :内蒙古工业大学 | 被引量 : 3次 | 上传用户:xjx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译是人工智能领域的重要研究课题之一,主要目标是研究如何使用计算机实现一种自然语言到另一种自然语言的自动转换。随着互联网的不断发展和研究方法的不断改进,机器翻译性能也随之不断提高。虽然从目前的研究现状来看,神经机器翻译在资源丰富且有大规模高质量广覆盖面的平行语料的语种上取得了很好的翻译效果,但是在平行语料稀少的语种上却表现不佳。然而作为一种数据驱动的方法,只有当训练语料库达到一定的要求,其才会体现出较好的翻译效果,而少数民族地区经济文化发展普遍相对缓慢,可以收集到的平行语料资源相对较少。在这种情况下,神经机器翻译很难取得理想的效果。因此,为了充分利用现有单语数据提高蒙汉机器翻译系统的性能,本文进行了基于单语语料库训练的蒙汉机器翻译的研究。首先,针对蒙汉机器翻译中平行语料资源稀缺的问题,总结出实现基于单语语料库训练的三大原则:预训练语言模型、初始化翻译模型和迭代回译优化初始翻译模型。并就三大原则中的第一条进行了深入的研究,发现基于多头自注意力机制融合蒙汉单语和双语语料预训练跨蒙汉语言模型能够在很大程度上提升翻译模型的性能。其次,另外一个工作是对语料进行融合不同粒度的切分比较。蒙古文词的数量庞大,而且可以通过在词干后添加附加成分来构造新词,因此翻译模型无法覆盖所有词,故未登录词的问题会一直存在于词级翻译模型中。而蒙古文字符数量有限且数量较少,所有词都由字符序列组合而成,这种字符序列有一定的组合规律,适合神经网络模型去学习,故研究融合不同粒度的切分方法来预处理语料,实验结果表明:该方法能在一定程度上缓解蒙汉机器翻译中未登录词的问题。最后,对基于单语语料库训练的蒙汉机器翻译模型与基于平行语料库在LSTM神经网络上训练的蒙汉机器翻译模型进行了对比实验,采用机器翻译常用的评测标准BLEU值,将结果做了对比分析。实验表明:融合蒙汉单语和双语语料预训练跨蒙汉语言模型可在很大程度上优化基于单语语料库训练的蒙汉机器翻译模型,且优化后的翻译模型与使用10万句对双语语料训练的蒙汉机器翻译模型的BLEU值接近。由于单语语料库比双语语料库容易得到,所以基于单语语料库训练的方法在提升蒙汉机器翻译系统性能方面有一定的优势。
其他文献
当前对于煤矿安全产生影响的因素非常多,如井下电气设备的安全便是重要的影响因素。所以,要深入分析煤矿井下电气设备保护与维修技术。因此,本文针对煤矿井下电气设备保护与
随着我国教育事业的发展,素质教育的理念已经深入人心,学校也越来越重视音乐教育。为了更好的进行音乐教学,提高音乐教学的质量,师生之间的课堂互动是必不可少的。因此,本文
以跨文化传播为目的的纪录片是一个优质的社会透视通道,如何在众多的题材中选择最佳的传播符号和传播方法,以期实现传播者意图的有效抵达,是当下包括纪录片在内的影像传播研
<正> Cr12MoV钢广泛用于制造高性能的冷作模具,要求淬火至高硬度(HRC>60)的常规工艺规定的淬火温度是1020~1040℃。为了充分发挥Cr12MoV钢的性能潜力和工艺的适用性,我们试验
通过对罗茨鼓风机壳体结构的讨论,根据实际使用情况,对两种罗茨鼓风机壳体结构的比较和合理改善能够提高罗茨鼓风机的性能,在一定的条件下可以改善风机的噪声和出口温升等,但相应
介绍了一种新型的QCM(Quartz Crystal Microbalance)频谱分析系统的设计,它具有结构简单,实时性好,抗干扰性强,应用领域广,精度高等特点.文中对最小阻抗频率等同谐振频率的合理
本文简述了高边坡支护预应力锚索施工技术,并结合预应力锚索施工的实际特点,对其施工过程中需注意的要点进行了简单分析,为高边坡支护预应力锚索施工的有序开展提供参考依据
<正> 强化科技意识,就要深刻领会、认真贯彻邓小平同志“科学技术是第一生产力” 的伟大战略思想,大力推动公安科技进行,发展公安刑侦技术事业。小平同志这一战略思想,是运用
适应新时代的特点,地震科普工作应与时俱进地更新内容和方式,大力开展面向减轻灾害风险的地震科普,使社会公众能够正确地识别地震风险、掌握紧急避险和自救互救的知识和技能