汉—维神经机器翻译中减少集外词的方法研究

来源 :新疆大学 | 被引量 : 0次 | 上传用户:wangyizhinihao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有的汉维间机器翻译研究工作主要集中在基于统计的方法。最近,神经机器翻译已经在多个语言对上取得了比较可观的结果并且超过了传统的统计机器翻译。但神经机器翻译对词表有严格的限制,导致集外词(out-of-vocabular,OOV)问题。像维吾尔语一样的黏着语,形态变化丰富,理论上有无限制词表,在神经机器翻译中面临更严重的OOV问题。因此,本文着重对基于RNN的汉-维神经机器翻译技术进行研究,旨在减轻其OOV问题。数据方面,本文构建了书面语和口语汉-维平行语料库;在平台方面,本文搭建了基于Moses的统计机器翻译平台和基于Tensorflow的神经机器翻译平台;在模型方面,本文提出了增强记忆的神经机器翻译模型;在实验方面,进行了三组对比实验来验证提出的减少OOV的方法和思路的可行性:(1)进行了基于三种不同模型的汉-维机器翻译实验。分别为:用Moses进行的基于短语的统计机器翻译(PBMT)、用Tensorflow进行的基于注意力机制的神经机器翻译(attention-based NMT)和增强记忆的神经机器翻译(M-NMT)实验。实验BLEU得分为PBMT(30.46)
其他文献
在人机交互的发展现状中,交互的信息输入方式从传统的鼠标、键盘向触摸屏、语音、手势等更简单的交互方式发展,这是逐渐趋向自然交互的变化。其中人的手势具有高度灵活性,直
在实时嵌入式系统未来的发展中,将多个子系统整合将是一个重要的趋势,虽然整合能够为系统的成本、大小、重量和能耗进行优化,但由于实时系统中任务对于实时性的特殊要求,随之
科学技术的进步促使人们的生活质量有了大幅度的提高,汽车已逐渐成为人们日常出行使用最为频繁的交通工具之一。但由于我国的汽车行业起步阶段比较晚,许多关键的甚至核心的汽
随着现代化工业生产的不断发展,工程系统也越来越复杂,人们对于系统运行的安全性、可靠性也越来越关注,容错控制方法也随之发展起来。容错控制方法可以通过相关的故障补偿算
云计算技术引发了信息产业技术领域的一场革命,已经成为当前产业界和学术界的研究热点。虚拟化技术由于具有增强系统弹性及扩展性和提高资源利用率等诸多优势而成为云计算的
随着信息技术的不断突破和快速发展,现代社会产生的各种信息数据呈指数级增长。在大数据时代来临之际,人们对存储系统的要求也越来越高,希望系统能够提供高性能、高可靠性以
随着计算机网络技术和信息技术的迅猛发展,数字图像的获取手段越来越便捷并且传播途径也越来越多样化。与此同时,各种图像编辑处理软件也相继快速发展起来,使得人们轻易就能
由于实际工程中许多非线性系统的状态变量是不可测的,人们利用状态观测器来估计系统的未知状态。而在众多实际工程系统中不可避免出现的约束问题,如果采用通常地控制方法,势
传统化石能源的消耗带来日益严重的环境问题,新型可再生清洁能源的开发变得尤为重要。而可再生清洁能源常受地域和季节的限制,因此开发高效的能量存储和转化系统迫在眉睫。在能量存储和转化系统中,Li-O_2电池因其3505 W h kg-1高的理论能量密度而引起了全球关注。然而,Li-O_2电池固有的氧还原反应(ORR)和氧析出反应(OER)缓慢反应动力学限制了其发展。另外,放电后产生的不溶和导电性差的过氧
内存数据管理技术特别是内存数据库技术,将数据的运算和存储都依托于内存,具有高并发、高吞吐量、低延时等特性,因此被广泛用于极高性能需求的场合。特别是近年来,随着硬件性