融合统计机器翻译特征的蒙汉神经网络机器翻译技术

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户:zhut2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器翻译的发展,统计机器翻译已经进入瓶颈期很难有所提高,因此研究人员逐步将研究目光投向神经网络机器翻译方向。神经网络机器翻译也在大规模语料上取得了很好的翻译效果,而对小规模语料的神经网络机器翻译研究甚少。但是作为新的机器翻译方法它也存在一些限制:(1)神经网络机器翻译为了降低训练的复杂度通常会将词典的大小限制到一个特定的范围内,从而导致严重的未登录词问题,这个问题严重影响了翻译效果;(2)神经网络机器翻译的解码缺乏保证源语言词都被翻译的机制从而倾向于短的翻译结果;(3)神经网络机器翻译不能很好的利用语言模型。基于以上原因,本文在小规模的蒙汉平行语料上实现了神经网络机器翻译,并提出通过统计机器翻译中的特征来缓解神经网络机器翻译中的问题。首先本文搭建了基于注意力的蒙汉神经网络机器翻译系统;其次,本文提取了统计机器翻译特征:翻译模型,词反馈信息以及语言模型,并定义了其特征函数;第三,本文通过蒙汉平行语料利用GIZA++建立了蒙汉对齐词典,利用IRSTLM对汉文建立了语言模型;第四,本文将已经建立的蒙汉对齐词典、语言模型以及词反馈信息通过对数线性模型融入到基于注意力的神经网络机器翻译的解码中从而处理神经网络机器翻译中的限制;最后,本文针对神经网络机器翻译中的未登录词问题提出了在翻译过程中处理和翻译后处理的两种处理方法,大幅度减少了神经网络机器翻译中的未登录词。实验结果表明,通过融合统计机器翻译特征的蒙汉神经网络机器翻译明显地提升了翻译质量,BLEU值提高至30.66,句子长度由16.7个词提升至19.1个词,并处理掉了神经网络机器翻译中86%的未登录词。
其他文献
随着我国经济的快速发展,海上溢油事故频发,造成巨大的经济损失和生态环境灾难。由于海上情况复杂,溢油区形状变化快,消除溢油污染危害的成本和难度较大。因此利用多手段遥感
随着Web服务组合的发展,Web服务组合越来越复杂,Web服务的质量也成为关注热点。Web服务的测试,尤其是Web服务组合的测试,成为保障Web服务组合质量的重要环节。BPEL是描述Web
随着工业控制系统的发展,在各个工业领域过程控制系统中积累了大量的数据,如何准确地从这些数据中发现有价值的知识及规律,是目前理论与应用中研究的热点与难点。目前,流程工业作
互联网中与日俱增的信息在给用户提供诸多方便的同时也悄然带来了“信息过载”的烦恼。如何更有效地获取信息,应对信息过载问题,个性化推荐系统已成为公认最有前途的技术发展
随着信息技术的迅速发展以及互联网的广泛深入,信息系统在人类社会中扮演着越来越重要的角色,而处于信息系统底层的操作系统,是计算机资源的直接管理者,其安全问题是信息系统
在移动通信网络中,除了较低花销实现数据的高速传输,还要求在各种生存环境中,网络具有适应性和生存能力。无线传感器网络(WSN)能够工作在恶劣的环境下,不受环境的限制,因此无
蛋白质组学是当前生命科学的新前沿,通过研究蛋白质的功能、结构、相互作用来系统地分析蛋白质,进而分析生命活动,成为热点的研究问题之一。尤其是,从蛋白质网络中识别蛋白质复合
随着软件产业的飞速发展,软件系统的规模不断扩大,导致软件的复杂度变得越来越高,由软件缺陷带来的事故也频繁发生,因此,软件测试作为保证软件质量的重要环节越来越受到重视
命名数据延迟容忍网络(NDDTN)是指命名数据网络(NDN)和延迟容忍网络(DTN)的融合。一个高效的转发策略不仅能够帮助用户快速准确地获得想要的内容,而且还有较低的传输时延和网
在信息化高度发达的今天,互联网已经成为人们获取信息,即时沟通的重要媒介之一,给人们工作生活带来了很大的便利。但是由于其全球性、开放性、即时性的特点,互联网也成为不法