基于谷歌神经机器翻译的英汉翻译研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:cbir
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习的再度兴起,神经机器翻译NMT逐渐取代了传统的基于短语的统计机器翻译方法,特别是基于Seq2Seq的神经机器翻译模型比较契合端对端的语言翻译模式,获得了业界研究人员的重点关注。然而与传统的统计机器翻译相比,神经机器翻译,特别是基于大规模数据集的神经机器翻译模型仍然存在缺陷,其训练和推理速度缓慢、存在翻译不完全的问题被暴露出来。同时受词汇表规模的限制,神经机器翻译在未登录词和罕见词上同样出现了OOV(out-of-vocabulary)问题。针对以上提到的模型翻译不完全和词汇表OOV问题,本文分别提出了以下解决方案:(1)为了解决神经机器翻译在未登录词和罕见词上的OOV问题,我们将英文文本预处理中常见的词干提取技术和数据压缩算法bpe(Byte pair encoding)相结合,提出了一种不同的基于subword(子词)的词序列分割方法。利用该方法我们将英文文本分割为由子词单元组成的词序列,同时利用unigram将中文文本分割为由汉字组成的字符序列。(2)为了防止解码器出现翻译不完全的现象,本文采用了一种可以提高解码器获取上下文信息能力的改进Attention机制——Deep-Attention。受传统Attention计算过程的启发,我们在改进的Attention中采用了一种双层计算结构以重点关注解码器不同时刻的上下文向量之间的联系,提升Attention获取编码器全局上下文信息的能力。本文以Google开发的神经机器翻译模型GNMT为基础,在三种不同规模的数据集上对以上两种NMT改进方法进行了实验分析。实验结果表明,改进的词序列分割方法能够有效地解决神经机器翻译存在的OOV问题,提升模型翻译的准确度。在BLEU结果评估中,该方法获得了平均1.64个点的提升;而DeepAttention与传统的Attention相比,体现出了微弱的优势,在实验结果上BLEU值提升了0.3-0.6个点。
其他文献
拉罗是法国19世纪作曲家,也是西方音乐历史上著名浪漫主义作曲家,自幼便练习大提琴,在进行大提琴演奏上能够灵活掌握大提琴演奏力度、速度及音区变化等技巧,充分发挥出大提琴
随着经济发展,人民生活水平不断提高,智慧城市建设在各地逐渐加大建设力度,是新基建建设的重点内容之一。其中,对车辆的管控是智慧城市建设的首要内容。一方面需要对城市车辆目标进行全面检测和识别,另一方面也要对特定车辆的轨迹进行分析刻画,以便能够掌握重要车辆的相关信息,例如查找伴随车辆,分析车辆落脚点,进行车辆轨迹预测等。这些信息将会给交通管理等相关部门提供巨大的辅助作用,对智慧城市的建设提供强大的数据支
随着交通信息获取手段的更新,交通流数据越发丰富,为研究城市居民出行规律的发掘提供了新的视角和思路,轨迹数据的广泛应用也为广义交通流研究注入了新活力。面对城市交通需求的多样性、交通网络的复杂性、交通行为的协同性,我们越发地认识到交通流时空模式挖掘在“人-车-路-地”耦合的复杂交通系统研究中的重要性。本文以北京市交通运行指数和出租车OD流为例,以时间维度下宏观交通流短时预测和空间维度下微观交通流模式挖
随着人口老龄化趋势的加剧,养老问题越来越被人们和社会所关注。虽然国家出台了一系列养老保障的政策法规,以促进社会养老需求的全面释放,但是受传统家庭养老观念的影响和社会养老意识的缺乏,家庭养老依然是人们的普遍选择,我国养老观念上的文化变迁远落后于家庭结构、家庭规模以及家庭生产方式的社会变迁。受计划生育政策成长起来的当代大学生,不同于以往的多子女家庭,可以多名兄弟姐妹共同分担养老压力,家庭少子化趋势使得
随着企业竞争环境日益加剧,企业在发展过程中越来越重视内部人力资源的管理,通过可续高效的企业绩效管理可以帮助企业提升核心竞争实力,实现企业的健康长远发展。企业中层管理人员在企业中的地位比较特殊,他们既要分解并落实公司下派的目标任务,实现企业内部信息的高效率传输和流动,更要带着部门全体员工一起干事创业,激发一线员工的主观能动性,为公司输送人才。在企业的发展过程中,他们的能力与素质对企业能否实现更为长远
穿越神秘的蓝月山谷,进入如世外桃源一般美丽的“香格里拉”。正是这些奇美风光与独特人文,一次次地引我来到这片充满魔力的土地,把自己的灵魂彻底迷失在无数人为之寻找、为之心
在经济快速发展和国家对高等教育事业大力支持的背景下,高校规模和资金数额都在逐年攀升,业务日益复杂。传统的财务管理模式已不能满足高校日益复杂的业务管理需求,甚至开始制约高校发展。组织结构不合理、业务流程不统一、信息闭塞以及工作效率低下等都是全国高校财务管理工作中普遍存在的问题。而财务共享服务理念的引入和信息化技术的运用正好可以解决上述问题。通过搭建信息化平台,将全校的业务资源进行整合,再借鉴财务共享
目的:探讨彩色多普勒超声在亚临床甲状腺功能减退诊断中的意义。方法:对经临床及实验室确诊的40例亚临床甲状腺功能减退患者进行彩色多普勒超声检查,对其二维声像图及彩色血流分
当今社会中,随着计算机技术、网络技术、信息技术的共同发展,带动了全球信息化的发展,给各国经济、政治、通信、教育等各方面带来了翻天覆地的变化。现代化企业为了生存,对于网络系统的需求增大,依赖程度越来越强,通过网络系统可以承载大量的企业信息,是发展信息化建设的基础。而随着信息化的规模不大加大,其也面临了越来越严峻的网络信息安全问题,包括网络硬件安全性能不良、系统缺陷、安全漏洞、安全管理不当等,为了保障
VoLTE主要是指需要将全面的业务承载在4G网络上使用的一种IP数据传输技术,通过在统一网络下,能够促进数据与语音业务的有机统一。通过使用VoLTE,为用户带来更低的接入时延,有