基于神经网络的中英机器翻译研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:liang672369282
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译因其速度快和成本低的特点被视为克服不同语言之间沟通障碍的重要手段。近年来随着深度学习的发展,基于“编码器—解码器”架构的神经机器翻译已经成为主流的机器翻译研究方法。但由于词汇表大小受限和覆盖机制的不完善,神经机器翻译往往存在未登录词问题、过度翻译和漏翻译问题。针对未登录词问题,提出基于“替换—翻译—恢复”框架的数据泛化方法。首先,确定语料中拟处理的未登录词种类并设计双语未登录词的识别对齐算法;其次,将训练语料和测试语料中的未登录词替换为特定的泛化标志符,利用泛化后的语料进行模型训练和译文预测;之后,采用基于词典和规则的方法对未登录词进行翻译;最后,利用未登录词的翻译结果替换神经机器翻译模型输出译文中的泛化标志符得到最终的翻译结果。实验结果表明,数据泛化方法能够显著提升神经机器翻译模型的翻译质量和未登录词的翻译准确率,在RNNSearch和Transformer模型上BLEU值分别提升了4.72%和4.21%。在Transformer模型上,未登录词的翻译准确率平均提升了35.16%。为了缓解神经机器翻译中的过度翻译和漏翻译问题,基于不同覆盖模型存储信息的一致性和互补性,提出利用覆盖向量和覆盖分数同时指导注意力机制的多覆盖融合模型。首先定义词语级覆盖分数概念,之后利用覆盖向量和覆盖分数存储的两种翻译历史信息同时指导注意力分数的计算。根据覆盖向量和覆盖分数的融合方式提出层次多覆盖模型和平行多覆盖模型两种实现方法。实验结果表明,多覆盖融合模型能够提升神经机器翻译的译文质量。与其他覆盖模型相比,词对齐质量及过度翻译和漏翻译问题得到进一步改善。
其他文献
分析了采用允许载流量的大小进行线缆截面选择方法的弊病,从线缆整体费用最小的角度提出进行线缆选择的新方法,具有较好的实际意义。
在正放四角锥网架结构抗火性能研究的基础上,进一步分析了两向正交正放网架、斜放四角锥网架和正放抽空四角锥网架在大空间建筑火灾中的热力耦合反应。基于有限元程序ANSYS建
目的探讨与幕上大脑半球高级别星形细胞瘤生存预后相关的临床因素。方法回顾接受手术与术后辅助性放疗及化疗的97例高级别星形细胞瘤的临床资料,其中间变性星形细胞瘤(AA)60
<正> 子宫颈癌是我国女性最常见的恶性肿瘤之一,占女性生殖系统恶性肿瘤的58.5~93.1%。宫颈癌的病因,一般认为和早婚早育多产、宫颈炎症与创伤、性激素失调及病毒感染等因素有
重视和充分运用信息网络技术,使思想政治工作提高时效性,扩大涵盖面,增强影响力,这对于我们认识网络发展对思想政治工作的影响,探索如何利用网络优化思想政治工作,都具有重要的意义
目的观察蛛网膜下腔出血后脑血管病理结构的动态变化,以建立可靠的脑血管痉挛模型。方法实验分正常组、对照组(枕大池注入等量生理盐水)、SAH3d组、SAH5d组、SAH7d组、SAH10d组
西安建筑科技大学是1956年全国第三次院系调整时,由原东北工学院、西北工学院、青岛工学院和苏南工业专科学校的土木、建筑类系(科)整建制合并而成,时名西安建筑工程学院,1959年和
城市需水量预测对合理分配水资源起着重要作用,但城市需水量本身的影响因素众多,其预测是典型的不确定性问题。集对分析是处理不确定问题的新方法,它通过联系度展示了研究对象间
《倾城之恋》中的白流苏在经历一次失败婚姻后,受尽冷嘲热讽,不得不与范柳原展开一场"爱情的博弈"来为自己争取生存的权利,这场"爱情的较量"背后蕴含着身为她身为女性的无奈
三毛的作品就是她的人生,她的生存梦想、她的命运都在作品中一一展示,《撒哈拉的故事》是她最具代表性的散文集,浪漫诗意地展示着她和荷西的平凡生活。三毛也是一个非常重视