低资源神经机器翻译中关键问题的研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:zcat16
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译(NeuralMachine Translation, NMT)借助机器学习和深度学习的迅速发展以及计算机硬件能力的快速提高取得了前所未有的成就。虽然受益于多种深度神经网络优越的表达能力,翻译模型在一定程度上能够自动学习特征,但语料稀缺、语义表达方式单一等问题使模型的学习表征能力不能充分发挥,这也是阻碍低资源机器翻译进一步发展的关键原因。这些固有的特点会引起一系列的翻译问题,如常见的UNK(Unknown Words)问题,模型泛化能力差问题,指代错误问题和过拟合问题等。
  本文在深度学习的基础上针对低资源神经机器翻译中的一些关键问题展开研究,对问题的原因和本质进行深入的分析,然后在此基础上提出相应的解决方案,并在多个低资源翻译任务上对提出方法进行实验验证和分析。本文的研究内容主要围绕以下几个方面:
  1.针对突出的曝光偏差、评价指标一致性等问题,本文将强化学习应用到低资源神经机器翻译中,利用目标奖励机制和动态采样算法使机器翻译通过评测指标来指导模型训练。同时尝试将价值迭代应用到强化训练过程中,探索不同粒度对序列解码过程的影响,并在此基础上提出一种在解码阶段能够发挥各粒度优势的基于自由粒度输入的训练策略,解决低资源任务中语义表达方式单一的问题。
  2.针对强化训练在翻译时出现的语义损失问题,本文提出一种将基于序列之间余弦夹角的语义损失计算作为强化训练的优化目标之一的策略,探索在有效提升译文BLEU(Bilingual Evaluation Understudy)值的同时进一步提升译文的可读性。
  3.针对低资源机器翻译中的UNK和指代错误问题,本文提出一种噪声泛化训练策略,借助生成对抗网络的博弈训练机制使模型在训练过程中能够对添加的噪声泛化。噪声策略通过将引起问题的原因转换为序列噪声,进而使其在对抗训练中被模型泛化,从而解决一类机器翻译中由固定原因引起的问题。由于策略本身不受模型或噪声形式的约束,因此对于自然语言处理中一些原因确定的问题,可能具有一定的参考价值。
  4.针对低资源翻译任务训练过程中突出的过拟合问题,本文提出了一种融合型Drop方法,以期获取对于低资源任务更好的权重和节点分布。
  本文对于上述关键问题在多个低资源语言翻译任务上验证了提出方法的合理性和有效性,主要的实验结果和贡献包括:①基于动态采样的强化训练方法能够有效的解决曝光偏差和评测指标不一致问题,且在三个低资源任务上相对基线提升了2-4个BLEU值;②提出的基于语义约束的强化训练方法能够有效的缓解译文中出现的“高BLEU值-低可读性”的现象,在‘①’的基础上显著的提升了译文的流利度;③提出的自由粒度训练策略能够为输入提供更丰富的语义信息,并且能够通过价值迭代模块准确的找到合适的解码粒度。模型在三种低资源语言翻译任务上相较基线系统提升了1-5个BLEU值,且价值迭代模块能够相对基线系统缩短近1/3的训练时间;④提出的噪声训练策略在多个形态丰富的低资源翻译任务上都显著的降低了符号的数量。对于指代错误问题,在(20×10000)个迭代步中序列级BLEU值平均能够提高2个百分点;⑤提出的融合型Drop方法在合理的概率分布下提供的训练子网数相对Dropout和Dropconnect有指数级的提升,且验证得出实验中的低资源任务在成功概率为[0.2-0.3]时,模型训练的效率最高。
其他文献
当今世界,任何一个国家都无法独立发展,各种文化之间的相互影响和渗透越来越大,甚至促进了人类社会的进步。因此,不同语言之间的翻译已成为各国经济、政治和文化交流过程中的关键点。随着全球化的不断深入,各类翻译活动更是如火如荼的开展起来。人们现在不仅需要高效快速的翻译,对翻译质量的要求也是越来越高,这就需要对翻译质量进行评价。过去对翻译质量的评价主要靠人工进行,主观性较强,没有确定的译文质量评价标准,并且
学位
传统金融学和现代行为金融学都认为股票市场的波动受到信息发布、传播、公众接受的影响。早期的股价预测研究主要是对股票历史交易数据进行分析处理,从中挖掘对股价走势判断有利的特征,随着人工智能、自然语言处理技术等技术的发展,从新闻媒体中提取能够反映宏观经济、基本面以及影响投资者情绪的信息变为可能,研究者开始将新闻文本数据与股票交易数据结合对股价进行预测。  利用新闻进行股价预测的关键之一是准确提取新闻中包
学位
在经济全球化的背景下,企业与企业之间逐渐建立了密不可分的关系。企业不仅仅会受到企业本身发展的直接影响,还会受到其合作伙伴支持和竞争对手的限制。在一家企业的全球化进程中,单兵作战往往会发展成为多家合作、交叉控股从而减少风险。对一家企业的评估不能只停留在企业本身的资产负债表和利润表,还要对与该企业相关联的公司进行风险评估。例如2016年乐视发生信用风险,一家大公司突然没落影响了多家相关企业和个人发生信
学位
现实世界中的网络往往并非是孤立运行的,不同的网络之间会存在着千丝万缕的关联,例如物理依附、逻辑依赖、能源或信息交换等,互相依赖、协同工作的网络情况更是现代社会普遍的现象。现实告诉我们,各类互相关联的网络共同服务于我们,能够大幅提高工作效率,缩短工作时间,但是与之对应的,所有网络之间都相互关联也存在着不小的风险。  近年来,不少学者根据现实世界的网络情况,抽象模拟出了多种具备不同特殊性质的网络模型,
学位
2008年,中本聪提出了比特币的概念,经过一段时间的发展,根据其概念应运而生的开源软件、对于比特币架构及其核心算法的研究形成了比特币的生态环境。  由于比特币早期具有易流通、交易成本低、易挖矿、去中心化的特点,比特币在早期发展速度很快。但是由于比特币体系匿名性的特点,这一点被不法分子利用用作金融犯罪活动,各国政府一度对比特币交易进行严格的管控,导致比特币价格出现了不稳定的情况。  经过这几年起起伏
学位
区块链技术是近十年来的新兴技术,具有去中心化、不可篡改、数据公开透明等优点,是分布式数据存储、P2P网络和公钥密码学等技术的新型应用模式。区块链技术的发展带动了互联网、金融、电信等各个领域的产业技术革新,一种新型产物——Dapp(Decentralizedapplication,去中心化应用)也应运而生,其广义定义为:运行于分布式网络,所有参与者信息受到安全保护,基于分布式网络进行去中心化操作的应
随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最主要的沟通和交流方式之一,语音中包含了大量的说话人的情绪信息,对于这些信息的充分获取和识别不仅推动了人类之间的交流,也对人机之间的交流效果有着很大的影响。近年来金融业、旅游业、远程教育和刑侦测谎等各个行业和领域中人机交互的繁荣使得利用人工智能
现代大型企业的大数据架构越来越复杂,大数据的采集、加工、使用以及废止链路环节明显增多,导致了企业对数据来源和影响的分析难度加大。一些企业开始尝试建立一套反映元数据间血缘关系的可视化地图,用来梳理数据的使用链路,以方便业务查询和开发管理。  元数据是描述数据的数据,如数据库的配置、表编目信息等。元数据的血缘关系描述的是一种层次结构,即目标数据来源于哪些源数据,又生成了哪些子数据,例如数据A生成了数据
随着大数据时代到来,企业规模和业务的持续扩张,业务系统复杂程度也在不断增加。如今分布式、虚拟机等新技术的出现对高响应、高并发与稳定运行提供了解决方案,但分布式系统的内聚性使系统运维需贯穿业务系统的所有环节,且每一时刻都会产生海量运维数据,如何利用这些指标数据对系统状态进行诊断成为智能化运维的一个课题。本文基于电网信息系统时序数据和系统告警数据,通过自组织网络、单分类支持向量机、负样本聚类与告警数据
学位
在传统模式下,供应链信息管理薄弱,目前开展供应链金融服务主要受制于其业务信息的“不对称性”和“不完整性”,供应链条上下游企业各自使用纷繁复杂、独立封闭的ERP系统,形成众多“信息孤岛”,造成信息割裂,无法做到信息透明且全程可视,从而导致信任无法传递,且供应链上成员之间“信息不对称”极易造成欺诈问题,履约风险高居不下,因此银行等金融保理机构出于风控考虑,只愿对核心企业的一级上游供应商或下游经销商提供