基于多反馈对抗学习的蒙汉机器翻译研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:wlq808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙汉低资源神经机器翻译由于数据稀疏现象使得学习到的特征相对较少,训练容易过拟合。此外,受语料质量限制,参数在更新时也容易产生负优化和曝光偏差等问题。传统的解决方法如对抗学习等虽然凭借博弈思想,通过在训练中引入评估指标对解码偏置进行约束。然而,单一的序列评估指标易造成生成器生成译文质量不佳,且利用蒙特卡洛算法得到不考虑中间状态的奖励易降低上下文信息的学习率。基于此本文采用异步动态规划的采样方法构建了生成对抗网络下基于多反馈蒙汉机器翻译的研究。(1)针对蒙汉双语语料的数据稀疏问题,采用数据增强方法扩充数据,将扩充后的伪语料与真实语料相结合共同参与模型的训练。再采用BPE切分方式来缓解低频词问题。之后使用Uni LM模型获得动态词向量表示,为生成高流利度的译文提供必要基础。(2)对于序列评估指标的单一问题,将鉴别器的反馈、语言模型反馈以及句子级反馈加权融合来优化生成器。通过三种反馈的融合指导生成器网络与鉴别器网络相互博弈,缓解单一反馈带来的语义特征单一现象,有效提高翻译模型的翻译质量。(3)基于蒙特卡洛采样方法的独立延展性使得采样后隐藏层节点的状态值不依赖于以往上下文的状态值。通常,动态规划(同步)方法可缓解状态值之间的依赖缺失问题,但在状态更新时由于参考上一轮经验导致计算资源大量消耗。因此使用异步动态规划方法的采样方法,利用经验优先级算法更新经验,进而避免计算灾难。本文在CWMT2018和CCMT2019近50万蒙汉双语数据集上进行实验,最终结果表明数据增强+BPE+Uni LM的预处理方法可以有效缓解蒙汉低资源数据匮乏的问题;同时基于多反馈对抗学习架构的翻译方法可以使蒙汉机器翻译质量得到提升。
其他文献
近年来,神经机器翻译取得了较大的发展,其中篇章级机器翻译由于应用价值高、模型结构丰富,已经成为了神经机器翻译中的一个研究热点。但现有的篇章翻译模型只能通过注意力机制获取线性距离层面的句子相关性信息,模型在输出篇章级译文时难以获取篇章层面上的深层语义和衔接,因此存在难以利用深层上下文信息的问题。针对上述问题,本文使用路径位置编码和相关性位置编码的方式改进了篇章翻译模型位置信息的输入,提出了能够关注位
学位
近年来,社交网络软件已经成为全世界人们使用最频繁和最受欢迎的应用软件。而社交网络中蕴含大量用户个人信息,若不加处理直接发布,则有泄露用户隐私的风险。因此,在用户隐私与数据实用性两者之间取得平衡成为社交网络隐私保护领域的一大挑战。针对上述问题,本文提出以下两种算法:(1)基于树结构的K度匿名隐私保护算法。本文提出一种简单有效基于树的K度匿名算法TKDA(Tree K-Degree Anonymity
学位
一组物种的进化历史传统意义上是表示为一棵系统发生树,系统发生树可以描述树状进化事件,对于网状的进化事件很难用这样的模型来描述。系统发生网络可以描述网状进化事件,例如、杂交(hybridization)、重组(recombination)、基因复制(duplication)、丢失(loss)或水平基因转移(horizontal gene transfer)等。本文介绍了系统发生树及网络中的术语,包括
学位
在互联网飞速发展的时代背景下,学术论文的发文率急剧上升,用户所面临的论文信息过载问题也越来越严重。因此,将学术论文进行个性化推荐成为解决这一问题的一种行之有效的方法。虽然有很多学者都正在致力于研究如何提高个性化推荐的效率,但目前的推荐系统还面临着大量的问题,例如,稀疏的数据容易造成过拟合,没有大量用户数据的情况会影响推荐结果的准确性,以及如何使推荐结果多样化等。针对以上问题,本文提出了基于深度学习
学位
指示表达是近年来计算机视觉和自然语言处理交叉领域中一项具有挑战性的多模态任务。该任务给定一个图像和一个自然语言语句作为输入,其目的是在图像中识别并定位出一个与自然语言所指示的实体对应的区域。因此,指示表达需要精确理解单词与单词、图像区域与区域之间的结构关系问题。目前的方法没有考虑文本和图像全局特征中的复杂结构,仅捕获了图像和文本的局部依赖关系,导致无法准确建模对象与对象之间的关系,使得指示表达的性
学位
本研究采用6种体外消化方法分析场地土壤中砷(Arsenic,As)和铅(Lead,Pb)的生物可给性,通过分析土壤理化性质、消化液p H、模拟器官等因素对其影响,筛选提出适合我国实际的土壤As和Pb体外消化方法;使用筛选的SBET法测定湖北化工园区内污染土壤中As和Pb的生物可给性,选择成年雌性B/C小鼠作为模式生物,使用血液、尿液、肝肾模型测定磷化工场地内污染土壤中As的人体生物有效性,通过分析
学位
多环芳烃(Polycyclic Aromatic Hydrocarbons,PAHs)作为典型的持久性有机污染物,广泛地存在于土壤、沉积物和水体等环境介质中,具有高毒性、难生物降解和高生物富集性等特点。微生物修复因其安全性、生态友好性以及经济性成为最具前景的PAHs污染修复技术。PAHs污染场地环境条件随时空变化差异大且PAHs往往以混合物形式存在,这阻碍了持续高效的原位生物修复进程。因此构建具有
学位
随着互联网与云计算技术的高速发展,越来越多的应用程序被托管在云端,为了保障服务质量,云服务提供商需要对相应的云数据中心工作负载进行预测,以此来预估未来的资源使用情况,如在突然负载到来前进行资源扩充,既可以提升应用平台的可靠性也可为云服务提供商带来可观的经济效益。因此,如何及时准确的预测云环境中的工作负载成为急需解决的问题。本文从影响工作负载变化的多因素角度出发,将业务系统层面的数据考虑在内,提出了
学位
在工业化日趋迅速的背景下,城镇建设与生态环境保护的矛盾也日渐突出,万达开区域作为起步发展的中小型城镇,需在科学理论指导下进行建设发展规划。本文以川渝毗邻区中的万达开区域为研究对象,以2005年、2010年、2015年和2018年四个时间的夜间灯光影像与遥感影像数据为基础,并收集该时期内的社会经济统计数据以及相关文献资料。采用空间分析法、价值当量因子法、协调度模型等研究方法,研究了地区建设用地变化扩
学位
三峡水库两岸的消落区一直存在严重的生态问题,诸多学者已经提出了相关的治理方法,但成效依然有限。本研究旨在通过探究三峡水库干流消落区人工修复植被淹水前后根际微生物区系动态,希望能为消落区的快速、稳定修复提供一个新的思路。我们采集了消落区典型优势植物苍耳(Xanthium sibiricum)、狗牙根(Cynodon dactylon)、牛鞭草(Hemarthria altissima)三种植物的根际
学位