反向翻译译文多样性改进研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:fbyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,遵循着编码器-解码器框架的神经机器翻译模型在多个语言对上都取得了振奋人心的成绩。尤其是引入注意力机制之后,神经机器翻译的性能得到了进一步的提升,已经全面超越了传统的统计机器翻译系统。尽管神经机器翻译在多方面有着不错的表现,但仍然面临着诸多挑战,尤其在数据领域。越来越庞大的模型对数据量和数据质量都提出了更高的要求,不过构造数以百万记的高质量平行语料往往要付出很高的代价。研究表明更多样化的数据对模型提升有所裨益,所以探讨如何提高现有数据的使用效率变得很有意义。反向翻译技术通过将目标端单语翻译成源端语言来扩充平行语料,一定程度上丰富了训练数据,但在解码时,神经机器翻译受限于贪心策略,预测译文往往较为单一,为此本文提出了两种方法来提升反向翻译译文的多样性。第一种方法的思路是在神经机器翻译训练过程中引入流畅度提升学习策略。流畅度提升的基础是语法改错,通常用于发现和纠正外语初学者的书面错误,而在本文的方法中流畅度提升学习的目标是发现反向翻译模型译文的错误并迭代地更正,从而生成更多多样化的样本,与此同时还能带来语料质量的提高。此方法优势在于不用修改翻译模型的结构,仅需要在训练流程上做出调整即可,因此该方法理论上是模型无关的,可以轻松的迁移到任何机器翻译框架中。第二种改进机器翻译多样性的思路是在反向翻译束搜索解码过程中引入进化算法的概念,通过预测序列之间的交叉变异产生更多候选样本,从而在采样时能有更多选择。进化算法的思想来自于自然界的进化变异,是维持生物多样性的自然法则。本文受此启发,从束搜索输出空间中选择优胜序列,然后模拟基因重组和突变产生更多候选序列,从而提升神经机器翻译解码的多样性。相比于传统反向翻译数据增强方式,在WMT18英-德新闻翻译任务中,本文的方法在BLEU值上的提升超过0.5个点。
其他文献
分布式平均跟踪是近年来多智能体系统研究新兴的研究方向。对于一个多智能体系统,假设利用每个智能体都有一个独立的参考信号,分布式平均跟踪问题的目标是在仅利用本地邻居智能体信息的情况下,通过为每个智能体设计一个本地控制输入,使得所有智能体能够跟踪随时间变化的参考信号的平均轨迹。本文利用图论、矩阵论、概率论和控制论等相关数学工具,研究了在参考信号含有噪声的情况下,具有控制输入时延和随机丢包过程的线性离散多
研究目的1本研究旨在对南宁市MSM进行横断面调查,通过构建MSM社会网络队列对该人群的社会网络特征进行分析,充分阐明该人群社会人口学特征、艾滋病/性病感染流行现状、高危性行为及社会网络特征,明确成员间的社会网络关联,通过社会网络特征及关联找到HIV传播和干预的重点。2结合个人深入定性访谈进一步探索MSM高危行为的深层原因,为制定出理想的社会网络干预措施提供依据。研究方法1第一部分为横断面研究:以南
基于钙钛矿材料的钙钛矿太阳能电池在过去十年里经历了快速发展过程,其光电转化效率由最初的3.8%发展到现如今的25.2%,这在太阳能电池领域中引起了研究人员的广泛关注。虽然现在钙钛矿电池的效率已经十分接近硅基电池,但是其在稳定性与使用寿命等方面仍有不足之处,这对实现产业化无疑产生了阻碍。由于倒置式钙钛矿电池可低温制备、迟滞效应少,以及可应用到柔性器件等优势,在未来的光伏应用方面有着巨大前景。因此我们
研究背景和目的:妊娠期高血压疾病(Hypertensive disorders of pregnancy,HDP)是临床上常见的妊娠期并发症,疾病进展出现子痫前期,甚至子痫更会影响母婴健康和生命安危。现阶段依然缺乏能够早期预测及预示病情进展的敏感实验室指标,本研究通过测定铁调素(Hepc)、同型半胱氨酸(Hcy)和非对称二甲基精氨酸(A DMA)在妊娠期高血压和子痫前期患者血清中的表达含量,旨在分
创伤、烧伤等造成的大面积皮肤缺损,常形成难以愈合的创面,不仅影响了皮肤组织的完整性,而且显著增加细菌感染的风险。因此,基于多糖和蛋白质组成的天然细胞基质(ECM)的优良生物相容性及可见光激发半导体产生自由基抗菌性能,本文设计并制备了一种具有注射性能优异、原位成胶快速、降解速率适宜及细胞生物相容性好的半导体纳米颗粒掺杂的仿细胞基质抗菌水凝胶。主要研究内容和结果如下:首先,利用甲基丙烯酸和碳酰肼修饰明
能源是人们生活中必不可少的物质,也决定着经济的发展。传统的化石燃料如石油,煤等为人们提供能源的同时,也伴随着巨大的代价。近年来随着化石燃料的不断消耗,使其短缺风险加重,而其在使用过程中产生的二氧化碳又会加剧温室效应,改变传统能源结构,寻找可替代能源迫在眉睫。纤维素作为自然界中储量最高的生物质而受到人们的广泛关注。但由于纤维素中存在庞大的氢键网络结构,导致其结晶度很高,使其应用受限,本文将纤维素包裹
热带水果菠萝(Ananas comosus)的开花时间和花序形态会影响结实时间和果实品质,对果农的经济收益产生影响。随着菠萝转录组测序成功和分子生物技术的迅猛发展,菠萝SPL(Squamosa promoter binding-like protein)家族的全基因组鉴定已经完成,但是SPLs基因功能及其具体调控机制尚不清楚,本文对菠萝AcSPL3(Ananas comosus squamosa
烟碱型乙酰胆碱受体(nAChRs)是自然界普遍存在的一种具有重要生理功能的跨膜蛋白,属于配体—门控型阳离子通道蛋白成员之一,它主要存在于中枢和外周神经系统。近年研究报道含α6亚基的nAChRs主要分布于儿茶酚胺能核、海马体、背根神经节和中脑多巴胺能区域,其能介导生物体的一些生理调节功能,如:情绪、疼痛、成瘾、奖赏、抑郁等。由于缺乏α6*亚型特异性探针,限制其相关神经生理、病理和药理研究。α-芋螺毒
显微镜检法是医院常用的结核杆菌检测方法之一,需手动调节显微镜,处理繁琐、完成时间长,在镜下不易找到细菌。镜检系统旨在将该过程自动化,扫描速度快,成像质量高,实时存储数据以供复核。近年来镜检系统衍生出了各种医疗器械,大多搭配台式计算机运行软件和算法,体积庞大,而随着嵌入式设备计算性能的提升,台式计算机可由嵌入式设备代替,使镜检系统小型化、精简化,减少成本,提升产品竞争力。本文以镜检系统的实现和萋尼氏