【摘 要】
:
机器翻译是在自然语言处理的研究领域中重要并且具有挑战性的任务之一。在机器翻译的各种方法中,神经机器翻译是发展速度最快、最受欢迎的一种机器翻译方法。它以大规模平行语料为驱动,所以在低资源条件下训练泛化能力较好的神经机器翻译模型更加困难。因此,有迫切的需求研究低资源条件下性能更好的神经机器翻译模型。然而存在几个问题:(1)如何实现性能更好的分词系统来帮助低资源机器翻译;(2)如何高效、充分地利用高资源
论文部分内容阅读
机器翻译是在自然语言处理的研究领域中重要并且具有挑战性的任务之一。在机器翻译的各种方法中,神经机器翻译是发展速度最快、最受欢迎的一种机器翻译方法。它以大规模平行语料为驱动,所以在低资源条件下训练泛化能力较好的神经机器翻译模型更加困难。因此,有迫切的需求研究低资源条件下性能更好的神经机器翻译模型。然而存在几个问题:(1)如何实现性能更好的分词系统来帮助低资源机器翻译;(2)如何高效、充分地利用高资源语言;(3)如何生成高质量的伪数据。本文的研究成果可以归纳如下:基于自监督词切分的低资源神经机器翻译方法词切分在自然语言处理领域中是核心的基础研究。性能更好的中文分词模型可以进一步提升低资源场景下的神经机器翻译模型的性能。目前最先进的基于神经网络和预训练的方法已取得了良好的效果。然而,前人的工作着重于用静态的数据训练模型,因此有必要用带噪声的数据验证分词模型的鲁棒性。本文中我们基于修改的掩码语言模型和改进的最小风险训练方法,提出了一种简单、有效的自监督中文分词方法。实验结果表明,我们的方法在公开的中文分词数据集上取得了显著的提升。基于迁移学习的低资源神经机器翻译方法在低资源神经机器翻译研究领域中出现了许多优秀的技术。最近,迁移学习在低资源神经机器翻译中得到了广泛的应用。然而,最原始的迁移学习方法无法充分利用高度相关的多个高资源语言。为了解决此问题,本文中我们提出了多轮迁移学习方法和统一化转写方法。除此之外,我们考虑到原始的迁移学习在训练父模型时很难学到有关子模型的信息,因此提出了混合迁移学习方法。实验结果表明,这两种思想在公开的数据集上取得了显著的提升。基于数据增强的低资源神经机器翻译方法数据增强方法在许多文本生成任务中得到了广泛的应用。特别是在低资源神经机器翻译研究领域中,出现了许多数据增强技术。然而,前人的方法很难保证伪数据的质量。在本文中,我们通过约束采样方法来扩充语料库并构建了一个判别器子模型,以在一定程度上减少语法错误。除此之外,我们还基于复述表和词性标注来构造伪数据,减少伪数据的语法错误。实验结果表明,这两种思想在公开的数据集上取得了显著的提升。
其他文献
二氧化碳捕集、利用与封存(CCUS)是减少CO2排放,实现碳达峰与碳中和的重要方法之一。CO2增产致密油可在提高原油采收的同时对部分注入的CO2进行地质封存。CO2增产致密油过程受地层微/纳多孔结构、压力变化引起的过饱和析出、多相流体迁移和复杂润湿特性影响,揭示微/纳多孔内多相输运机理与规律是进一步优化CO2增产致密油技术的重要基础。本文通过理论分析与孔隙尺度实验相结合的方法,揭示了CO2/油/水
番茄匍柄霉菌(Stemphylium lycopersici,S.lycopersici)引起番茄灰叶斑病,是具有重要研究价值的病原真菌。然而,由于缺乏对番茄匍柄霉菌的功能基因组学研究,其致病因子和致病机理尚不清楚。已有研究表明NLP(necrosis-and ethylene-inducing peptide 1-like protein)蛋白是一类病原相关分子模式。在这项研究中,我们首次在番茄
滨海盐田伴随着经济社会高速发展应运而生,又随着经济体制转型而逐渐走向废弃。对废弃盐田实施综合治理并优先复垦成农田是积极响应“黄河流域生态保护和高质量发展”这一重大国家战略的具体行动,这一举措对缓解我国人地矛盾、增加有效耕地面积等方面可起到重要推动作用。然而,由于盐田独特的生产环境,在经过一系列工程措施和大水压盐复垦成农田后,虽可以种植少量的耐盐和耐贫瘠作物,但想要短时间内提升耕层质量、提高土地产出
草莓因其独特的风味和丰富的营养,深受人们喜爱,是重要的鲜食和加工水果。提高草莓的果实品质和抗性一直是果树研究的重点,而植物蔗糖非发酵蛋白激酶-1(SnRK1)在调控碳水化合物代谢,以及应对生物和非生物胁迫方面起重要的开关作用,研究SnRK1对果实蔗糖代谢和抗逆性的影响对于提高果实品质和产量具有重要意义。因此本研究以‘妙香7号’草莓为试材,研究了草莓SnRK1对果实蔗糖代谢和灰霉病抗性以及对淹水胁迫
叶片是植物光合作用、呼吸作用和蒸腾作用的主要器官,根据一个叶柄上所生叶片的数目可分为单叶和复叶,而叶的边缘也有平滑和锯齿之分。锯齿叶具有更大的延展空间,有利于捕获光能,此外还能提高植物对外界胁迫的抗性。研究植物叶缘形态对于提高植物光能利用率,改善植物对环境的适应能力以及提高观赏价值都有重要的意义。叶缘的形态受基因、激素、环境信号的共同调控,虽然目前对叶缘形态的调控通路已初步报道,但相关的调控基因仍
刚地弓形虫(Toxoplasma gondii)可以引起弓形虫病,是世界范围内广泛存在的一种专性细胞内寄生原虫,能够感染包括人类在内的几乎所有温血动物,对免疫功能低下的人或者孕妇危害更大。弓形虫生活史复杂,致病寄生虫需要依赖表观遗传学控制机制来调控基因表达,促使对不同组织或压力环境的适应。弓形虫的裂殖周期可分为三个阶段:弓形虫对有核宿主细胞的主动入侵,宿主细胞内的复制以及主动从宿主细胞逸出。在宿主
连作障碍制约我国苹果产业健康可持续发展,寻求绿色、高效的防控措施是防控苹果连作障碍的理想途径。生物防治是苹果连作障碍防控的重要途径之一。本研究探讨了27个老龄苹果园连作障碍的严重程度与丛枝菌根真菌(AMF)多样性的相关性,分离鉴定出一株高效AMF菌株并对其防控效果进行验证,分析了接种AMF苹果砧木抵御腐皮镰孢菌侵染的生理和分子机制。同时,从接种AMF苹果砧木M9T337中筛选并克隆了一个响应腐皮镰
随着无线通信领域的快速发展,对于无线网络和设备的能耗要求也越来越高。一个完整的无线通信系统不仅仅需要提供可靠的通信,还要能够降低日常运行过程中的能耗。然而要想获得更高的数据速率,只能通过消耗更多的能量来实现。在5G通信中,当能效不变的前提下,100倍的数据速率将与100倍的能耗呈正相关。此外,这也可能产生环境问题,因为无线网络通常是由不可再生的绿色资源供电。当然陆地和水下环境中的各种限制也降低了无
大白菜杂种优势明显,主要利用自交不亲和系生产F1代杂交种。自交不亲和性比较强的亲本有利于提高杂交率,但自交繁种十分困难,导致具有优良性状的强自交不亲和系不能作为亲本,极大地限制了亲本的选择和选配。因此亟需对大白菜自交不亲和的调控机制进行系统解析,以提高自交不亲和系亲本的繁种效率,扩大亲本可选择范围。本研究发现大白菜自交不亲和反应由受体激酶FERONIA介导的活性氧(ROS)所调控,柱头ROS在自花
钢筋混凝土(Reinforced Concrete,RC)剪力墙结构是我国高层建筑中最常见的结构形式。而RC装配式剪力墙结构因其工业化程度高、建造速度快、建筑产品质量高、有利于环境保护等方面的优点,近年来得到了广泛的关注。拼接处的有效连接是保证RC装配式剪力墙结构安全的关键,本文提出采用冷挤压套筒连接和钢板螺栓连接两种新型RC装配式剪力墙,可解决现有钢筋灌浆套筒连接方式存在的质量检测困难、灌浆套筒