【摘 要】
:
该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和
【机 构】
:
东北大学自然语言处理实验室,沈阳雅译网络技术有限公司
【基金项目】
:
国家自然科学基金(61672138,61432013,61732005)
论文部分内容阅读
该文对神经机器翻译中的数据泛化方法和短语生成方法进行研究。在使用基于子词的方法来缓解未登录词和稀疏词汇问题的基础上,提出使用数据泛化的方法来进一步优化未登录词和稀疏词汇的翻译,缓解了子词方法中出现的错译问题。文中对基于子词的方法和基于数据泛化的方法进行了详细的实验对比,对两种方法的优缺点进行了讨论和说明。针对数据泛化的处理方法,提出了一致性检测方法和解码优化方法。由于标准的神经机器翻译模型以词汇为基础进行翻译建模,因此该文提出了一种规模可控的短语生成方法,通过使用该文方法生成的源语言短语,神经机器翻译的翻
其他文献
电气自动化控制系统作为重要的发展技术,其运行效果的优劣对社会建设具有一定的影响。因此,针对系统中设备的维护工作,逐渐成为现代企业中电气自动化控制作业的重要内容之一
随着我国医疗体制改革进程的不断深入,门诊药房服务理念也逐渐转变,成为了以患者为中心。药物服务指的是药师利用药学知识为患者和医护人员提供与药物直接相关的各项服务,以
β-连环素(β-catenin)是一种由CTNNB1基因编码的具有介导细胞间黏附及信号转导等多重功能的重要分子,其通过Wnt/β-catenin信号通路在肿瘤的发生发展中发挥关键作用。近年来,
建立了国家技术创新能力评价指标体系,提出了在国家技术创新能力评价中应用基于自组织映射(SOM)神经网络的分类模型,对28个国家技术创新能力进行了分类和评价,通过分析得出了一些
四川省矿山众多,因地制宜地划分矿山类型,对开展矿山土地复垦具有重要的意义.提出了四川省面向土地复垦的矿山分类原则和依据,指出四川省矿山分类的主导因素是矿山开采方式和
近两年随着“大众创业、万众创新”的浪潮,国家重点扶持八大领域之一的生物与新医药政策,为生物医疗企业指明了方向,可积极大胆地投入研发费用,为生物医疗企业投资大、生产周
<正> 桂东县委、县政府在抓好抓实全县农业结构调整工作中,坚持走集约化经营、区域化布局、良种化生产、市场化运作、规范化管理的路子,调优、调特,按照生产总量大、产品质量
在当今的互联网时代,智能手机功能强大,对人类社会影响显著。这就引起了传统的媒体,如广播的竞争压力激增,而且随着当今通信技术的发展,人们的信息、消费、思维等众多的方式
Lewis酸碱理论(电子论)在有化学中应用广泛,利用它可判断有机化合物的稳定性及某些反应的活性。通常的作法是把有机化合物看成Lewis酸碱的加合物,并使用软硬酸碱原则(HSAB原则)
郊区低压台区存在线路结构不合理、季节性负荷比重大,导致电压合格率偏低的问题,使得低压台区产生额外的电量损耗。本文通过分析某低压配网三种典型台区电网结构和高峰月用电