Transformer-CRF词切分方法在蒙汉机器翻译中的应用

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:zwj306041732
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于编码—解码(端到端)结构的机器翻译逐渐成为自然语言处理之机器翻译的主流方法,其翻译质量较高且流畅度较好,但依然存在词汇受限、上下文语义信息丢失严重等问题。该文首先进行语料预处理,给出一种Transformer-CRF算法来进行蒙古语词素和汉语分词的预处理方法。然后构建了基于Tensor2Tensor的编码—解码模型,为了从蒙古语语料中学习更多的语法和语义知识,该文给出了一种基于词素四元组编码的词向量作为编码器输入,解码阶段。为了进一步缓解神经网络训练时出现的词汇受限问题,该文将专有名词词典引入翻译模型
其他文献
目的建立不同产地加工珠子参中人参皂苷Ro、竹节参皂苷Ⅳa、姜状三七苷R1和去葡萄糖竹节参皂苷Ⅳa 4种化学成分的含量测定方法。方法采用Kromasil C18(4.6 mm×250 mm,5μ
氯化钾注射液用于各种原因引起的低钾血症,临床具有疗效快且确切等特点。氯化钾注射液发生渗漏,轻则引起局部红肿热痛,重则引起局部皮肤坏死。出现氯化钾注射液渗漏后应采取
本文阐述了中小城市的概念和范围,并以2002—2011年十年的火灾统计信息为基础数据进行统计分析,得出了中小城市单起火灾经济损失和人员伤亡程度却超过大城市、火灾扑救能力不足
70年来,中国国际关系研究从以苏联为师,到翻译引介西方理论,再到运用既有理论解释现实,然后立足中国实践创新研究路径和理论范式,日渐成熟。满足重大战略和现实需要是理论创
依据威廉姆森的交易成本理论,日本企业间的长期连续性交易是一种介于市场交易和组织内交易中间的治理结构,其有利之点在于:可以消除信息的非对称性,在反复交易中能回收资产专
分析了传统粮油机械产品在设计制造业和使用行业中对环境造成的影响,并对粮油机械产品低碳设计碳足迹计算、评估、低碳产品认证等方面进行了简要概述,提出了粮油机械产品采用低
铁路通信光缆线路作为铁路重要的技术信息保障,一方面影响着铁路的整体运输效率,更是影响着铁路的安全行使,对于运营中的寿命和质量也是具有一定的影响。本文将就我国当前铁
在水分胁迫下香蕉叶片质膜透性增加,叶绿素含量和可溶性蛋白质含量下降过氧化物酶(POD)活性则先升后降,抗旱性较强的类型相对含水量和叶绿素含量下降幅度较小,过氧化物酶活性
【说明】A这是按照时间顺序整理的年表,内容包括:1《古兰经》在中国传播的历史溯源和概况;2《古兰经》在中国的阿拉伯文手抄本、木刻本、辑录本,各种影印本的出现;3《古兰经》
目的总结中医药方法防控老年病房流感疫情的护理体会。方法对2009年4月以来,中医药法临床护理工作在笔者所在医院老年病房防控流感中的作用进行回顾性分析。结果通过有效的护