基于迁移学习的中朝神经机器翻译方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:meteora5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
翻译是人类思想交流的一个重要需求,智能翻译技术加速了不同文明的融会贯通,促进了人类社会的发展。深度学习技术成功运用于现代机器翻译领域,在许多语言翻译任务中取得了很好的翻译效果。由于神经机器翻译模型受限于数据量的规模,对于小数据、低资源的语言对来说翻译效果不尽如人意。本文针对中朝双语平行语料不足的问题,提出了基于迁移学习的中朝神经机器翻译方法,以提升翻译性能。首先,对中朝语料自动对齐进行研究,提出了结合朝鲜语汉字词(Sino-Korean Word)的句子对齐算法,将语料进行分句,并根据概率以及动态规划算法对语料进行了句子对齐。其次,提出了基于权值共享的中朝神经机器翻译方法,在编码器-解码器框架下训练父模型,然后将父模型的网络权值参数传递给子模型,并将父、子模型的词汇表进行整合,将子模型的词向量用共同词汇表表示,最后将子模型训练至收敛。最后,提出结合预训练语言模型的方法,将BERT网络结构作为翻译模型的编码器,对Transformer模型进行初始化。采用Wordpiece字节编码的方式对中朝语料进行划分,并将语料切分为子词的形式,减少了未登录词的影响。该方法解决了未登录词以及长句子处理问题,在语义流畅性上获得良好表现。本文研究的基于权值共享的中朝神经机器翻译模型BLEU值为15.36,较初始模型BLEU值提升了2.68;结合预训练模型的中朝神经机器翻译模型BLEU为31.61,较基础模型BLEU值提升了1.74。实验证明本文提出的翻译模型在中朝双语平行语料不足的情况下,有效地实现了中朝文本的翻译转换。
其他文献
我国是食用菌生产大国,为合理利用废弃菌渣资源,本试验利用黑木耳菌渣辅以鹿粪对农田栽培人参土壤进行改良。对人参的生长发育、土壤理化性质及人参的产量和品质进行分析,探究菌渣与有机肥配施对农田土壤的改良状况及人参产量和品质的影响,从而找到菌渣和有机肥料的最佳配比和施用量,综合评价人参生长状况和品质。主要结果如下:(1)菌渣和鹿粪的施入可以有效地提高了土壤p H值和电导率值,降低土壤容重,增加土壤孔隙度,
具有化学式MX3(M=Co、Rh、Ir,X=P、Sb、As)的方钴矿,由于其具有良好的热电性能而受到广泛关注。本文运用基于密度泛函理论方法和粒子群晶体结构搜索技术,在0-100 GPa范围内对CoP3进行结构预测。研究预测得出高压新相的物理性质。研究表明在高压下,CoP3晶体结构发生了三次结构相变,为一级相变。其相变序列为Im(?)(α相)-→Pnma(β相)-→C2/c(γ相)-→C2/m(δ相
植被物候作为气候与自然环境变化的重要指示性指标,在全球气候变化的背景下,其变化较为突出。目前已有相关研究表明,不同植被类型物候期的时空变化有较大的差异,其对气候变化的响应也成为目前关注的重点问题。在过去的长时间段内,全球温度升高已成为事实,但近年来有研究表明,由于1997-1998年的厄尔尼诺现象,全球地表温度由快速增温期进入“间断”期。为研究在这种气候变化的条件下东北亚地区不同植被类型的物候期时
随着LED灯具的发展,“绿色、高效”成为LED产品的首要的技术指标,利用现代电子技术设计实现更高效、经济的LED产品已成为必然发展趋势。现有的多层式信号灯,结构过于复杂,组装时需手工焊点过多,组装过程繁琐,人工成本过高且每层LED灯组板结构不同,组装时需要多种PCB板,造成库存积压、生产效率低等问题。多层式信号灯在工作时为了得到良好的驱动效果在驱动小功率信号灯时用一个电压源经过阻值较大的限流电阻后
随着近年来电子电力技术和智能控制策略的发展,DC-DC变换器已成为开关电源的重要组成部分,主要用于数据通讯、远程控制系统、光伏发电系统、绿色能源等各个领域。DC-DC变换器是非线性时变系统,这类系统在实际运行过程中容易产生边界碰撞分岔、倍周期分岔等非线性现象,对变换器的性能和工作质量产生影响。现在大部分的DC-DC变换器使用的是单闭环控制方法。单环控制系统受到干扰时,输出电压会出现波动情况,从而影
贯叶连翘(Hypericum perforatum L.)是一种具有多种药理活性的多年生草本植物,但近年来其野生资源逐年减少,人工栽培产量和质量也难以满足产品生产的需求。因此,不定根培养就成为获取贯叶连翘新植物材料的重要途径。目前,贯叶连翘不定根生物反应器培养体系已建立,但不定根的药理活性尚不清楚,这影响着不定根的在产品生产中的应用。因此,本研究以生物反应器培养的贯叶连翘不定根为材料,利用闪式提取
在全球化的浪潮下,如何使用人工智能技术更好地克服不同语言使用者之间沟通和交流的障碍,成为自然语言处理领域重要的研究课题之一。知识图谱除了被用于优化搜索引擎的搜索表现,现在已经被广泛的应用在生物、医疗、金融等各种专业领域。得益于以维基百科为主的多语言在线百科的发展,研究人员整理出了大量结构化的多语言对齐语料。同时,以Trans E为代表的基于嵌入的知识图谱表示学习技术的发展,使得研究人员通过设计一个
改善现实场景中获取到的人脸图像的清晰度和分辨率,可以显著地提升人脸识别准确率。人脸图像超分辨率重建的目标是利用输入的低分辨率(Low Resolution,LR)的人脸图像生成相应的高分辨率(High Resolution,HR)的人脸图像。基于深度卷积神经网络的方法已经成为人脸图像超分辨率重建技术领域的主流方法。经研究表明,增加卷积神经网络的层数能够提高网络模型的非线性拟合能力,但是网络层数的不
背景:无症状脑梗死(silent brain infarcts,SBI)在老年卒中进展中发挥重要作用,但其与中青年卒中的关系报道较少。中青年人卵圆孔未闭(patent foramen ovale,PFO)与其脑缺血事件发生关系密切,但是,PFO与中青年SBI相关性尚未完全明确。目的:明确PFO在中青年SBI患者中的存在情况,探讨PFO与中青年SBI之间的关系,了解中青年SBI的影响因素,为早期识别
目的:了解济宁市城乡老年人健康老龄化及其内在能力和外环境现状及其差异,明确城乡老年人健康老龄化、内在能力、外环境三者间的关系,探讨城乡老年人健康老龄化的影响因素,为今后对城乡老年人实施有针对性的健康老龄化相关研究和护理干预提供参考依据。方法:采用描述性研究中的横断面调查研究方法,通过便利抽样,抽取济宁市城区和农村的817名60岁及以上的老年人为研究对象;利用一般资料调查表、健康老龄化量表、内在能力