融合先验知识的藏汉神经机器翻译研究

来源 :青海师范大学 | 被引量 : 1次 | 上传用户:yesheng1991
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术在各行各业应用的逐渐普及和深入,全球经济加速一体化以及不同国家、地区间的交流频繁化,通过人工方式进行翻译不论是从时间上还是成本上都不再适应当今社会飞速增长的翻译需求现状,人们转而将目光投向机器翻译方法,这使得机器翻译迎来了一个全新的发展机遇。近几年深度学习方法的出现使得人工智能快速发展,神经机器翻译(Neural Machine Translation)取代过去的统计机器翻译方法成为机器翻译的新一代研究方向。神经网络翻译模型获得高质量翻译结果依赖于大规模的双语训练语料,研究表明,在资源不足的情况下,神经机器翻译的性能显著下降;而藏文由于数字化资源稀缺,目前只有小规模的藏汉双语平行语料库来训练翻译模型。对此,本文提出融合先验知识的方法,能在一定程度上改善藏汉双语语料匮乏引起的问题,提高藏汉机器翻译质量。本文具体对如何融合以下四种不同类型的先验知识进行了研究,主要研究内容与创新点如下:1.融合词向量的藏文句子相似度研究:针对目前关于藏文句子的相似度计算方法研究较少且现有方法精度较低的问题,本文提出一种融合词向量的藏文句子相似度计算方法,首先通过Skip-gram模型和CBOW模型对500M大规模藏文单语语料库训练得到两种藏文词向量,然后据此计算藏文句子向量,最后设计实现了两种基于表层信息的藏文句子相似度计算方法——基于词向量与欧几里得距离和基于词向量与Jaccard相似度的计算方法——来计算藏文句子的相似度,通过对比实验表明基于Skip-gram词向量与Jaccard相似度的藏文句子相似度计算方法能够得到85.6%的准确率,优于其他组合方式。2.融合域外模型的藏汉神经机器翻译领域自适应方法研究:针对目前鲜有高效训练针对不同领域的藏汉神经机器翻译模型方法的研究,本文提出一种基于混合微调的藏汉领域自适应方法,首先使用20万句对的藏汉通用平行语料库训练一个藏汉通用翻译模型,然后通过领域自适应方法以此模型作为父模型进行混合微调,分别利用5万句对的藏汉政府公文平行语料库和一万五千句对的藏汉自然科学平行语料库,在此基础上训练得到政府公文、自然科学两个特定领域的藏汉机器翻译模型,实验证明在低资源条件下该方法能够在域外模型的基础上快速有效地训练出域内翻译模型,且整体表现优于域外模型,在各自领域测试集上的BLEU值相比通用模型提升到19.03和12.15。3.融合词性特征的藏汉神经机器翻译方法研究:为了在有限的语料基础上利用更多的外部信息得到最佳的翻译性能,本文通过引入藏文词性特征,即在训练过程中加入源端藏文词性标注(POS)作为输入特征,在Transformer注意力机制的编码器-解码器体系结构中泛化了编码器的嵌入层,以支持嵌入除词汇特征外的词性特征信息。通过对比合并、连接两种不同的嵌入方式,实验验证了连接方法对翻译效果的提升更为明显,BLEU值提升了3.99。4.融合统计方法的藏汉神经机器翻译方法研究:针对藏汉统计机器翻译中词对齐结果效果较好,而藏汉神经机器翻译模型中的对齐信息与之存在显著差异的问题,本文提出一种融合统计方法的藏汉神经机器翻译方法,首先使用统计机器翻译方法生成藏汉平行语料的双向对称词对齐信息,然后在Transformer模型训练过程中使用该词对齐信息监督藏汉神经机器翻译模型的训练过程,使模型达到更为准确的翻译和对齐效果。实验表明在低资源环境下,该方法使BLEU值提升了1.7。综上,本文试图通过引入除常规神经机器翻译所需的双语平行语料库之外的先验知识,如藏文单语语料库、域外模型、藏文词性标注信息、藏汉词对齐信息,来解决目前藏汉机器翻译存在的一些问题。实验表明先验知识的融合在一定程度上能够提高藏汉机器翻译质量。本文也为未来进一步在藏汉机器翻译中更好地引入更多丰富的先验知识打下基础,对将来相关研究工作有一定的参考价值。
其他文献
数据聚合常见于物联网场景中,是将不同数据源细粒度敏感的数据合并起来的技术,在严格要求数据合法合规使用的当下成为研究热点。本文以智能电网数据聚合为背景,针对现有智能电网数据聚合方案存在多维数据聚合方案开销大、批量验证失败后检错效率低、基于秘密共享安全多方计算的可实现复杂计算聚合框架未保证用户秘密份额的可验证性等问题,开展高效轻量的多功能隐私保护数据聚合研究。可实现复杂计算的数据聚合是研究趋势,而其效
学位
博士生教育是我国高水平人才培养的重要方式,它一直受到政府、学界及社会媒体的高度关注。随着高等教育大众化的逐步推进,一些博士生教育问题开始凸显:博士生培养过程重量轻质、中期考核形同虚设、学术资源低效整合、毕业生就业适应不良等。为提高博士生培养质量,研究者和实践者都将视线聚焦博士生培养制度改革,如欧美国家的“回应性博士计划”、“重塑博士生教育计划”和“博士生教育创新计划”等,都致力于解决上述难题。我国
学位
回溯历次工业革命,技术变革无疑对国家实力和国际体系的变迁产生深远影响,其中既有对不同技术创新推动国家生产网络和产业升级带来对生产结构的全新塑造,又包含国际权力的扩散和集中式的演变。当前,全球正在经历第四次工业革命的发展阶段,在此阶段中蕴含的新技术革命为未来经济和技术体系的变革开辟了全新的空间。随着越来越多的国家融入到技术变革浪潮中,国际权力将迎来新的一轮重组和变革。现有国际关系理论对技术的讨论大多
学位
概述发挥数学的内在力量、发展学生核心素养的基本路径。以“数与式”主题内容为载体,阐释基于计数单位的数的概念及其运算的一致性,基于字母表示数的式的概念与数的概念的一致性,以及基于运算单位的式的运算与数的运算的一致性,形成对“数与式”的整体理解,并给出培养学生核心素养的建议。
期刊
随着央行、银保监会、证监会、外管局联合发布的《关于规范金融机构资产管理业务的指导意见》的全面实施,资产管理行业进入了新的发展阶段,银行得以通过理财子公司直接投资权益市场,机构投资者的范围进一步扩大,去散户化在A股市场上不断推进。机构投资者由于掌握的资金规模相对较高,在权益投资上普遍采用组合投资的方式来达到合规和降低投资风险的目的。根据天天基金网2020年3月的公募基金统计数据,现存股票型基金116
学位
中国长期以来都存在国家管控食盐的倾向,并在此基础上形成了专门的盐政。历史上的中国盐政通常以各种形式的“专卖”面貌出现,其制度安排和制度变革一直是学界研究的重点。同时,盐政极其复杂的制度情形也给后世研究者留下了深刻印象,以致近代以后的学者向来存在“盐糊涂”之说。到目前为止,虽然学界已经在盐史研究的分析视角和方法论上取得了显著突破,但整体上还是呈现出研究区域和研究时段不平衡的特征。本文尝试在前人的研究
学位
连城鲁氏系明清时期甘青地区具有代表性的土司家族。明初,作为“胜国遗姓”的鲁氏先祖降附明朝并入籍军卫,成为庄浪卫世袭土官,辖有土兵土民。鲁氏统兵战守,功阀卓著,鲁鉴、鲁麟、鲁经三世名将,声位显赫,鲁氏一族遂为西北土官豪门。鲁氏势大,朝中因有“削鲁”之声。万历初年,以石茂华为代表的部分官员更借“乙亥鼓噪”,试图分化、削弱鲁氏势力,虽最终未能得逞,然自鲁经之后,鲁氏军功匮乏,名望低落,渐处沉寂状态。万历
学位
土著人作为国际法下的少数群体与弱势群体,在国际投资中土著人的权益保障及争议解决有其特殊性和复杂性。长期以来,土著人权益保障的问题是历史性的,土著人这一群体的权益在殖民主义时期和现代国家发展进程中被迫让渡。现在土著人的权益已经得到了国际社会的普遍认可,对国际投资中的土著人权益保障成为普遍共识和现实需要。因土著人的权益在国际投资中易被侵犯和妨碍,贸易和投资协定中关于土著人权益的条款越来越多,但投资仲裁
学位
随着水产养殖业的快速发展,高糖饲料因其具有蛋白质节约效应和成本低廉的优点得到大规模应用,但由于鱼体本身对碳水化合物的利用能力差,长期过量饲喂高糖饲料可能导致鱼体出现如肝脂蓄积及肠道损伤等不良症状。如何减少高糖饲料带来的不良影响对于水产养殖业的发展具有重要意义。调节肠道菌群可以缓解高糖饲料诱导的鱼类代谢紊乱。本研究以尼罗罗非鱼为研究对象,以玉米淀粉为主要碳源,并使用透明圈法从尼罗罗非鱼肠道内容物重筛
学位
自古迄今的关圣崇拜是一个富有历史意义的文化集合体,构筑着神与人、人与人之间的人格感通与心态效应。分析关羽从人格走向圣格、神格并感通于当下个人与家国具体关联的情感和行动,总结当下信奉者崇信关公的心理与行为特征,其落脚点在于理解中国社会千百年来人格崇拜中行动结构的变迁与传承。本文以英雄人物关羽忠义人格的形成与历代皇帝的敕封为背景,结合对山西云城官庙、民庙、关氏后裔聚居村关庄的实地田野调研,以关圣崇拜行
学位