贫语言资源条件下的藏汉(汉藏)机器翻译关键技术研究

来源 :青海师范大学 | 被引量 : 1次 | 上传用户:lilinli2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着深度学习在自然语言处理研究中取得突破性进展,机器翻译技术也发生了革命性的变化,被广泛应用于人们的生活和工作中。我国作为一个统一的多民族国家,党和政府高度重视少数民族自然语言处理。近年来,我国少数民族自然语言处理相关技术蓬勃发展,尤其是藏语自然语言处理,更是随着科学技术的发展不断地在进步。不论基于统计还是基于神经网络的机器翻译方法,都需要具备大规模的双语或多语语言数据资源作为支撑,对于藏语相关的藏语自然语言处理研究而言,依然存在着数据资源稀缺、理论基础薄弱和技术方法不够成熟等问题,本文希望通过藏汉语言数据资源构建、单语语言模型融合、迭代式回译策略的应用以及跨语言模型预训练等理论和方法的研究,为贫语言资源条件下的藏汉机器翻译提供一个有效的研究思路,同时缓解目前藏汉机器翻译中资源稀缺、翻译性能不理想等问题,为藏区经济社会发展提供语言互译的技术支撑。本文的主要工作和创新点总结如下:针对藏汉语言数据资源匮乏问题,本文提出了一种面向藏汉机器翻译的语言资源构建技术,并构建了一个基于人民日报(藏文版)的藏、汉单语语料库和藏汉双语平行语料库。本文首先使用基于Web的大规模资源获取技术收集藏语单语新闻语料,并通过CNN+Bi-LSTM+CRF的藏文分词技术和Bi-LSTM+CRF的命名实体识别技术识别藏语新闻中的时间、地点、人物、组织机构等命名实体,并将其进行粗翻译,得到对应的汉语命名实体,然后通过汉语命名实体匹配到相对应的汉语新闻并将其进行预处理,通过篇章特征集合的相似度计算和基于Bi-LSTM+Attention模型的跨语言句子相似度计算,对藏汉两种语言的新闻文本进行篇章对齐和句子对齐,最终构建一个具有53.834万句藏语单语、61.759万句汉语单语和53.762万句对的藏汉双语平行语料库。针对藏汉机器翻译中双语平行语言资源缺乏,而藏汉两种语言的单语数据较为丰富的问题,为有效利用资源丰富的藏语单语数据以提高藏汉神经网络机器翻译的性能,本文提出了一种融合单语语言模型的藏汉机器翻译方法。本文首先通过循环神经网络语言模型建模的方法构建藏语单语语言模型,并将其与翻译模型的解码端预输出进行融合处理,利用浅层融合和深层融合的方式,将翻译模型生成的词和语言模型生成的词重新进行加权排序,使源语言与目标语言产生映射关系,最终输出目标语言。通过这种融合单语语言模型的藏汉机器翻译建模方法,可有效提升贫语言资源条件下的藏汉机器翻译的性能,经实验,这种方法在相同资源条件下,比原有的Transformer基线系统提升了3.4(藏-汉)和4.7(汉-藏)个BLEU值。针对贫资源条件下藏汉机器翻译性能不佳的问题,提出了一种迭代式回译策略的藏汉机器翻译方法。本文首先通过资源构建技术和实验室原有数据资源构建一个Transformer初始系统,对较大规模的单语语料(正向)进行翻译,得到源端是正确的句子,目标端是翻译生成的句子,然后通过平行句对过滤机制构建具有较强监督信息的伪藏汉双语平行语料,将其加入到翻译模型的训练中,然后进行回译(反向),通过相同的方式得到目标端是正确的句子,而源端是翻译生成的句子,经多次迭代实验,在初始系统原有的性能指标上,提升了6.7(藏-汉)和9.8(汉-藏)个BLEU值。针对藏汉平行数据资源规模和领域受限,对监督式神经网络机器翻译模型的适应性较差的问题,提出了一种跨语言模型建模的藏汉机器翻译方法。本文首先构建了一个以Transformer为基线系统的藏汉机器翻译系统,通过对藏、汉掩码语言模型的预训练和藏汉跨语言翻译模型的建模,建立了富资源(汉)和贫资源(藏)之间的映射关系,然后将带有详细的语言信息和位置信息标签的藏汉双语句子以文本流的形式作为输入,通过这种预训练方式优化基线模型的性能,经实验表明,BLEU值分别提升了8.1(Transformer Base+MLM和Transformer Base)和5.7(Transformer Base+MLM和SMT)。本文一方面通过对藏汉语言资源构建和相关技术的研究,构建面向藏汉机器翻译的语言资源库,另一方面通过研究贫语言资源条件下的藏汉机器翻译理论和方法研究,优化和改进藏汉机器翻译的性能,取得了一些成果,为今后藏汉机器翻译研究提供了一个可借鉴的思路和方法。
其他文献
目的探究伤椎椎弓根螺钉固定修复胸腰椎骨折后采用阿仑膦酸钠维D3片对患者椎间隙高度和骨密度的影响。方法选择行伤椎椎弓根螺钉固定修复的74例胸腰椎骨折患者,通过随机数字
建模是分析问题和解决问题的一种重要手段。随着对象复杂性的增加,越来越多地采用基于数据的经验建模方法。对于复杂的非线性系统或是高维对象,一般的建模方法要么无法达到期
天基雷达可以在全球范围内实现对地高分辨率成像和运动目标探测,其研制难度非常大,一是探测范围大,需要更高的功率孔径积,而天基平台的功率和天线的规模受限;二是探测目标小,
无机玻璃材料应用极为广泛,尤其是在土木建筑行业与汽车行业。在冲击荷载作用下,无机玻璃材料破碎后产生的碎片,对人们的生命财产安全有很大的威胁。因此有必要研究无机玻璃
职业院校技能大赛是培养锻炼具有“工匠精神”优秀技能人才和检验职业院校教学效果的重要平台,也是近年来推动职业教育教学改革的重要途径。随着技能大赛的社会影响力持续增
掺杂剂决定着聚(3,4-乙烯二氧噻吩)(PEDOT)导电聚合物的构型和性质。大分子聚苯乙烯磺酸(PSS)为掺杂剂制备的溶液加工型PEDOT:PSS,已作为标准阳极缓冲材料(ABM)应用于磷光有机发光二
癌性疼痛是晚期恶性肿瘤常见的症状之一,目前晚期胰腺癌患者对癌痛管理依从性的现状并不乐观,主要是因为疼痛管理态度的限制[1,2].疼痛管理态度指的是患者对疼痛报告及口服止