论文部分内容阅读
随着国家少数民族工作治理理念的调整变化,少数民族地区推广普及国家通用语言的工作,显得尤为重要,让藏族学生潜移默化地、自觉自然地学习国家通用语,并利用汉语网络教育优质资源提高他们的知识文化水平,是一项有意义的工作。在自然语言处理中机器翻译技术也是一个重要研究内容,目前主流机器翻译技术是基于深度学习的神经机器翻译。神经机器翻译的主要优点表现在它不需要特征工程,需要从大规模语料集中学习语言特征,继而完成翻译任务。本文研究汉藏神经机器翻译技术,实现了汉语教育文本资源到藏文的翻译,再将教育资源视频的字幕以汉语、藏语双语呈现的方式供学生观看学习。在当前疫情环境下,学生正常上课受到影响,而现有主流教育网站的视频没有字幕显示,本文工作可以推动国家通用语语言和文字的双重普及,提高学生文化水平,推动汉藏民族文化交流融合,铸牢中华民族共同体意识。本文主要工作有:(1)语料库构建。神经机器翻译技术需要大量数据集,汉藏双语语料库相对比较匮乏。本文制定语料处理标准,包括语料获取方式、数据存储格式、加工工具选择等,并提出处理流程,规范化加工和构建汉藏神经翻译语料库。(2)数据增强。藏语是低资源语料,现有的平行语料无法满足神经机器翻译需要的数量。本文采用回译法和低频词替换法相结合,再加上语法纠错模块对数据进行增强。增强后数据与原始数据进行对比实验,结果验证了本文使用的数据增强方法可以有效增强语料的训练结果。(3)融合预训练模型的神经机器翻译模型。预训练语言模型在机器翻译任务上取得较大提升,本文将自回归式语言模型ELMO与Bi RNN+Attention模型融合,ELMO的输出与嵌入矩阵拼接后,送入模型中加以训练,使模型学习到更多句子的信息,进而提升模型的翻译质量。实验结果显示,融合预训练模型与Bi RNN+Attention模型和Transformer模型相比,分别提升了1.95和1.2个BLEU值。(4)教育资源翻译系统设计与实现。将翻译模型应用于教育领域上,进行系统实现,让用户更加人性化的体验科技成果。首先获取开源教育视频,提取视频文字,其次通过翻译模型实现汉藏翻译,最后把添加了汉藏双语字幕的视频,传输到教育资源共享平台,学生根据自己的需求进入网站,有选择性地观看学习。