中小学教育资源汉藏翻译系统的设计与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:a36020a
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国家少数民族工作治理理念的调整变化,少数民族地区推广普及国家通用语言的工作,显得尤为重要,让藏族学生潜移默化地、自觉自然地学习国家通用语,并利用汉语网络教育优质资源提高他们的知识文化水平,是一项有意义的工作。在自然语言处理中机器翻译技术也是一个重要研究内容,目前主流机器翻译技术是基于深度学习的神经机器翻译。神经机器翻译的主要优点表现在它不需要特征工程,需要从大规模语料集中学习语言特征,继而完成翻译任务。本文研究汉藏神经机器翻译技术,实现了汉语教育文本资源到藏文的翻译,再将教育资源视频的字幕以汉语、藏语双语呈现的方式供学生观看学习。在当前疫情环境下,学生正常上课受到影响,而现有主流教育网站的视频没有字幕显示,本文工作可以推动国家通用语语言和文字的双重普及,提高学生文化水平,推动汉藏民族文化交流融合,铸牢中华民族共同体意识。本文主要工作有:(1)语料库构建。神经机器翻译技术需要大量数据集,汉藏双语语料库相对比较匮乏。本文制定语料处理标准,包括语料获取方式、数据存储格式、加工工具选择等,并提出处理流程,规范化加工和构建汉藏神经翻译语料库。(2)数据增强。藏语是低资源语料,现有的平行语料无法满足神经机器翻译需要的数量。本文采用回译法和低频词替换法相结合,再加上语法纠错模块对数据进行增强。增强后数据与原始数据进行对比实验,结果验证了本文使用的数据增强方法可以有效增强语料的训练结果。(3)融合预训练模型的神经机器翻译模型。预训练语言模型在机器翻译任务上取得较大提升,本文将自回归式语言模型ELMO与Bi RNN+Attention模型融合,ELMO的输出与嵌入矩阵拼接后,送入模型中加以训练,使模型学习到更多句子的信息,进而提升模型的翻译质量。实验结果显示,融合预训练模型与Bi RNN+Attention模型和Transformer模型相比,分别提升了1.95和1.2个BLEU值。(4)教育资源翻译系统设计与实现。将翻译模型应用于教育领域上,进行系统实现,让用户更加人性化的体验科技成果。首先获取开源教育视频,提取视频文字,其次通过翻译模型实现汉藏翻译,最后把添加了汉藏双语字幕的视频,传输到教育资源共享平台,学生根据自己的需求进入网站,有选择性地观看学习。
其他文献
学位
学位
学位
随着双碳目标的提出,发展清洁、可再生能源势在必行。氢能因其零碳排放和高能量密度而被认为是一种有前途的能源。光电化学(PEC)水分解制氢具有无污染、高效、稳定等特点,与化石能源相比具有极大的优势。目前,许多材料如Ti O2、WO3、Fe2O3和Zn O已经作为光阳极材料进入科学家的视线。其中,Bi VO4因其独特的优势成为最受关注的光阳极之一。Bi VO4的带隙宽度适中(2.4 e V),易于制备,
学位
学位
目前,我国患老年病尤其是老年痴呆症的人数日益增多,能够有效的检测患病老年人的异常行为并及时干预对独居老人生活质量的提高和生命健康的保证具有重要的意义。徘徊行为是老年痴呆症患者病情发作或加重的重要诊断指标之一,跌倒行为则是老年人健康的主要威胁,所以本文将这两类行为定义为老年人异常行为。而Wi-Fi技术的发展和广泛普及为非接触式人体行为检测提供了现实基础,深度学习的进步和相关设备的完善则提供了技术的支
推荐系统根据用户信息需求和个人兴趣,把感兴趣的信息推荐给使用者,是处理信息超载问题的有效方法。推荐算法是推荐系统的核心,是推荐结果的直接依据。本文主要研究基于知识图谱的推荐算法,使用深度学习方法对档案进行排序和推荐。本文主要工作是对档案领域推荐方法的研究和应用。根据甘肃省档案局提供的档案目录和档案文本数据,对其进行数据预处理以及构建档案知识图谱三元组;在Ripple Net模型上增加由知识图谱对应
学位
学位