基于Transformer的篇章级汉蒙机器翻译研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户：hubingguixuejing

【摘要】

：

【作者】

：

李浩然

【机构】

：

内蒙古大学

【出处】

：

内蒙古大学

【发表日期】

：

2023年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近年来,神经机器翻译取得了较大的发展,其中篇章级机器翻译由于应用价值高、模型结构丰富,已经成为了神经机器翻译中的一个研究热点。但现有的篇章翻译模型只能通过注意力机制获取线性距离层面的句子相关性信息,模型在输出篇章级译文时难以获取篇章层面上的深层语义和衔接,因此存在难以利用深层上下文信息的问题。针对上述问题,本文使用路径位置编码和相关性位置编码的方式改进了篇章翻译模型位置信息的输入,提出了能够关注位置信息、进行段落级注意力计算的机器翻译模型,并将这些模型和方法应用到汉蒙篇章的翻译中。实验表明上述方法能够使篇章级汉蒙翻译的质量得到提升。此外,汉蒙机器翻译是一种低资源机器翻译任务,汉蒙双语平行语料规模较小,容易出现数据稀疏现象,导致错译漏译等问题,因此汉蒙机器翻译需要更好地改进模型来提升翻译质量。本文利用BPE算法对蒙古文和中文进行切分,缓解了数据稀疏问题,并使用Teacher Forcing训练模型,使译文更加准确和流利。本文的具体工作如下:（1）构建了能够关注篇章上下文的篇章级汉蒙神经机器翻译模型。（2）提出了能够利用篇章语义结构的位置编码方式,并将其与传统篇章翻译中的位置编码进行融合。（3）使用了N-grams的Teacher Forcing训练方法,得到了质量更高的译文。（4）使用BPE方法进行词向量切分,使用ALBERT模型进行蒙古语和汉语词向量的训练。本文在提出的篇章翻译模型上进行了实验和探究,实验结果表明该方法相较于基线系统有明显提升。

其他文献

自适应学习系统中推荐方法的研究与应用

网络学习平台已经成为学习者获取学习资源的重要途径,在带给人们便利的同时也出现了个性化信息获取困难的问题。自适应学习系统能够根据不同学习者的兴趣偏好为其推荐个性化的学习资源,从而解决这一问题。目前自适应学习系统大多依据用户学习行为进行推荐,忽略了用户的评价信息及学习资源自身相关性,对用户兴趣挖掘不够全面。针对上述的问题,本文提出了基于情感分析、知识图谱和协同过滤的混合推荐算法（SA-KG-CFRA）

学位

基于Transformer和非对称学习策略的图像检索研究

随着社会的发展,互联网上充斥着数量众多,分类繁杂的图像,如何从海量图像中快速检索到所需图像是一个值得研究的问题。哈希方法具有检索速度快、占用存储空间小等优点,被广泛应用于图像检索任务。目前主流的哈希方法是深度监督哈希方法,该方法主要有两种为图像生成哈希码的学习策略,分别是对称学习策略和非对称学习策略。对称学习策略是同时为查询图像和数据库图像构建一个深度哈希函数,从而可生成查询图像和数据库图像的哈希

学位

基于智能合约的CP-ABE访问控制策略更新方法研究

区块链技术和基于策略密文的属性加密算法（CP-ABE）相结合的方法具有细粒度的访问控制能力以及不可篡改的存储方式,一经提出就受到研究者的广泛关注。目前常用的CP-ABE都是在双线性映射的基础上实现的,同时,CP-ABE是依据被授权群体的属性制定访问控制策略以实现访问控制。因此,密文中包含的访问控制策略将随着被授权用户的变动而进行更新操作,访问控制策略的不断更新随之带来了存储、效率等方面的问题。这些

学位

基于端到端的蒙汉语音翻译研究

近年来,随着蒙古文智能信息处理技术研究的深入发展,蒙古语语音识别和蒙汉机器翻译技术日趋成熟。实现蒙汉语音翻译系统的传统方法首先采用蒙古语语音识别将源语音转录为文本,再使用蒙汉机器翻译将源语言文本翻译成目标语言文本。然而这种方法存在着错误累积,时间延迟和参数冗余等问题。端到端语音翻译将源语言语音直接翻译为目标语言文本,使用一个模型完成语音识别和机器翻译任务,所有参数会根据最终目标共同优化,从而缓解了

学位

基于序列编码的蛋白质亚线粒体定位预测方法研究

线粒体是生物细胞中重要的双膜细胞器,参与着细胞生命活动。线粒体包含四种结构,每种结构中的蛋白质都发挥着各自的生物功能。确定蛋白质的亚线粒体定位,有助于深入研究线粒体中蛋白质的功能,为药物设计和癌症研究提供信息。得益于计算科学的迅速发展,目前研究学者已提出大量计算方法来预测蛋白质亚线粒体定位。本文将深度学习的Doc2vec技术引入到蛋白质序列编码中,对蛋白质亚线粒体定位预测问题进行了深入研究。提出了

学位

基于分类的动态流式图抽样算法

现实中很多网络的规模是庞大的,使得在其上的科学研究开销大、效率低。网络图抽样是从原图中抽取一个规模较小的子图进行研究,能够节省资源、提高计算效率,对网络中的数据挖掘具有重要意义。采用蓄水池技术的动态流式图抽样技术,对流图中的每条边处理一次,大大节省了空间和时间开销。然而,现有的算法使得抽样子图中低度的节点占比过大,具有关键作用的高度节点的比例却过低,有时甚至无法被抽取到,导致抽样得到的子图代表性不

学位

基于区块链的MCS架构及其数据质量验证机制研究

移动群智感知意指大量用户使用移动设备执行感知任务,形成一个交互的、参与的感知网络,达到收集感知数据的目的。传统的移动群智感知是以第三方可信中心作为感知任务的发起者与感知任务的参与者之间的中介,在两者之间零信任的情况下达成任务交易。故第三方可信中心存在一定的安全隐患,包括可信中心的单点故障、黑客攻击、滥用用户信息和基于感知数据质量的可信中心与任务发起者或任务参与者共谋等问题。因此,本文研究内容如下:

学位

视听结合的多模态语音分离研究

在典型的视频通话场景中,目标说话人的正脸会出现在视频中,他的语音会出现在音频中。但是其中也会有其他干扰说话人语音以及非语音背景噪声出现。这种情况下往往很难听清目标说话人的语音,使听者感觉不舒服,从而造成不好的听觉体验。为了改善用户的听感体验,我们需要训练一种能够在特定场景中选择性分离出目标说话人语音的机器。而在实际生活中,人耳具有选择性聆听和感知声音方向和距离等功能,使得人类可以根据自己的需求选择

学位

幼儿园情景阅读多元化教学的实践与研究

阅读是每个人必须掌握的技能，是在生活和学习中必须具备的能力。幼儿园时期的儿童不认识汉字，需要教师为他们创设情景阅读教学环境，让幼儿在声音、图画和视频多种元素结合的情景中学习阅读内容，提高幼儿的阅读想象力。教师在情景阅读中可以为幼儿设置生活化情景、绘画阅读情景等，让幼儿感受到阅读的乐趣，引导幼儿在阅读中提高语言表达能力和观察能力等。基于情景阅读的教学模式，探讨幼儿园进行多元化教学的实践。

期刊

MAC地址随机化条件下WiFi嗅探数据聚类及应用研究

支持Wi Fi的移动设备周期性地广播Probe Request帧,以探测周围可用的Wi Fi网络。在公共场合,利用Wi Fi嗅探设备可以捕获行人携带移动设备发出的Probe Request帧,由于其中蕴含了设备的媒体访问控制（Medium Access Control,MAC）地址等重要信息,可以实现人群计数、轨迹追踪等应用。然而,为了保护用户身份、位置等隐私信息,现代移动设备通常在Probe R

学位

基于Transformer的篇章级汉蒙机器翻译研究

与本文相关的学术论文