面向机器翻译的数据处理关键技术研究

来源 :辽宁科技大学 | 被引量 : 2次 | 上传用户:simple69
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习技术的兴起,该项技术的使用为机器学习的许多应用领域带来了很多优秀的成果。在这些领域之中,最令人瞩目的研究成果即为机器翻译技术领域。作为整个学科领域的领头者,机器翻译方向所使用的技术无疑当属人工智能领域中最先进的技术。目前,应用神经网络技术架构的机器翻译模型当属全世界最先进的机器翻译模型,简称神经机器翻译(Neural machine translation,NMT)。由于神经机器翻译属于一门监督学习技术,且其拥有着超强的学习能力,双语平行语料质量的好坏与规模的大小将直接关系到机器翻译模型最终的学习效果。因此,在神经机器翻译模型训练开始之前,存在大量需要针对数据语料进行的处理技术,利用这些技术对原始数据进行处理后得到新一批数据用于支撑NMT模型的训练,才能够得到更好的学习效果。通过阅读大量参考文献和书籍,本文面向NMT模型的数据预处理阶段中的多项技术方法,针对其中的分句技术、子词切分技术以及数据增强技术均提出了创新性的改进,从而使NMT模型在训练开始前能够得到更加优质的数据资源,以此得到更加优质的模型性能。本文首次将双向长短期记忆神经网络模型应用于分句技术,提出了一种基于Glove+Bi-LSTM+CRF架构的泰语句子切分模型,使用该模型能够成功实现对泰语句子的精确切分。另外,本文还提出了一种有效的数据增强方法,能够以原始双语平行数据集为基础,从单词以及句子两个层面分别实现有效的数据扩充,由此实现对于NMT模型性能的提升。除此之外,本文还提出了一种全新的子词切分算法架构,首次使用消息队列技术实现算法执行过程中的信息传输,保证进程间的信息共享。方法利用多进程联合学习的方式,切实解决了在子词切分算法过程中词表学习过慢的问题。本文提出的泰语句子切分模型在其对应的测试集上能够达到98.2%的F1值结果,且模型切分精度能够明显优于同领域研究的实验结果,证明了方法的有效性。另外,对于本文提出的数据增强技术,在对基础数据集执行数据增强操作后,其在多个测试集上均实现BLEU值的提升,且超越了目前非常有效的数据增强方法back-translation的结果。除此之外,本文提出了一种子词切分算法的全新技术架构,使用该方法能够明显提升算法执行效率,极大地缩短NMT模型的训练周期。总之,本文提出的方法对于NMT模型翻译精度与训练执行周期均能够带来较大的提升,对整个NMT模型的研究与发展具有良好的指导意义。
其他文献
创客课堂是目前中小学教育中综合性强、涉猎面广、创新性突出的一种课堂,它打破原有班级、年龄及年级的限制,是推行素质教育改革的一种新课堂模式。它能够很好地解放学生的天
随着手机、数码相机等图像拍摄终端的广泛普及,以及通信技术、图像处理技术的迅猛发展,现有的图像数据量呈指数级增长。大量增长的图像给数据存储和传输带来了巨大压力,但与
针对某武器系统初导平台回转半径大、工作范围大的特点,对其方舱壁板展收液压系统进行了设计。通过介绍该武器系统方舱液压系统的工作原理以及设计思想,详细分析计算了液压系统
<正> 地球上草本和木本植物种类繁多,在不同的国家和地区,往往对同一种植物起着不同的名字;也有把形状近似的一些植物误认为是同一种植物,而起了同一个名字。为了克服这种“
目的探讨耳原发脑膜瘤的临床病理特点、鉴别诊断及预后。方法回顾性分析2例耳原发脑膜瘤临床病理观察并复习相关文献。结果例1诊断为耳原发皮细胞型脑膜瘤。镜下见肿瘤主要由
洪泽湖湿地生物多样性比较丰富 ,湿地植被群丛多样 ,重点保护鸟类种类众多 ,种群数量大。调查结果显示 :洪泽湖湿地共鉴定出浮游植物 165种、水生高等植物 81种、浮游动物 91
宗族势力在当代中国农村仍然有其长期存在的客观基础,具有妨碍农村民主选举、妨碍国家政策贯彻、妨碍先进文化传播、妨碍农村稳定等消极影响。要推进农村民主政治建设进程,必
对Zr-4合金开展了常温与400℃高温下的常规力学行为研究,获得了两种温度下材料的单调R-O(Ramberg-Osgood)本构模型.通过测定不同温度下的弹性模量和白松比,得到了它们随温度
目的研究糖尿病护理中人性化理念的应用价值和临床效果。方法该次研究选择的对象一共是该院在2016年5月—2019年2月期间收治的80例糖尿病患者,对所有患者进行临床护理工作,按
现如今,我国经济市场最为缺乏的就是高技术型人才,这也对我国教育培训部门提出了更高的要求。但受传统电工人才培养观念影响,当今我国电工高技能人才培养还存在诸多问题。电