融入双语实体的汉越神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:gl5458
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译模型在资源丰富的语种之间具有较好的翻译效果,但是在低资源语言之间翻译效果不佳。由于缺乏大规模的平行句对,模型在处理更大的词汇量方面有一定的局限性。通常神经机器翻译系统将源语言和目标语言中的常见单词作为词汇表,不在词汇表中的单词用UNK(Unknown Words)代替,这可能会忽略较大的文本粒度所携带的信息,如:命名实体,从而会影响翻译结果的质量。对此本文提出了融入双语实体的汉越神经机器翻译方法,改进模型对平行语料中命名实体的翻译准确性,我们首先通过融入实体信息的方式提高命名实体识别模型对命名实体的识别率,然后基于回译的方法构建了汉越命名实体词典,最后将构建的汉越双语词典融入Transformer模型中,改进了现有的Transformer翻译模型,提高了模型的翻译质量。本文主要在以下三个方面展开研究工作:(1)融入实体信息的命名实体识别。针对预训练模型BERT容易忽略大粒度文本信息的问题和模型对长实体识别率低的问题,在基于预训练模型方法BERT+Bi LSTM+CRF的基础上提出了一种融入实体信息BERT模型的命名实体识别方法。首先从开放的单语语料中抽取实体来扩充实体词典,通过匹配词典获得Flat-Lattice序列,然后将Flat-Lattice序列送入BERT进行编码,通过Bi LSTM神经网络获取文本的局部特征和全局特征,增加Attention层对输入的句子进行加权处理,将加权后的数据输入CRF层,通过CRF层提取出相应的实体。该方法在人民日报数据集、MSRA数据集上取得的F1值为95.78%和95.45%,越南语数据集COVID-19上进行了实验,取得的F1值为94.04%,验证了本文方法的有效性。(2)基于回译的汉越双语实体词典构建。命名实体词典是解决翻译中实体词无法准确翻译的重要知识,但是现有的双语词典构建工作都需要依赖于大规模的平行语料库。越南语属于低资源型语言,为了减少对双语平行语料的约束,本文提出了一种基于回译的方法,利用命名实体识别模型从大规模的可比语料库中获取汉语和越南语的单语实体,用少量的平行数数据训练出翻译模型,将单语实体翻译成目标实体,通过实体匹配和BERT双向计算实体的相似度,最终得到高质量的双语实体词典。(3)融入双语实体的汉越神经机器翻译方法。大多数神经机器翻译(NMT)模型通常以子词作为输入,以解决词汇表外单词的问题。但是,使用子词作为输入可能会忽略较大的文本粒度所携带的信息,这会导致重要语义信息的丢失。针对上述问题提出了一种有效的将命名实体(NE)标签信息融入Transformer的方法。通过构建双语实体词典,对训练句子中的实体词进行标签化替代,这样能提高词表的利用率,最后通过后处理得到最终的翻译结果,该方法在汉越数据集上提升了模型对实体翻译效果。
其他文献
非金属矿物粉体是高技术产业不可或缺的原料,随着我国对非金属矿粉行业的发展越来越重视,产业越来越精细化的同时对粉体原料品质的要求也越来越高,同时非金属矿物粉体的产量与规模也越来越大。分级系统是非金属矿物粉体制备过程中的关键环节,其作用是将粉体颗粒按照物理特性的不同分为若干部分。以空气作为介质的气流分级机在分级系统中具有重要地位,从开始应用到如今已经过了长期的改进与优化,但随着粉体工业对产品质量要求的
学位
随着物联网技术和微电子技术的发展、特别是5G技术的应用,在产品包装上引入柔性微电子技术,构建包装微电子信息系统,将包装产品的生产、运输、消费等动态信息进行记录和展示,不仅可以为包装提供全面的信息记录,也为产品包装的防伪、销售、信息反馈等提供依据,并将传统的孤立产品变为物联网上的信息节点,形成物物互联或者人(消费终端、手机)物互联,从而可以赋予产品包装新的信息功能,提升包装的附加价值。在包装微电子信
学位
随着科技的进步,在生产制造行业中传统的技术已经不能满足发展的要求,企业正在从机械化和自动化向着智能化的方向发展。复烤企业也如此,在重视质量的同时,也更加重视怎样合理有效的提高工艺水平以降低成本。干燥作为卷烟复烤工艺中非常关键的一环,干燥的质量直接影响到了后期卷烟的贮存与使用情况,也间接影响到了卷烟的生产品质。在干燥工艺流程中,烟叶通过传送带进入干燥区,烤片机控制每个区的干燥温度和加水量,使成品烟叶
学位
随着现代制造业的快速发展,工业机器人已成为智能制造的核心执行单元。RV减速器作为工业机器人的核心部件,其健康状况决定了工业机器人的执行效率和精度。因此,利用状态监测技术监测RV减速器的健康状况,及时发现早期故障并采取有效措施解决故障问题,对提高生产效率和避免停机损失具有重要的工程意义。本文以RV减速器为研究对象,开展压缩感知理论和深度学习理论研究,提出基于多源融合数据驱动的RV减速器故障诊断方法、
学位
目前玫瑰鲜切花分级环节的工作效率与市场的强劲需求完全不匹配,生产效率低下意味着与其它采用先进生产作业方式的同类型产品进行竞争,缺乏市场竞争力。现代化农业生产应该采取高度自动化与智能化相结合的作业方式。受限于生产成本与保守的种植理念,玫瑰切花的采摘与分级环节仍然采用纯手工方式。本论文为了有助于解决玫瑰花分级环节工作强度大、分拣效率低、分类准确率差以及分类特征提取困难等现实中存在的问题,利用机器视觉技
学位
自动化立体仓库(Automated Storage/Retrieval Systems,AS/RS)作为现代物流的重要组成部分,集存储、运输、分发等多项功能于一体,已广泛应用于各行各业。其通过使用自动化运输设备以及计算机信息系统,有效地减少了仓储作业人员的工作量,提高了物流运输效率。但就目前AS/RS的使用情况而言,多数出入库任务的确定仍取决于仓储作业人员的习惯和经验,致使出入库效率低下,并没有完
学位
随着我国乘用车保有量的急剧攀升,退役乘用车数量亦快速上升。在我国绿色发展理念指引下,如何实现车用零部件再制造等高附加值回收利用,是乘用车回收利用业亟待解决的问题。论文结合汽车零部件再制造理论与起动机相关理论,开展其再制造性评估。就小型内燃机(ICE)乘用车起动机再制造过程中清洗、修复及检测等技术进行了研究,并对再制造起动机与新起动机全生命周期进行对比分析。论文研究的主要内容及结论如下:首先,基于超
学位
在中国经济的迅猛发展下,居民的消费水平日益提高,越来越要求高效、快捷、方便的服务,而快递业在电子商务和数字新基建的背景下,满足了人们的这种消费需求,也越来越成为居民生活中不可或缺的服务性行业。对于监管云南省内所有快递公司的云南邮政管理局而言,科学合理的预测云南省快递业务量,是进行快递行业设施规划、投资决策、风险评估中的重要环节。因此,本论文旨在构建云南省快递业务量预测模型。按照乡级、县级、地级、省
学位
我国城市化进程不断加深,城市中人们以小区为单位集中居住,这就会衍生出一系列消防问题。根据消防与安全协会统计2020年居民住宅火灾就高达10.9万起,人民的生命财产安全受到严重威胁,所以国家在全国范围内举行了清理楼道等公共区域的活动,但是这些活动都只能保证楼道一时的清洁与安全。当活动结束后,之前的问题又会逐渐浮现出来,灾难并不会只挑你做好准备的时候到来,所以就需要楼道时刻保证不存在安全隐患才能够起到
学位
GIS具有可靠性高、结构紧凑、占地面积小等优点,所以大量使用在电力系统中。GIS中隔离开关开合闸时将产生VFTO,VFTO将对GIS本体及一次侧设备造成极大的绝缘故障,因此怎样抑制VFTO具有重要研究价值。现有加装阻尼电阻、改造成阻尼母线等方法,这些方法存在改造困难、故障率反而增大、可能产生更大谐振过电压危险等问题。经过研究对比发现,磁环抑制VFTO具有维护方便、可靠性高、经济技术性好等优点。但磁
学位