基于多粒度信息增强的神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ilovegigi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译技术研究如何利用计算机将一种语言自动地转换为另一种语言,由于其有效性及便利性而得到持续的关注。近年来,随着深度学习技术的发展,神经机器翻译已经成为机器翻译技术的通用形式。尽管取得了一定的效果,神经机器翻译技术仍然存在表征不足,信息挖掘不充分等问题,特别是在数据缺乏的低资源情况下。本文针对神经机器翻译系统存在的以上问题,以文本粒度为划分依据,聚焦于词与词之间蕴含的句法信息和更大粒度的短语形式命名实体信息,基于Transformer网络结构研究不同粒度信息对机器翻译质量的增强作用。主要完成了以下研究工作:(1)基于句法图指导自注意力的神经机器翻译方法针对神经机器翻译缺乏词与词之间蕴含的句法信息指导的问题,基于Transformer网络提出一种句法图指导的自注意力机制,将源语言句法知识与多头自注意力网络结合,实现词级粒度信息对神经机器翻译的增强。在编码自注意力建模过程中,首先基于源语言句法关系引入一个句法感知的偏置项,之后将偏置项纳入原注意力分布,形成修正的句法感知注意力分布,明确表明在自注意力建模过程中需要更多地关注句法相关的部分。此外,为了缓解句法解析结果的噪声影响,同时提升模型的泛化能力,在多头自注意力网络中采用节点随机丢弃策略,生成多重自注意力表征。在几个标准IWSLT及WMT翻译数据集上的实验结果表明,所提方法能够显著提升Transformer模型的翻译性能,获得了1.12到3.88的BLEU值提升,达到了句法相关研究的最先进水平。(2)基于源语言句法增强解码的神经机器翻译方法针对神经机器翻译解码过程缺乏句法信息约束的问题,进一步探索源语言句法信息对解码过程的影响。基于Transformer网络,提出一种基于源语言句法增强解码的神经机器翻译方法,实现词级粒度信息对神经机器翻译解码过程的增强。在编码自注意力建模过程中,首先基于源语言句法信息构造句法感知的Mask机制,之后引导自注意力网络生成一个额外的句法相关表征。最后,在解码端通过交叉注意力网络将句法相关表征作为原表征的补充融入解码过程,共同指导目标语言的生成。在几个标准IWSLT及WMT翻译数据集上的实验结果显示,与Transformer基线模型相比,基于源语言句法增强解码的神经机器翻译方法获得了0.84到3.41的BLEU值提升,优于之前句法相关的工作。(3)基于命名实体强化编码的神经机器翻译方法针对神经机器翻译对短语粒度的命名实体信息表征不足的问题,基于Transformer网络提出一种基于命名实体强化编码的方法,挖掘深层命名实体信息,实现短语粒度信息对神经机器翻译的增强。首先基于源语言命名实体信息引入一个额外的实体强化编码器,之后借助注意力机制将原编码器生成的源句表征引入强化编码器,对命名实体进行强化编码,生成一个额外的实体强化的源句表征。最后,通过交叉注意力机制,将实体强化表征与原表征依次融入解码过程,指导目标语言的生成。在几个标准IWSLT翻译数据集上的实验结果表明,基于命名实体的强化编码方法能够有效挖掘深层实体信息,进而优化模型表征,显著提高神经机器翻译性能。与Transformer基线模型相比,基于命名实体的强化编码的方法获得了0.79到2.92的BLEU值提升。
其他文献
在蚕茧加工过程中需按制丝工艺的要求对不能或很难缫丝的下茧进行剔除,从而提高茧丝质量,但目前下茧检测主要依赖人工目测,不利于下茧客观评判和高效检测。针对上述问题,本文提出采用机器视觉的检测方法代替人工检测下茧,主要研究内容如下:(1)搭建下茧检测图像采集系统并建立下茧检测数据集。首先,合理选择下茧图像采集系统的软硬件平台;然后,根据图像采集系统成像的景深为线阵扫描相机选择合适的拍摄距离,并通过采样频
学位
随着经济的快速发展,我国汽车工业取得了巨大的成就,汽车保有量持续增长,同时报废汽车数量也在逐年升高。但由于回收的理论、技术和装备发展相对滞后,报废汽车破碎铜铝件的回收效果并不理想,回收形势较为严峻。报废汽车经破碎处理后,破碎料尺寸差异较大,现有单一分选装备难以对铜铝件进行有效分离,需要经过多次筛分,多次分选。因此,本文在首次提出凸型Halbach阵列磁辊模型的基础上,对涡电流和气流喷吹分选技术进行
学位
随着工业机器人的应用领域及我国市场的占比越来越大,其智能故障诊断及健康评估成为时下的研究热点,RV减速器作为工业机器人的核心设备,是工业机器人关节关键部件,其健康状况决定工业机器人的工作能效。因此,对RV减速器状态监测及故障诊断技术进行深入研究显得尤为关键。本文重点研究了工业机器人关节关键部件RV减速器的齿根裂纹故障诊断方法,此外在研究故障诊断技术内容时,针对机器人关节运转过程从信号中获取运动状态
学位
顶吹熔炼系统属于火法冶金设备中的一种,在铜冶炼行业被广泛运用。可靠、稳定、安全的顶吹熔炼系统对整个铜冶炼至关重要,关系着其生产的效率与产品的质量,因此顶吹熔炼系统全寿命周期测试、试验与状态检测等成为铜冶炼过程可靠运行的重要基础。但目前整个铜冶炼行业的数字化程度、智能化程度都相对来说比较低,随着《中国制造2025》和《有色金属行业智能冶炼厂建设指南(试行)》的出台,铜冶炼行业如何智能转型升级成为热点
学位
高压铸铝合金是实现结构轻量化最常用的轻质合金材料之一,其本构关系和断裂准则是结构安全性设计的关键。为了探索高压铸造铝合金ZTHJ01在准静态下的本构模型和断裂准则,设计了高压铸造铝合金标准拉伸、R5缺口拉伸、中心孔拉伸、平面剪切、蝴蝶剪切和三点弯曲六种实验样件,结合数字图像相关法(Digital Image Correction,DIC)开展了试验测试。根据对应力-应变曲线外推两种不同混合性硬化准
期刊
随着智慧电网的加速发展,大量光伏、风电等新型绿色能源已经并入电网,使得电网中的电流信号除了工频以外,还包括大量的直流、高次谐波、和高频暂态信号。而传统用于电网监测的电流传感器多为接触式电流互感器,具有频带较窄、容易产生谐振、无法对直流信号进行测量等问题,这就导致无法满足现目前的电网发展趋势。因此,对宽频电流的非接触传感技术研究迫在眉睫。本文设计了一种基于复合测量原理的宽频非接触电流传感器。该传感器
学位
三坐标测量机是一种通用的精密测量设备,现已在精密制造、航空航天等领域得到广泛应用,但传统的三坐标测量机体积大、价格贵且难以应用于工业现场。本文基于协作机器人体积小、工作空间大、灵活性高的特点,提出一种坐标测量机器人系统,构建了坐标测量机器人的软硬件系统;基于运动学标定提高机器人的精度,开发了基于视觉引导的自动测量功能。主要研究内容如下:(1)基于一种六自由度协作机器人本体构建了坐标测量机器人系统。
学位
伴随着节能减排要求的不断提高,轻量化设计已成为当前工程设计的一个重要趋势。电阻点焊操作简便、成本低、效率高、环境适用性好,通过电阻点焊连接高强度的钛与轻质材料镁不仅可以发挥两种材料优异性能,而且可以提升产品结构安全性和降低产品重量。点焊结构在循环载荷作用下,其失效最主要的方式为疲劳断裂,点焊结构的疲劳强度评估一直是行业中的难点与重点问题,因此有关异种材料电阻点焊接头疲劳特性研究显得尤为值得深入。本
学位
内燃机由于高度集成和高速运转特征,其摩擦损失约占系统总能量损耗的48%,特别是活塞-缸套之间的摩擦损耗占整个动力装备损耗的40%~55%。因此,提高摩擦副的润滑性能,实现摩擦磨损的主动干预,已成为内燃机可靠性研究的关键问题之一。诸多学者研究表明,在摩擦副接触表面使用表面微织构技术,可以极大提升摩擦副的润滑性能。因此,本文基于流体润滑理论,对凹坑型微织构减摩机理和影响润滑性能的各种因素进行研究,并搭
学位
神经机器翻译技术已经在生产生活中占有重要地位,尤其随着国家与国家的联系更加紧密,世界趋向整个经济体的今天,机器翻译有较强应用价值。然而神经机器翻译模型性能依赖于大量高质量平行语料随,因此某些低资源翻译语种对难以达到高资源语种对翻译效果。然而这些语种的翻译任务跟随经济发展的脚步发展的格外重要,例如着我国与东南亚国家的交流合作发展,语言壁垒成了急需克服的障碍,然而东南亚语言的翻译任务因为资源较少,可获
学位