基于图文交互增强低资源神经机器翻译方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:zanyunfeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
神经机器翻译技术已经在生产生活中占有重要地位,尤其随着国家与国家的联系更加紧密,世界趋向整个经济体的今天,机器翻译有较强应用价值。然而神经机器翻译模型性能依赖于大量高质量平行语料随,因此某些低资源翻译语种对难以达到高资源语种对翻译效果。然而这些语种的翻译任务跟随经济发展的脚步发展的格外重要,例如着我国与东南亚国家的交流合作发展,语言壁垒成了急需克服的障碍,然而东南亚语言的翻译任务因为资源较少,可获取公共翻译引擎较少且翻译效果差强人意。因此低资源语言的翻译方法至关有重要的现实研究意义。同时,低资源神经机器翻译也是一个被研究多年的学术难题,已有许多方法方向对这一难题展开研究,具有客观学术价值。图像是一种语言无关的模态,可以跨越语言之间的语义鸿沟,且包括丰富的词级或实体信息。低资源语言翻译的难点在于可用资源较少,在已有低资源翻译方法中,并没有充分的使用图像这一可以跨越语言壁垒的资源,因此本文立足于图像信息可以拉近不同语言信息并可以补充文本信息没有的信息这一特点将图像信息用图文检索,多模态门控信息增强等方式融入低资源神经机器翻译的任务中,主要完成了下述工作:(1)图文数据细粒度检索及预处理:针对已有数据集中部分语种缺少细粒度图文匹配数据的问题,提出了基于已有图像语义描述句子提取名词和动词作为图像标签进行文字检索图像的检索方法。建立了英语-越南语图像-文本平行数据集。并对图像数据和文本数据进行了数据预处理及特征提取的操作为后续研究提供数据。(2)基于图文多模态门控增强的文本平行句对抽取方法研究:已有平行句对抽取方法中,主要凭借句子全局语义特征判断句子间语义相关程度,而对词级实体级等细粒度信息考虑不足,使得获取的平行句对在词级粒度对齐存在噪声。针对这一问题提出了融入细粒度语义相关图像信息辅助平行句对判断的方法。论文以图像模态为双语对齐的锚点,基于多模态门控增强实现了图像模态信息在双语表征端的自适应融合,最终实现平行句对的判别。且论文方法无需提前进行图像和文本的对齐标注。所提方法的思路为:首先从预构建好的图像数据库中基于词级或实体粒度对齐抽取源语言和目标语言的相关的图像模态信息;然后基于图文多模态门控的方式分别实现源语言和目标语言图文信息的融合,获得图像增强后的文本语义表征;最后将双语表征信息进行融合实现平行句对抽取。所提方法在英语-越南语、英语-德语双语平行句对抽取任务上进行了实验,证明了融合图像信息对文本平行句对抽取的有效性。(3)基于多模态预训练知识增强的低资源神经机器翻译方法研究:针对低资源神经机器翻译模型在不同语种语义空间对齐效果不佳的问题,论文以多模态语义表征为枢轴缩小跨语言语义鸿沟,提出一种基于图文多模态预训练知识增强的低资源神经机器翻译框架,利用多模态语义表征拉近双语语义空间距离,缩小双语语言壁垒。首先将源语言句子基于跨模态预训练模型和Transformer编码模块分别进行表征;然后基于跨模态注意力机制实现多模态预训练知识与源语言语义空间的对齐,构建融合多模态特征的源语言表征编码器;最后构建源语言与多模态知识双通道解码器,自适应的实现多模态特征指导下的低资源机器翻译。所提方法基于IWSLT英越、英德数据集的实验结果证明了本文所题方法的有效性,多模态预训练知识可以有效提升低资源文本机器翻译的性能。(4)基于图像增强的低资源神经机器翻译原型系统:论文设计了一个基于图像增强的低资源神经机器翻译原型系统,该系统集成文字细粒度检索语义相关图像功能,平行句对判断功能,机器翻译功能等,进行了合理系统架构并为用户提供可视化交互界面,进行了用户友好设计。
其他文献
随着人工智能领域的飞速发展,“无人驾驶”成为当前重点研究方向之一,对视觉算法的准确性、实时性和稳定性也提出了新的要求。但目前基于深度学习的复杂场景实例分割方法仍然存在诸多不足,如模型分割精度低、鲁棒性差以及模型时空复杂度较大等,针对以上问题,本文以城市街景常见目标为对象展开了实例分割算法的研究工作,主要内容如下:1、复杂街景下密集目标的小样本数据集制作。对公开城市道路数据集City Space进行
学位
在蚕茧加工过程中需按制丝工艺的要求对不能或很难缫丝的下茧进行剔除,从而提高茧丝质量,但目前下茧检测主要依赖人工目测,不利于下茧客观评判和高效检测。针对上述问题,本文提出采用机器视觉的检测方法代替人工检测下茧,主要研究内容如下:(1)搭建下茧检测图像采集系统并建立下茧检测数据集。首先,合理选择下茧图像采集系统的软硬件平台;然后,根据图像采集系统成像的景深为线阵扫描相机选择合适的拍摄距离,并通过采样频
学位
随着经济的快速发展,我国汽车工业取得了巨大的成就,汽车保有量持续增长,同时报废汽车数量也在逐年升高。但由于回收的理论、技术和装备发展相对滞后,报废汽车破碎铜铝件的回收效果并不理想,回收形势较为严峻。报废汽车经破碎处理后,破碎料尺寸差异较大,现有单一分选装备难以对铜铝件进行有效分离,需要经过多次筛分,多次分选。因此,本文在首次提出凸型Halbach阵列磁辊模型的基础上,对涡电流和气流喷吹分选技术进行
学位
随着工业机器人的应用领域及我国市场的占比越来越大,其智能故障诊断及健康评估成为时下的研究热点,RV减速器作为工业机器人的核心设备,是工业机器人关节关键部件,其健康状况决定工业机器人的工作能效。因此,对RV减速器状态监测及故障诊断技术进行深入研究显得尤为关键。本文重点研究了工业机器人关节关键部件RV减速器的齿根裂纹故障诊断方法,此外在研究故障诊断技术内容时,针对机器人关节运转过程从信号中获取运动状态
学位
顶吹熔炼系统属于火法冶金设备中的一种,在铜冶炼行业被广泛运用。可靠、稳定、安全的顶吹熔炼系统对整个铜冶炼至关重要,关系着其生产的效率与产品的质量,因此顶吹熔炼系统全寿命周期测试、试验与状态检测等成为铜冶炼过程可靠运行的重要基础。但目前整个铜冶炼行业的数字化程度、智能化程度都相对来说比较低,随着《中国制造2025》和《有色金属行业智能冶炼厂建设指南(试行)》的出台,铜冶炼行业如何智能转型升级成为热点
学位
高压铸铝合金是实现结构轻量化最常用的轻质合金材料之一,其本构关系和断裂准则是结构安全性设计的关键。为了探索高压铸造铝合金ZTHJ01在准静态下的本构模型和断裂准则,设计了高压铸造铝合金标准拉伸、R5缺口拉伸、中心孔拉伸、平面剪切、蝴蝶剪切和三点弯曲六种实验样件,结合数字图像相关法(Digital Image Correction,DIC)开展了试验测试。根据对应力-应变曲线外推两种不同混合性硬化准
期刊
随着智慧电网的加速发展,大量光伏、风电等新型绿色能源已经并入电网,使得电网中的电流信号除了工频以外,还包括大量的直流、高次谐波、和高频暂态信号。而传统用于电网监测的电流传感器多为接触式电流互感器,具有频带较窄、容易产生谐振、无法对直流信号进行测量等问题,这就导致无法满足现目前的电网发展趋势。因此,对宽频电流的非接触传感技术研究迫在眉睫。本文设计了一种基于复合测量原理的宽频非接触电流传感器。该传感器
学位
三坐标测量机是一种通用的精密测量设备,现已在精密制造、航空航天等领域得到广泛应用,但传统的三坐标测量机体积大、价格贵且难以应用于工业现场。本文基于协作机器人体积小、工作空间大、灵活性高的特点,提出一种坐标测量机器人系统,构建了坐标测量机器人的软硬件系统;基于运动学标定提高机器人的精度,开发了基于视觉引导的自动测量功能。主要研究内容如下:(1)基于一种六自由度协作机器人本体构建了坐标测量机器人系统。
学位
伴随着节能减排要求的不断提高,轻量化设计已成为当前工程设计的一个重要趋势。电阻点焊操作简便、成本低、效率高、环境适用性好,通过电阻点焊连接高强度的钛与轻质材料镁不仅可以发挥两种材料优异性能,而且可以提升产品结构安全性和降低产品重量。点焊结构在循环载荷作用下,其失效最主要的方式为疲劳断裂,点焊结构的疲劳强度评估一直是行业中的难点与重点问题,因此有关异种材料电阻点焊接头疲劳特性研究显得尤为值得深入。本
学位
内燃机由于高度集成和高速运转特征,其摩擦损失约占系统总能量损耗的48%,特别是活塞-缸套之间的摩擦损耗占整个动力装备损耗的40%~55%。因此,提高摩擦副的润滑性能,实现摩擦磨损的主动干预,已成为内燃机可靠性研究的关键问题之一。诸多学者研究表明,在摩擦副接触表面使用表面微织构技术,可以极大提升摩擦副的润滑性能。因此,本文基于流体润滑理论,对凹坑型微织构减摩机理和影响润滑性能的各种因素进行研究,并搭
学位