基于对抗训练的跨语言词向量学习方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:skykingzx6103
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言词向量学习是指利用某一种资源丰富的源语言词向量来辅助资源相对匮乏的目标语言词向量空间的学习,该问题的研究对小语种的自然语言处理任务具有重要的意义。最近,生成对抗网络(GANs)已被成功地运用于无监督的跨语言词向量学习。基于GANs的跨语言词向量模型将源语言和目标语言的单语言词向量看作两个分布,并迫使源向量分布对齐于目标向量分布。本文基于GANs模型开展无监督的跨语言词向量学习方法研究,主要工作如下:(1)跨语言词向量空间在对齐过程中,需要大量目标端信息作为可靠的对齐标准,而已有的基于GANs的跨语言词向量模型普遍忽视了这一点,不能有效地挖掘目标端的信息,导致生成次优的跨语言词向量。针对这一问题,提出一种新颖的基于改进WGAN和回译的跨语言词向量方法,通过对目标端样本的重复使用为对齐过程建立了可靠的参照标准。该方法首先使用一个基于改进WGAN的跨语言词向量模型学习初步的双向映射,然后根据获得的映射矩阵对目标端的词向量进行回译训练。三个语言对上的实验结果证明了该算法的有效性。(2)跨语言词向量学习中,相对高频词来说,低频词的语义信息相对较弱。因此,在跨语言词向量学习过程中低频词易对向量空间的对齐产生干扰,从而导致对齐性能下降。为了解决低频词给对抗训练带来的分布扰动问题,提出了一种基于扰动Cramér GAN的跨语言词向量学习方法。该方法通过向低频词的向量中注入外部的噪音扰动,构建扰动的低频词向量,再利用Cramér GAN共同训练扰动的低频词向量和原始的高频词向量。实验结果表明该方法可以有效地提高跨语言词向量的质量。
其他文献
随着生物特征识别技术的进步,这些技术获得了广阔的应用前景。相对于其他身份识别技术而言,指静脉识别技术更加安全、高效和稳定。然而目前采集到的指静脉图像普遍存在质量不
面对呈爆炸式增长的肺结节计算机断层扫描(Computed Tomography,CT)图像,能够迅速准确的对肺结节CT图像做出诊断,变成了一份艰难的工作。利用已经确诊的肺癌数据库中病例数据
随着纺织行业的迅速发展,纺织面料的类型愈来愈多,尤其是新型纺织纤维材料的研发和混合纺纱面料的普遍化,织物的识别和检测逐渐成为一个研究的热点。在纺织工业中,织物的识别
数字集群通信系统(TETRA)作为专业的移动通信系统,其发展和应用标志着现代专业用集群通信发展的方向。监控调度中心是TETRA数字集群通信系统最重要的部分,对其进行二次开发,可以更好的支持监控调度员进行全方面的指挥,还可以为系统提供监控调度通信以及监听等功能。本课题主要研究TETRA数字集群通信系统中的监控调度中心的设计与实现,主要工作包括:首先分析了TETRA数字集群通信系统发展趋势,并对TET
近些年,在医疗体制改革政策的影响下,医药行业得到了迅猛发展,药品市场的需求不断地增长。制药企业作为国内医药行业的重要组成部分更是迎来了发展机遇。但有关数据表明,近几
现代控制理论较传统控制取得跨越性的发展,电机控制领域朝着高电压大电流和更可靠的方向发展。面对电动汽车、民航电力系统和军工舰艇等对功率等级、调速性能以及可靠性要求
复杂网络在图论分析中有重要的研究价值,涉及各个学科领域,如:物理、通信、生物等。许多学者研究发现虽然复杂网络具有数据庞大、连接关系错综复杂的特点,却存在着一些重要的
准确的图像分割是医学图像分析和疾病诊断的前提和基础。但强度不均匀性、多组织干扰、边界模糊等是医学图像所面临的共同问题,它们对医学图像的准确分割产生巨大的挑战。为
股权激励作为一种激励方式的实践始于上世纪90年代的国企改革,当时,它还只是停留在一边探索一边实践的阶段。直到2005年以后,股权激励才逐渐开始在我国得到发展,其显著标志是
提高交通效率的常用方法是控制交通信号灯以确保交通畅通,然而由于车辆行为的不可控,实际效果有限。随着智能网联汽车技术的发展,交通系统的云端控制中心不仅可以控制交通信