基于深度语义的跨语言词向量构建方法研究

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:bbnn1122
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着深度学习、神经网络等技术的涌现,词向量技术已经成功地应用在许多自然语言处理任务中,并成为这些任务解决问题的重要基础工具。词向量可以将单词信息表示为低维的实值向量,从而更好地捕捉单词的语义信息。跨语言词向量是词向量的自然扩展,不仅使我们能在多语言环境中对词义进行推理,还能借助迁移学习技术,在不同语言间进行结构和语义的对应建模。因此,如何构建高质量的跨语言词向量一直是近几年相关领域内的研究热点。目前跨语言词向量模型研究成果较为丰富,其中基于映射的跨语言词向量构建方法最为普遍。该方法旨在将两种预先训练好的单语词向量映射到共同语义空间中学习跨语言词向量。由于语言的差异性使得该方法的基本假设,即同构性假设并不一定适用于所有语言,特别是字母表存在较大差异、语法结构不相似的语言对。此外,大部分基于映射的方法是基于Word2vec等预先训练好的两种词向量进行映射来学习跨语言词向量,该过程仅考虑了语料库的局部上下文信息,而忽略了全局信息。针对上述问题,本文在前人的研究基础上,主要做了以下两个方面的工作:1、本文提出了一种基于主题单语词向量的跨语言词向量构建方法。在考虑语料库局部上下文信息的基础上,还充分考虑了语料库的全局信息。该方法首先将具有全局信息的潜在主题融合到改进的Word2vec模型中学习高质量的单语词向量;然后采用有监督和无监督两种方法训练具有主题信息的跨语言词向量。为验证方法的有效性,在信息检索标准评测数据集上进行实验,结果表明基于主题单语词向量构建的跨语言词向量能够充分表达语义,从而提高相关自然语言处理任务的准确率。2、在前述研究的基础上,本文进一步考虑了同构性假设不适用于不相似语言对的问题,提出了一种基于增强种子双语词典的跨语言词向量构建方法。该方法首先预先训练好两种不同语言的单语词向量,然后利用Triplet loss函数作为学习目标,训练增强种子双语词典,最后利用该词典作为有监督信号,优化跨语言词向量的构建。在真实的数据集上的实验结果表明,该方法明显优于其他跨语言词向量构建方法,能够有效地提高跨语言词向量的质量。
其他文献
传统导引头整流罩是一个同心的球面罩,这种整流罩的像差易校正,但给导引头带来很大的气动阻力,难以满足现代导引头的发展需求。共形整流罩是一种新型整流罩,它与飞行器气动外形更加匹配,能够提升导引头空气动力学性能,所受到的阻力相对于球形整流罩也大幅度的减少。但是,共形整流罩通常会产生大量的动态像差,随扫描角度的变化而变化,严重影响了光学系统成像质量。因此,共形整流罩光学系统遇到主要设计困难在于如何校正动态
学位
为实现企业健康可持续发展,许多企业开始探索轻资产运营投资,在规避资金运营风险的同时,最大程度拓宽自身效益空间。本文通过分析轻资产及轻资产运营投资战略的内涵价值,指出企业轻资产运营投资战略风险及形成原因,最后从三方面入手提出具体的实施要略,包括完善投资管理机制、加强可行性分析及监督、全面权衡项目合作风险。
期刊
分类是数据挖掘中常见的一个任务。经典的分类算法通常是应用在数据集中各类别大小趋于平衡的情况下。随着数据时代的发展,各个应用的数据量在快速增加。在一些应用中数据的增加不是同步的。某些类别数据增加十分迅速,而某些类别的数据增加并不明显。这样会造成数据类别不平衡的情况。传统的分类算法在分类时会偏向多数类数据。因此,有必要对不平衡数据进行更进一步的研究。在分类任务中,并不是所有的数据对分类都起到贡献作用,
学位
近年来,随着智能终端设备的快速增长,数据流量呈现爆炸式增长,给移动网络的架构带来极大的压力。移动边缘计算(Mobile Edge Computing,MEC)的出现,可以在移动网络边缘部署计算、存储服务,从而实现业务的就近处理。移动边缘计算中的缓存技术,通过在边缘节点来缓存文件以分担移动核心网络的压力,目前已成为一种经济高效的解决方案来减轻网络拥堵、满足用户体验质量(Qo E)。移动边缘计算缓存策
学位
近年来,学术界在清代新疆灾害史这一领域取得了显著的成果,各类灾害的发生频次、灾因、灾害发生规律及应灾机制等一些基本问题得到了梳理。汇总与统计了清代新疆灾害史料,评析了近30年来的研究成果,认为当前该领域的研究还存在研究不平衡、对新疆地区的特殊性关注度不够等问题,需要进一步对史料充分发掘与利用,加强多学科之间的交流与借鉴,以期在研究上取得一些具有代表性的成果,获得在理论上的突破。
期刊
洪旱灾害是新疆主要的气象灾害,历来对农牧业影响较大。当代以来在中国共产党的领导下,新疆维吾尔自治区党委和各级行政部门十分重视防范应对各类自然灾害,采取相应措施,取得了有效的成就。本文梳理了1949年以来新疆洪旱灾害研究成果,分别从研究成果论著、发表论文、学位论文等几个方面来反映洪旱灾害研究的进展及主要成就。用历史的眼光重新梳理前期研究成果,作整体的回顾、反思,为进一步加强抗旱防洪研究和生态文明建设
期刊
表面增强拉曼散射(SERS)作为一种准确、灵敏、高效的检测方法,已经被广泛应用于各种分子的痕量分析,观察拉曼光谱中独有的特征峰强弱可以对分子实现精确定量。目前普遍的SERS检测主要围绕在液体中的有机分子上,而气体分子拉曼由于散射截面小,信号弱,对其进行高灵敏度的SERS检测十分困难。本文针对目标气体分子NH3的高灵敏度定量成分识别问题,从材料选取合成,基底设计加工和SERS测量方式上出发,制备了一
学位
伪狂犬病(Pseudorabies,PR)是由伪狂犬病毒(Pseudorabies virus,PRV)引起的急性传染病,可导致多种家畜和野生动物出现发热、奇痒(猪除外)及脑髓炎等主要症状。猪是PRV的主要宿主和传染源,仔猪感染后主要表现为神经症状,哺乳仔猪死亡率可达100%,妊娠母猪感染后可导致流产、产死胎和木乃伊胎,是严重危害我国养猪业的一个重要传染病。疫苗免疫是防制伪狂犬病的主要措施,目前P
学位
在现代处理器中,具有向量处理单元的VLIW体系结构已经逐渐成为高性能数字信号处理器(Digital Signal Processor,DSP)的典型代表。这类结构具有寄存器资源丰富、执行单元多等特点,对其在DSP算法程序代码的编译时施加循环展开优化能更好地利用硬件资源来提升代码的性能。循环展开的效果主要取决于所选择的循环展开因子,但是传统的循环展开因子选择方法对硬件资源特征的考虑有限,不能更好地发
学位
致冷红外光学系统具有大探测距离和高探测灵敏度的特点,因此广泛应用于科研和医学等领域。然而致冷红外光学系统的设计无法避免冷反射现象,致冷红外系统冷反射会在图像中心区域叠加一块黑斑,严重影响成像质量。传统方法仅从光学设计的角度校正冷反射,采用限制系统结构、增加透镜数量或面形复杂度的方法,无疑会增加系统的体积、重量和成本,不利于现代化系统小型化、轻量化。本文提出了一种致冷红外光学系统设计的新方法-光学数
学位