基于协同训练的无监督跨语言词表示学习方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:k413287823
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言词嵌入指不同语种的单词对应的表示处于相同的向量空间之中,从而可以方便地度量不同语种的词之间的相似程度,无监督跨语言词表示学习旨在不借助任何的外界跨语言信息来进行跨语言词表示的学习。现有的无监督跨语言词表示学习虽然取得了一定的成果,但仍然存在着不足之处。缺点之一便是自学习步骤中的双语翻译词典获取方法较为简单,不能为后续迭代步骤提供高置信度的双语关联信息,影响了自学习过程的学习效果,并对最终获得的跨语言词嵌入的性能造成了负面影响。针对这一问题,本文提出了基于协同训练的无监督跨语言词表示学习方案,以提高跨语言词表示的质量。本文尝试比较协同训练过程中不同训练子流程自学习步骤的双语翻译词典,筛选更加可信的双语翻译对用于各流程的后续训练步骤当中,从而提升自学习过程中使用的信息的质量,最终提升模型所得跨语言词表示的性能效果。具体地,本文设计了基于不同词嵌入模型的无监督跨语言词表示协同训练方案和基于不同语料库来源的无监督跨语言词表示协同训练方案,且两者的性能均优于基线模型。本文还对基于线性自编码器的主成分分析方法进行了研究和探索,设计并实现了针对单语语料上得到的点间互信息矩阵的基于线性自编码器的主成分获取方案。并在此基础之上设计了基于线性自编码器的跨语言词表示协同训练方案,提升了跨语言词嵌入的学习效果,并进一步验证了无监督跨语言词表示学习的协同训练方法可行性。
其他文献
[研究目的]平台企业数据共享是维护市场安定、保护国家经济安全中的重要一环,数据所具有的竞争法品性,使得平台企业数据共享需要被纳入反垄断法进行规制。[研究方法]在反垄断背景下分析平台企业滥用数据优势的行为及危害,进而阐述平台企业数据共享的理论根源和实践现状。从平台市场竞争失序的理论根源研究出发,据此提出平台企业数据共享的理论支撑。对平台企业数据共享现状进行研究,发现平台企业数据共享运作机制存在着市场
随着互联网的不断发展,网民的数量逐渐增多,网络信息也呈爆炸式增长。这些信息基于用户的真实体验,蕴含着巨大的价值。目前可以使用情感分析技术挖掘其中的情感与观点,然而由于许多时候人们不直接通过情感词,而是选择“隐晦”地表达其真正想说的意思。隐式情感分析可以较好地处理这类问题。由于这类问题有一定的占比、不容忽视,且目前受到的关注较少,因此本文聚焦于隐式情感分析技术,对其中的各种任务做出研究。本文的主要研
学位
传统的辅助维修主要靠维修人员的经验和极其简单的工具进行维修,在时间、设备和环境等方面受到极大限制,这使得维修工作变得难度大、效率低。增强现实(Augmented Reality,AR)的蓬勃发展,为维修工作提供了新的解决方案,如果能够在维修工作中利用移动设备和AR技术来辅助维修,将在很大程度上提高维修效率。同时边缘计算的发展,使得网络边缘的算力大大加强,利用边端协同策略提高辅助维修系统的性能也有了
代码克隆是具有相似语法或语义的重复代码片段。代码克隆检测在软件维护、代码重构以及漏洞检测等任务中起着重要的作用。为了节约大量的人力、物力,自动检测出代码库中的代码克隆是软件工程领域最重要的问题之一。近年来,利用机器学习技术分析源代码已经引起了人们的广泛关注,不少研究人员采用机器学习技术进行代码克隆检测。较早的研究工作主要使用信息检索方法,这丢失了大量的重要语义信息。最近的研究表明,借助于源代码的中
随着数字经济的发展,数字市场反垄断面临着市场支配地位认定困难、相关市场范围界定困难、数字经营者集中审查困难等问题,作为反垄断的辅助性法律如《电子商务法》《反不正当竞争法》《价格法》等在应对数字反垄断领域也存在法律适用困境。就国外数字反垄断治理的最新进展看,必要设施规则、优势地位滥用规则、跨市场竞争影响滥用规则各有其适用领域及条件,在应对数字市场反垄断治理中也起到一定的作用,但在规制方式上与传统的反
命名实体识别是指从自然语言文本中识别有特定意义的实体,例如人名、地名、组织机构名等。随着互联网的飞速发展,命名实体识别的需求不仅局限于传统的三类实体类型,进一步拓展到了对于各个专业领域命名实体的识别。在大规模数据上,基于深度学习的方法在命名实体识别任务上能够得到较好的效果。但是由于标注资源的限制,在目标领域中常常无法获得大规模的有标注数据,直接应用深度学习的方法无法获得比较好的效果。因此本文研究跨
意图识别任务旨在确定一句话的意图,即通过分类模型将问题分类到事先定义的问答系统中各种可能的意图类别当中,可以被认定为分类任务,是自然语言理解中的关键技术。意图识别任务较早就被提出,但由于缺乏标注数据无法在现实场景中得以应用,尤其是特定领域的意图识别任务当中数据匮乏更为严重。而深度学习在文本分类等多个自然语言处理任务中获得了很好的表现,但是这种方法需要大量的标注数据。本文围绕意图识别的研究现状和当前
学位
在计算机视觉领域,图像分类任务的待分类样本通常来自不同的基础类别(如车、狗、鸟、树等),然而在很多实际应用场景下需要对这些基础类别做进一步分类,这种分类的粒度相较于一般分类任务更为细致,所以称其为细粒度图像分类。因为细粒度图像分类任务区分的是同一基础类别下的子类,子类之间的差异性比与基础类别之间的差异性小很多,且往往体现在细小的局部,这成为细粒度分类任务的难点所在,同时图像噪声、拍摄角度和光照等因