基于反馈机制的无监督跨语言词表示方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yudsly2002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨语言词语表示方法能够把两种或多种人类语言的词语表示在一个共同的空间中,为各种语义计算和知识迁移提供基础支撑。大多跨语言词语表示方法,都需要某种形式的监督知识来训练模型。然而,资源的匮乏,已经成为制约各种跨语言任务的瓶颈问题。无监督方法不需要任何的平行语料或双语词典,仅仅依赖各种语言的单语语料库,就能够自动学习得到跨语言词语表示和翻译词典。因而具有非常重要的研究意义。然而现有的方法存在一个很大的问题:要求在单语语料上分别训练的词向量满足同构性假设。本文提出基于反馈机制的跨语言词向量共训练方法,旨在使得词向量天然具有跨语言性质。本文首先从各个角度对基线模型进行了改进,包括词向量的初始化、初始词典的性能、映射方式和距离度量方式等方面的研究。最终确定了使用迭代初始化的方式以及跨领域相似度本地缩放等技术可以提高抽取词典的准确率。之后,给出了获取训练词典的标准。分别研究了词条选词的标准和候选词表大小的设置两个问题,最终得到训练词典。发现了基于确信度抽取词典的方式更加有效。利用训练词典,分别使用加入正则项约束的方法和基于替换的方法进行词向量的共训练。这两种方法基于不同的思路,但目标都希望词典中互为翻译的词对经过训练之后的词向量在空间中彼此接近。同时两种方法得结果都说明了想要得到具有跨语言性质的词向量,需要词向量的各个信息都在空间中彼此接近,例如参数矩阵,而不仅仅是训练最终得到的词向量。最终通过实验,可以看到两种方法抽取词典的准确率都高于基线模型。说明本文提出的反馈机制是有效的。
其他文献
随着科技的进步,社会的发展,人类汽车需求量也越来越大,而环境污染以及能源消耗等问题也随之而来,所以使汽车在减重、节能、环保、防腐、提高安全性和舒适性等方面势在必行。高强IF钢作为固溶强化钢,由于其成分特点及无间隙原子的原因,使其拥有良好的深冲性能、无时效性、较高的强度等,因此在汽车工业生产中越来越多的使用高强度IF钢。稀土元素在钢中主要起到控制和改善夹杂物、净化钢液、细化晶粒、产生微合金化等几个方
十九世纪八十年代,量子计算的基础概念由Benioff与Feynman最先提出来,他们二人对量子计算技术开展了长期的研究和探索,取得了较好的成果。同时由于量子计算表现出的强大的计
由于兼具压电材料和半导体材料的双重物理特性,压电半导体近年来愈发受到关注,已成为智能器件研究领域最为前沿的材料之一。在众多压电半导体结构中,以纳米纤维为代表的一维
随着企业信息化程度的提高,企业级Web应用系统的用户访问量日益增加,巨大的访问量可能会使得系统页面的响应时间变慢,甚至导致系统崩溃,这将直接影响企业的正常运营,给企业造
目的:检测胃癌中CUEDC2的表达,探讨其与临床预后的关系,及淋巴结转移的关系。方法:选取收集2017年10月-2018年10月在我院经病理确诊为胃癌并实行手术切除后的30例标本,采用免疫组化方法检测CUEDC2的表达,并结合临床病理因素进行分析及淋巴结转移的关系;采用PCR检测CUEDC2的mRNA在胃癌及癌旁组织中的表达;采用Western blot检测CUEDC2蛋白的表达情况。结果:1.免
半监督学习是当前深度学习领域研究的热点和难点之一,它是一种基于大量无标签样本以及少量无标签样本进行图像分类的方法。传统的半监督学习的主要方法有协同训练、半监督支
糖尿病严重并发症之一糖尿病性视网膜病变由于其发病率高、致盲率高引发了人们的关注。传统研究中,主要通过机器学习方法对采集到的患者眼底图像进行分类,并以医生的临床经验
模型修复是一种新的过程挖掘应用技术,它以事件日志和过程模型作为输入,通过对日志进行分析发现过程模型中出现的偏差,再对过程模型进行修复。修复后的模型应当与原始模式相
自无损检测技术的迅速发展,研究水稻等农作物的无损检测方法成为研究领域的热点之一,跨学科方法种类繁多,但多集中于遥感探测领域,由于近地面大气扰动和天气因素的影响,导致
未来无线通信网络中移动设备的大量增加会导致通信流量的指数增长。为了支持大规模移动设备通信,终端直通(D2D,Device-to-Device)通信技术和非正交多址(NOMA,Non-Orthogonal