基于高斯分布的词义嵌入模型探究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:xyeee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然语言处理或文本挖掘中,文本数据最常见的表现形式是字符串,然而字符串无法直接用于计算。解决这个问题的最直观方法是用数值代替词语,例如构建一个由所有词语组成的词语列表,然后用词语在列表中的索引位置代替该词语。这种表示方式有一些弊端:首先单个数字不包含任何语义信息,另外这种表示形式无法运用在神经网络模型中。为了解决这些问题,有学者提出了用向量来表示词语,即“词嵌入”。词嵌入在很多领域包括推荐系统、文本分类等都发挥了相当大的作用,然而在自然语言处理领域中的某些具体任务(例如机器翻译、文本生成等)中稍显薄弱。原因是这些任务都对词义的精准度有较高的要求,而自然语言中存在不少具有二义甚至多义的词语。这些词语的词义之间可能关联度很小,这就导致单用一个向量表示这些词语不那么合理。因此近些年有学者提出了词义嵌入这个概念,目的是将嵌入的目标细粒度化。向量对应高维空间上的点,然而点作为一种简单数据,能够包含的信息是有限的,例如词语之间的一些非对称信息就无法通过点与点之间的关系来表达。由此我们猜测,用分布的形式来表示词语是一种更好的选择。而高斯分布由于其分布特性以及优秀的的数学性质,成为了表示词语的最佳选择。多维高斯分布的均值为高维空间中的一个点,协方差矩阵可以控制这个分布的形状和范围,这样我们还可以通过判断高斯分布之间的分布范围大小比较来判断两个词义之间的上下位关系。本文介绍了我们对使用高斯分布来表示词语词义的研究工作,我们在隐马尔科夫模型的基础上进行优化和改进,提出了一个适用于这一课题的模型。同时针对此模型,我们提出了推断句子中多义词词义的算法和训练模型的方法。为了验证模型的有效性,我们使用基于能量的训练方法对其进行训练,并尝试应用了两种能量函数,最终训练出了词义高斯嵌入。通过词语相似度计算和上下位关系判断这两个任务,我们对训练得到的词义高斯嵌入进行了评测。从结果中我们发现,对于词义相似度计算这个任务,我们所使用的能量函数存在一些不合理性,并从数学的角度证明了这一点;而对于词语上下位关系判断这个任务,我们的方法超越了前人的方法。
其他文献
我国是制造业世界第一大国,磁性材料的生产企业众多,但是对于磁材产品的质量检测技术相对落后,无法满足精准率与效率的要求。随着机器视觉技术的逐渐成熟,其高效率高精度的优
研究目的缺血性脑卒中(Ischemic stroke)是严重威胁人类身心健康的脑血管疾病,发病率一直高居不下,目前仍处上升趋势。众所周知,缺血性脑卒中除溶栓外无特异有效的预防以及治
目 的:芪蓟肾康颗粒剂是导师张君教授在三十余年的临床治疗儿童肾脏病的经验上结合古经方化裁而来。本实验研究对象为肾小管上皮细胞,运用转化生长因子β 1诱导肾小管上皮细
拥有3D结构的FinFET不仅本身具有较低的阈值斜率,同时,还有可以加强栅极电压控制、减少短通道效应、提高能量效率、降低栅极延迟等一系列的优点,让它成为新一代电子电路中元
本文主要讨论了融合型细分格式的一般框架问题,其主要内容包括四点三重细分框架的构造、融合型细分格式的性质分析以及从Laurent多项式的构造角度给出一类融合型细分格式。第
在异构无线网络中,干扰管理和资源分配问题非常重要。传统资源分配是基于完美信道状态信息设计,但是由于信道随机性、估计误差和链路时延等因素的影响,在实际通信系统中很难获得实际的时变信道参数。因此,在考虑非完美信道状态信息下(即,参数不确定性),如何实现鲁棒资源分配具有十分重要的理论意义和现实价值。本文研究不同场景下的能效优化算法来提高异构无线网络的能量效率,以期达到在降低传输功率开销的同时提高整个系统
*以下内容是根据英文摘要,经我们自己的神经网络机器翻译系统翻译而来。随着全球通信的增加,语言障碍成为一个亟待解决的问题。在目前的情况下,机器翻译是克服障碍的有效方法
作为空间调制(Spatial Modulation,SM)技术的延伸,广义空间调制(Generalized Spatial Modulation,GSM)技术同时激活多根天线传输数据,有效地实现了空间复用技术与SM技术的结合,同时克服了SM技术中随发送天线数增多空间资源浪费严重和发送天线数必须满足2的整数次幂等缺点。与SM系统相比,GSM系统能够在频谱效率与设计成本之间取得较好的折中。因此,GSM
背景:目前大多数对前列腺癌空间分布的研究方式是对前列腺根治性切除术后标本中癌灶分布的研究,而且患者多为经直肠前列腺穿刺活检(transrectal prostate biopsy,TRBx)确诊。
目的分析hfq基因对宋内志贺菌的毒力和耐药的调控作用,通过RNA-Seq技术筛选hfq依赖性sRNA,筛选出与毒力和耐药相关的sRNA,为防治志贺菌感染性疾病提供新的思路和药物靶点。方