Word Embedding方法的研究及应用

来源 :沈阳航空航天大学 | 被引量 : 0次 | 上传用户:chhy6266746
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Word Embedding使用低维稠密向量表示词,通过向量计算反映词间关系,被广泛应用于自然语言处理任务。由于Word Embedding是自然语言处理领域的研究热点,因此促进了研究者对Word Embedding的研究,同时也出现了两方面的问题:(1)如何选择合适的算法生成Word Embedding;(2)决定Word Embedding质量的因素是什么,如何更好的提高Word Embedding质量。针对选择合适算法构建Word Embedding的问题,本文研究并构建了基于矩阵分解的Word Embedding方法,在词语相似性任务中不同窗口下,将构建的模型与Skip-gram模型和GloVe模型进行了比较。结果表明,在构建基于矩阵分解模型的过程中,相似度方法使用余弦相似度优于Hellinger距离,权重方法使用条件概率优于词频,并且发现降维前相似度矩阵质量与Word Embedding质量呈线性相关。针对决定Word Embedding质量的因素是什么,如何更好的提高Word Embedding质量的问题,本文提出了一种基于中心化相似度矩阵的Word Embedding方法。该方法使得相似词的相似程度相对增强,不相似词的相似程度相对减弱。在词语相似性任务中验证了该方法的有效性。结果表明,中心化相似度矩阵的方法能够提升Word Embedding的质量,使其达到甚至超过Skip-gram模型水平。中心化能够提升降维前相似度矩阵质量,进而提高Word Embedding质量。本文实现了基于中心化相似度矩阵的Word Embedding方法系统,设置不同参数对语料进行训练。本文将训练出的Word Embedding应用于中文命名实体识别中,结果表明中心化方法生成的Word Embedding能有效利用上下文环境,从而提升识别效果。
其他文献
对公路土工实验中的含水量测定 ,环刀法、灌砂法测定土的密度及击实试验中的一些常见问题做了探讨 ,给出解决建议
针对目前立体停车位均采用阀控液压动力系统,存在系统效率低、能耗大等问题,将伺服电机直驱定量泵的节能技术应用于立体停车位的液压系统中.采用滑模变结构算法与模糊控制算
小学生对健美操运动中的队形变化比较陌生,学习难度较大。要从根本上先"认识队形变化中的‘美’",否则他们不知道自己到底要做些什么。建立初步的队形变化概念后,才能有效地
群体心理对个体而言,有着十分重要的影响作用。大学生这个年轻而又特殊的群体,由于他们心理敏感、不稳定,极易受到同伴的影响,表现出较为复杂的心态。为此,教育工作者要加以
随着新闻言论自由与民主的深化,新闻的基本构成要素不再是传统简单的要素,新闻故事化也逐渐成为了新闻传播方式当中十分流行的一种模式。从电视的创作阶段,再到实际播放的过
21世纪下半叶以来,围绕着社会发展与传播学理论的关系进行讨论,是学者讨论的热点话题。各种各样关于二者的理论开始兴起,而发展传播理论是关于二者的理论范式。如今世界经济
本文对岭南文化作了界定,并认为岭南文化的主枝是粤系文化、少数民族文化;分枝是客家文化、潮山文化、桂柳文化;新枝是港澳文化、特区文化。
针对我国铜矿山资源中部份难选氧化铜矿贫、细、杂的特点,系统综述了氧化铜矿常用的处理工艺以及近几年氧化铜矿处理新技术的进展。重点介绍了工艺简单、投资成本低、综合利
<正>2017年12月2日,由南京医科大学、浦口区人民政府、健康江苏建设与发展研究院主办的第二届健康江苏建设与发展高峰论坛暨首届浦口卫生与健康创新发展论坛在南京市浦口区顺
连云港是中国首批14个沿海开放城市之一,地理区域位置独特,占据着良好的对外贸易优势。在对外贸易方面,连云港发展势头良好,但随着对外贸易形势日趋严峻,对外贸易的总体压力