基于词向量的词汇语义关系预测研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:lingling111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理(Natural Language Processing)是计算机科学技术研究方向与人工智能(AI)研究方向中极为重要一部分。人类语言中的词汇、句式以及文章含义存在着许多丰富的关系。随着多年的深入研究,大量的研究人员转入词汇间语义关系的研究领域。其中Mikolov等人提出了word2Vec这种词向量的训练方式,给研究人员开辟了新的研究思路。Mikolov的研究,在无监督环境下,词向量的简单矢量减法蕴含着不同的词汇语义关系,如向量减法6)4)9)2)-8)(69)≈0)0)9)-8)(69)。他指出这种矢量减法,只能回答40%的SemEval-2012 Task 2的问题。基于这种残差关系向量研究并取得成果的领域主要集中时态、语态以及上下位这些简单语义关系。但是整体部分关系、事件关系等复杂语义关系还需要进一步研究。结合上述存在的问题,本文基于词向量技术(word2Vec和GloVe)提出三种预测模型来挖掘整体部分关系、事件关系等复杂关系,并验证时态、语态关系等关系的适用性。本文采用维基百科英文全语料来训练词向量,以确保数据没有任何关系的侧重。根据对训练集关系残差向量的分类聚类顺序,提出了聚类优先和分类优先模型。聚类优先是先无监督的对关系向量聚类,再通过标签特征(有监督)转化关系向量,最后通过分类算法预测关系;分类优先是先将关系向量按标签分类,再使用聚类算法以及负采样模型学习通用的关系向量,最后通过分类算法预测关系。在这两个模型下验证的词汇关系种类共9种,精确率平均超过95%。另外对于具有传递性的整体部分关系,本文通过谱聚类优化得到6种整体部分关系引导关系向量。本文采用分段预测法以及负采样模型进行自动的挖掘整体部分关系的候选词。若候选词不足,本文提出了增加网络数据补充候选词方法。最后使用预测模型过滤候选词。整个过程是在开放语料下进行的,使用单模型的精确率可以达到84%,多模型优化策略,精确率提高到90%。
其他文献
略论女性的自爱意识李桂梅人的自爱,包含两方面的含义:一是自我保存,二是对自我人格尊严的维护。这是因为每一个人来到这个世界上都具有双重身份,作为一个有感觉的个体存在物降生
铁路TDCS/CTC运输调度指挥系统是覆盖全路的现代化铁路运输调度指挥和控制系统。传统架构运输调度指挥中心系统在大型铁路局应用中,一旦数据库服务器、核心路由器、核心交换
序言子曰:“听讼,吾犹人也,必也使无讼乎!”——语出《论语·颜渊》当西方法律观念在中国传播,一套普遍合式的现代法律机制在中国建立,当中国的现代化法治进程由变法阶段深入
不同的增塑剂产品对酸值指标要求不同,分析了间歇法汽提工艺存在的返酸问题。改变中和水洗工序等操作虽然在一定程度上可以抑制返酸,但最有效的抑制返酸的方法是间歇生产时汽
<正>伴随着中国人口老龄化的不断加深,对老年人的作用和价值的关注日益突出,"老有所为"的概念与政策也在不断发展。当前,西方发达国家普遍面临着经济增长与社会福利的双重压
<正> 游戏出版管理工作通气会在京沪召开为进一步规范游戏出版秩序,促进民族游戏出版产业健康有序地发展,近日,新闻出版总署音像电子和网络出版管理司分别在北京、上海召开了
(六) 4天以后,幺末回来了,脸上没有喜色也没有哀愁,只有倦意。乃马问:“如何?”他答:“还好。”别人问他,他也总是“还好”。到了瓜地里,溜溜问她,他才说:“每公斤0.4元,跟在
期刊
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的:研究白花蛇舌草提取物对卵巢癌大鼠的治疗效果及对大鼠雌二醇(E2)、孕酮(P)和促黄体生成素(LH)水平的影响。方法:选取健康SD大鼠30只,分为模型组、实验组和空白组,并对
2020年热稳定剂发展论坛于2020年7月28日~30日在山东曲阜召开,来自全国各地的热稳定剂企业、上下游企业、大专院校、科研院所的252位代表参加了会议。中国塑料加工工业协会朱