中文词向量的人工测试集改进及语言学评测

来源 :安徽大学 | 被引量 : 0次 | 上传用户：bear_flysky

【摘要】

：

作为自然语言处理的核心问题,语言表示尤其是词的表示获得了诸多成果,其中最令人瞩目的便是词向量(Word Embedding)。词向量能够将训练语料中的单词转变成低维稠密的向量形式

【作者】

：

王雅婷

【出处】

：

安徽大学

【发表日期】

：

2004年期

【关键词】

：

词向量人工测试集词义关系最近邻分析

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

作为自然语言处理的核心问题,语言表示尤其是词的表示获得了诸多成果,其中最令人瞩目的便是词向量(Word Embedding)。词向量能够将训练语料中的单词转变成低维稠密的向量形式,并携带一些语义信息,因而具有广泛的应用前景。对任何模型,有效的评价方式都是至关重要的,然而目前词向量尤其是中文词向量的评价方法并不甚完备:首先,中文词向量的评价测试集较少,且存在可改进的空间;其次,对中文词向量的评测多是任务导向型的,缺乏更为直观和系统的展示与分析。为解决上述问题,本文整合分析了现有的中文词向量相似度测试集资源,针对其在选词和分数上出现的问题加以改进;同时通过分析词向量的特点,采用语言学里语义关系的视角,设计了一种词向量评测方法。具体工作内容如下:第一章是绪论部分,首先介绍了论文的研究背景,点出了研究的主体。然后对现有的词向量模型及模型评测方式的相关研究进行了调查并形成综述,引出了本文研究的思路、意义和方法。在此基础上,介绍了论文的工作内容和组织结构。第二章主要介绍词向量模型的背景知识,并进行了词向量的训练,目的是为第三章和第四章提供理论支持和评测样本。在理论介绍上,首先简述了词的不同表示方式;其次梳理了语言模型及神经网络的基本原理;然后阐述了神经网络语言模型的实现形式;最后介绍了本文实验所采用的词向量训练工具——Word2Vec。在词向量的实践训练上,首先简要介绍了语料的来源和特点以及选择理由;其次详细地演示了实验语料的预处理过程,包括繁简转换、分词和去除停用词等;接着介绍了实验参数、实验环境,并展示了词向量训练的主程序和训练结果;最后对本次训练的多个词向量模型进行了介绍和对比。第三章和第四章是本文的主体部分。第三章的主要内容是对中文相似度人工测试集进行改进。通过理论分析和问卷调查,发现了现有的中文测试集存在着两个主要的不足:首先,人们对相似词的打分会受词义相关度的影响,从而导致相关但不相似的词语的相似度分数偏高;其次,测试集的选词也有着不合理的现象,如测试词数量较少、有些词反复出现等。针对第一个问题,本文提出借助《知网》和《同义词词林》来对分数进行修正。先是介绍了基于《知网》的语义相似度算法和基于《同义词词林》的语义相似度算法,在理论上和实践上验证了这两个算法的有效性,然后提出结合知网算法和词林算法的人工测试集改进方案。针对第二个问题,删除了原有的人工测试集中不合适的词对,并添加了一些新词对。通过以上工作,最终形成了新的相似度中文测试集——Wordsim306。最后对新的测试集进行实践,通过相似度测试展示了本次训练的不同词向量的质量差异。第四章提出了词向量的新的评测方法。首先根据分布假说分析了词向量的特点,然后根据这些特点提出了新的评测视角——站在语言学语义关系的角度,分为单义词、多义词、等义词、同义词、上下位词五个方面,通过最近邻分析来评测词向量的质量。最后将这种评测方式应用于本次训练的词向量模型上,分析了语料规模以及训练方法对词向量的影响。第五部分是结语,对本文所做的工作进行了梳理和总结,并对本研究的改进方向和后续研究工作进行了阐述。本文使用多种途径改进了词向量的评测方法并加以应用,为词向量的质量评估提供了便利的同时丰富了词向量的本体研究成果。这也是对语言学理论应用到实际问题上的一次有益尝试。

其他文献

中小企业财务管理的问题与对策

我国中小企业已成为国民经济的重要组成部分，对经济发展和社会稳定起着举足轻重的作用。但由于其产出规模小，资本和技术构成较低、宏观经济影响等因素，使得中小企业在财务管理方

期刊

企业财务管理中小企业宏观经济影响组成部分国民经济社会稳定经济发展技术构成市场经济产出

西藏昌都夏通街滑坡成因分析及治理对策

西藏昌都地区夏通街滑坡是在古滑坡体上复活的新滑坡.自2001年以来滑坡变形破坏迹象日趋严重,引起了各方的关注.通过对滑坡的现场调查,了解其形成的地质背景.并对变形情况进

期刊

古滑坡复活滑坡特征成因机理控制因素治理对策西芷昌都old landslide reactivation the character of the l

党史研究发展需要档案资料开放

对中共党史研究来说，最重要的资料是档案资料，而中国档案资料的开放，远远不能满足研究者的需要。民主革命时期的档案资料尚未完全开放，更不用说社会主义时期的档案资料了。而国外

期刊

中共党史研究社会主义时期民主革命时期档案资料国家开放研究者

清江茅坪滑坡白岩危岩体崩塌现场测量及其分析

位于茅坪滑坡体后缘的白岩危岩体于2002年8月24日发生了大规模的崩塌.崩落的块石落在滑坡体上,对滑坡体产生了加载作用,影响了该滑坡体的稳定性.为研究茅坪滑坡体的稳定性,有

期刊

滑坡崩塌白岩危岩体现场测量块体统计参数分析rock falling the measure of rock the analysis of para

四川威远县黄荆沟镇垮岩山危岩成因及防治

四川省威远县黄荆沟镇垮岩山危岩，受恶劣的地质环境条件及地表水入渗的影响，发育形成了最宽达120cm，延伸数十米的宽大裂缝，岩石变形破坏迹象明显，严重威胁到岩下的住户及威煤中学

期刊

危岩体基本特征成因防治措施四川威远县dangerous rock mass basic characteristic formation mechan

信托在股市寒冬中的重要作用

本篇论文主要探讨了,在现在如此不景气的金融市场中,信托产品的优势.而其中,对信托的概念与信托中的两个主要业务产品--证券投资基金与人寿保险信托业务做了较为详细的分析.

期刊

信托业务股市寒冬证券投资基金业务产品信托产品人寿保险金融市场优势论文概念分析

某水电站地下厂房硐室群岩爆预测与防治研究

拟建某水电站的大型地下厂房硐室群处于中等偏高的地应力环境中，在前期的勘探过程中已发现一些与岩爆密切相关的地质现象。因此合理地评价其开挖过程中岩爆发生的可能性、岩爆

期刊

地下硐室岩爆岩芯饼裂预测防治underground caverns rock burst discal core (of borehloe) pred

牛车与飞机

【正】大凡“贤者”、“圣人”总要有点尊仪吧。然而在两千多年前,最先进的交通工具可要算是马车和牛车了。面对奴隶制的衰亡,封建力量的崛起,孔子含恨茹血,驾着牛车,带着虔

期刊

资本主义奴隶制反革命林彪牛车交通工具修正主义集团飞机孔子法家

美、德商业银行制度比较与启示

对美、德商业银行制度的主要方面进行比较研究，包括商业银行的类型和名称、外部组织形式、业务经营制度、存款保险制度、对商业银行的监管制度以及商业银行的发展趋势，并在此基

期刊

美国德国商业银行比较借鉴

新形势下改进研究生思想政治教育工作探究

思想政治教育是研究生教育中的重要环节,随着研究生招生规模扩大,研究生教育呈现出新特点,传统的研究生思想政治教育已不能适应新形势的发展。在新形势下,本文提出了改进研究

期刊

研究生思想政治教育postgrraduates ideological and political education

中文词向量的人工测试集改进及语言学评测

与本文相关的学术论文