论文部分内容阅读
作为自然语言处理的核心问题,语言表示尤其是词的表示获得了诸多成果,其中最令人瞩目的便是词向量(Word Embedding)。词向量能够将训练语料中的单词转变成低维稠密的向量形式,并携带一些语义信息,因而具有广泛的应用前景。对任何模型,有效的评价方式都是至关重要的,然而目前词向量尤其是中文词向量的评价方法并不甚完备:首先,中文词向量的评价测试集较少,且存在可改进的空间;其次,对中文词向量的评测多是任务导向型的,缺乏更为直观和系统的展示与分析。为解决上述问题,本文整合分析了现有的中文词向量相似度测试集资源,针对其在选词和分数上出现的问题加以改进;同时通过分析词向量的特点,采用语言学里语义关系的视角,设计了一种词向量评测方法。具体工作内容如下:第一章是绪论部分,首先介绍了论文的研究背景,点出了研究的主体。然后对现有的词向量模型及模型评测方式的相关研究进行了调查并形成综述,引出了本文研究的思路、意义和方法。在此基础上,介绍了论文的工作内容和组织结构。第二章主要介绍词向量模型的背景知识,并进行了词向量的训练,目的是为第三章和第四章提供理论支持和评测样本。在理论介绍上,首先简述了词的不同表示方式;其次梳理了语言模型及神经网络的基本原理;然后阐述了神经网络语言模型的实现形式;最后介绍了本文实验所采用的词向量训练工具——Word2Vec。在词向量的实践训练上,首先简要介绍了语料的来源和特点以及选择理由;其次详细地演示了实验语料的预处理过程,包括繁简转换、分词和去除停用词等;接着介绍了实验参数、实验环境,并展示了词向量训练的主程序和训练结果;最后对本次训练的多个词向量模型进行了介绍和对比。第三章和第四章是本文的主体部分。第三章的主要内容是对中文相似度人工测试集进行改进。通过理论分析和问卷调查,发现了现有的中文测试集存在着两个主要的不足:首先,人们对相似词的打分会受词义相关度的影响,从而导致相关但不相似的词语的相似度分数偏高;其次,测试集的选词也有着不合理的现象,如测试词数量较少、有些词反复出现等。针对第一个问题,本文提出借助《知网》和《同义词词林》来对分数进行修正。先是介绍了基于《知网》的语义相似度算法和基于《同义词词林》的语义相似度算法,在理论上和实践上验证了这两个算法的有效性,然后提出结合知网算法和词林算法的人工测试集改进方案。针对第二个问题,删除了原有的人工测试集中不合适的词对,并添加了一些新词对。通过以上工作,最终形成了新的相似度中文测试集——Wordsim306。最后对新的测试集进行实践,通过相似度测试展示了本次训练的不同词向量的质量差异。第四章提出了词向量的新的评测方法。首先根据分布假说分析了词向量的特点,然后根据这些特点提出了新的评测视角——站在语言学语义关系的角度,分为单义词、多义词、等义词、同义词、上下位词五个方面,通过最近邻分析来评测词向量的质量。最后将这种评测方式应用于本次训练的词向量模型上,分析了语料规模以及训练方法对词向量的影响。第五部分是结语,对本文所做的工作进行了梳理和总结,并对本研究的改进方向和后续研究工作进行了阐述。本文使用多种途径改进了词向量的评测方法并加以应用,为词向量的质量评估提供了便利的同时丰富了词向量的本体研究成果。这也是对语言学理论应用到实际问题上的一次有益尝试。