论文部分内容阅读
摘 要: 在计算机语言学中,词义消歧是自然语言处理的一个重要问题,词义消歧即指根据上下文确定对象语义的过程,在词义、句义、篇章中都会出现这种词语在上下文的语义环境中有不同的含义的现象。本文提出一种基于神经网络的模型实现词义消歧,将词向量输入神经网络,通过分类的方式实现消歧的目的。实验表明,基于神经网络的词义消歧比传统的统计方法消歧具有更高的准确度。
关键词: 词义消歧;自然语言处理;词向量;神经网络
中图分类号: TP391.1 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.02.003
【Abstract】: In computer linguistics, word sense disambiguation is an important issue in natural language processing. Word sense disambiguation refers to the process of determining object semantics according to context. In words, sentences, and chapters, such words appear in context. There are different meanings in the semantic environment. This paper proposes a neural network-based model to achieve word sense disambiguation, input word vector into neural network, and achieve the purpose of disambiguation through classification. Experiments show that neural network disambiguation has higher accuracy than traditional statistical method disambiguation.
【Key words】: Word sense disambiguation; Natural language processing; Word vector; Neural network
0 引言
词义消歧(WSD)即根据多义词所在的上下文环境所确定语义的过程,解决这个问题对于自然语言处理的相关研究和应用具有很重要的意义。机器翻译、语音识别、文本分类和自动摘要等各种自然语言处理系统都涵盖了消除歧义这项工作,为了使这些系统更高效,提高消歧的准确度就显得尤为重要[1]。
多义词消歧方法主要有三种:第一,基于规则方式来进行词义消歧,使用该方法需要一个具有完备性、一致性和对开放领域适应的语料库,该方法存在很多瓶颈问题[2]。第二,基于统计的消歧方法,利用统计学方法自动在训练语料中获取消歧所需的语言学知识,根据训练数据的差异选择又分为有监督机器学习、无监督机器学习和半监督机器[3]學习三种方法,无监督的消歧方法就是运用聚类算法对相似的语义环境或样本示例进行聚类,最典型的就是Lesk算法[4];有监督的消歧方法就是运用标注好的语料库,提取与歧义词有关的语义关系作为特征进行消歧,这种方法具有较好的消歧效果,但是难点在于需要大量人工标注的语料库[5];结合有监督和无监督两种方法的优点推敲出的半监督消歧方法就是根据少量有标注的训练语料,结合未标注语料资源构建消歧分类器[6];第三,基于知识库的消歧方法,该方法计算词汇在词典中的不同义项和语言环境中的语义的共现率,选择出共现率最高的分类作为歧义词在当前语义环境下的语义,但由于现有词典的覆盖范围相对狭窄,不具备扩充能力,因而该方法逐渐受到冷落。
2005年谢芳[7]等人利用BP神经网络模型和统计待消歧词的上下文信息来进行词义消歧。2014年张婷婷[8]提出基于WordNet现存的词义结构以及词义对用的上下文语义关系,词义消歧之后通过语义选择完成消歧工作。2016年张国清[9]进行了有导的利用神经网络进行的词义消歧方法,还介绍了无导的利用Hownet义原同现频率信息进行的消歧方法。2016年张春祥[10]等人将语义信息引入词义消歧模型之中。在汉语句子中,以歧义词汇为中心定位其左右词汇单元,以左右词汇单元的语义类别为基础,使用贝叶斯模型来判断歧义词汇的真实语义。随着神经网络的兴起,神经网络在自然语言处理也被广泛应用[11-13]。Bengio[14]等借助语言模型的思想,使用句子中的词作为神经网络的输入和神经网络的输出,利用语言模型的思想和神经网络反向传播算法,对词向量进行学习,大大缩短了训练时间[15]。结合矩阵分解和上下文窗口,能利用更多的统计信息,在越大的语料上越具有优势,深度学习获得的词向量中包含大量的语义信息[16],这些语义信息能否用于以及如何用于词义消歧领域成为了最新的问题。基于此,本文提出了一种基于神经网络的有导词义消歧方法, 利用神经网络的泛化功能来解决传统有导消歧中的问题,达到比较好的词义消歧效果。为了验证模型的有效性,本文采用人民日报数据集对模型进行实验。实验结果表明,该模型取得了较好的效果。
本文的主要工作如下:(1)提出利用神经网络应用于中文词义消歧,该方法可提高消歧的准确度;(2)利用词向量的特点,结合神经网络,将消歧过程转变为简单的分类过程;(3)充分利用《同义词词林》的词典结构,进行编码处理做为神经网络的分类输出。
本文组织结构:第一节介绍了词义消歧的定义及其相关研究进度和成果;第二节介绍了神经网络的模型;第三节介绍了词义消歧的模型及消歧过程;第四节通过调整窗口参数做不同实验获取最佳参数,达到最佳消歧效果;最后一节是本文结论。 1 神经网络模型
从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,该神经元有两个部分,一部份为状态值,另一个部分为激活值。一个神经元有一个或多个输入,每一个输入对应一个权值w,神经元内部将输入的值与对应权值相乘相加后,再将结果与偏置值相加,最终将结果放入激活函数中,由激活函数给出最后的输出,“神经元”如下图1所示。
2 基于神经网络的词义消歧算法
2.1 方法描述
本文提出的基于神经网络的词义消歧方法主要思想是,将多义词所在的语义环境通过截取一定的长度转变为词向量输入神经网络,通过神经网络反复迭代计算,调整权值和偏置值将该多义词进行准确分类,找出最合适的义项进行输出。词义消歧步骤如下:①数据预处理;②多义词所在的上下文环境及其义项的向量表示;③搭建神经网络并训练网络;④进行测试得出结论。
2.2 文档预处理
首先对需要进行消歧的文档进行分词,并将待消歧的词语做标记,标记为《同义词词林》中的小类代码,然后查找待消歧文本中的多义词,并將多义词整理统计分为一个义项、两个义项及多个义项的词典。由于本文使用的多义词标记是《同义词词林》中的小类代码,需要将这些小类代码用One-Hot编码方式表示为具体向量,最后将词典的每个义项转换为小类代码的具体向量形式。
2.3 神经网络的输入
由于多义词的含义取决于多义词所在的上下文环境,所以上下文显得尤为重要,上下文的确定是在歧义词前后一定大小的窗口内进行截取,窗口过大会引入更多噪声,过小又会丢失信息会降低消歧的准确度,通过阅读文献的累计,本文取窗口大小为5,将包含该歧义词在内的9个词作为输入。
将语料进行预处理后,需要把分词和截取以后的句子表示为计算机能够计算的形式,常用的表示模型分别是词袋模型和词向量。词袋模型直接将每一个词语或者符号统一放置在一个集合,然后按照计数的方式对出现的次数进行统计,TF-IDF是词袋模型的一个经典用法;而词向量是将字、词语转换为向量矩阵的计算模型,常用的有One-Hot(独热)编码方式。自Google团队的Word2vec的提出以及普及,Word2vec方式能很好地克服独热编码方式的两个缺点。该方法将一个词映射到一个实数向量空间中,这种方法使得词义之间的相似性可以用空间距离表示,两个词向量的空间距离越近,表示两个词的相似性越高。2013年开放了Word2vec可以训练词向量的工具。Word2vec以大量文本训练语料作为输入,通过训练模型快速有效地将一个词语表达成向量形式。
本文将该歧义词所在的语句通过截取后利用Word2Vec进行词向量训练,获得9*60维的词向量作为神经网络的输入。基于神经网络的词义消歧模型主要有四层组成。基于神经网络的词义消歧模型如图2所示。
(1)将文本分词后,用词向量作为神经网络的输入;
(2)利用神经网络对词向量的特征进行提取;
(3)最后利用softmax分类器进行多义词分类,输出小类代码所指向的向量形式。
2.4 神经网络的输出
经过神经网络计算后,得到待消歧词Wi 对应的输出向量,而输出向量是由同义词词林的小类编码通过One-hot编码得到的向量。例如,“我国人民特别爱花,所以牡丹自古有上市的传统。”中“花”字是多义词,它具有“花儿”和“积攒”这两个义项,
3 实验
3.1 数据集
为验证本文模型的有效性,采取了在人民日报作为数据集,且此数据集是不平衡数据集。本次实验从中挑选了常用的12个歧义词,分别为“提高”,“系统”,“用”,“发表”,“队伍”,“根本”,“左右”,“行动”,“花”,“保证”,“水”,“多少”。该预料包括800条句子。数据集分为两部分,将百分之三十作为测试集,百分之七十作为训练集:(1)训练数据集;(2)测试集数据集。
使用神经网络进行词义消歧分为两个阶段:
(1)训练学习阶段:向神经网络输入数据,提供一组输入与输出对应的数据,神经网络通过反复迭代计算,不断的调整权值和偏置值,直到满足给定的期望输出值,结束参数值的调整,或者已经达到循环的次数而结束迭代计算,可能没有调整到合适的参数。代价函数如式(4)所示:
3.2 实验参数设置
本文的实验硬件环境的主要参数CPU:Intel(R) Xeon(R) X5690 @3.47 GHz,CPU内存(RAM)为32 GB,GPU:NVIDIA 2080Ti 11G操作系统为openSUSE 15.0。本文实验软件环境如表1所示。
对于神经网络来说参数的设置十分重要,它会影响神经网络的性能。本文中主要参数设置为:神经网络由四层构成,神经网络输入层的维度为所需消歧的句子数目Len乘以以窗口大小为W的维度乘以词向量维度,输出层为小类编码的类别数,中间的隐藏层可以调整,权值和偏置值初始化值为0.1,则神经网络输出的维度为Len*1426,隐藏层的激活函数使用relue函数,输出层的激活函数使用Softmax函数进行实验,其他参数设置如表2所示。
3.3 实验结果
本文设置了五组实验进行中文消歧,第一、二组实验设置窗口大小为3、4,将分词后长度为5、7的词向量作为神经网络的输入,第三、四组实验设置窗口大小为5、6,将分词后长度为9、11的词向量作为输入,第五组实验设置窗口大小为7,将长度为13的词向量作为输入,而每一组又分别用12个不同的歧义词训练模型,由于数据集的数量有限,本实验采取交叉验证的方式进行实验,根据五组不同的窗口参数设置,对系统的正确率影响如图4所示。从图3.1可以看出,当窗口大小为3、4、7时,系统的正确率普遍偏低,当窗口大小为6时,系统的正确率最大为94.20%,最小为72.86%,系统稳定性较差,但是当窗口大小为5时,系统的稳定性好,正确率较高,因此本文选取窗口大小为5进行实验。 当窗口大小为5时,使用挑选的12个歧义词进行实验,实验结果如表3所示。
表4中给出了BP神经网络模型、动态规则方法、义原同现频率方法、半监督[10]方法和本文的模型在测试集上得到的结果,具体评价指标包括正确率的最大值、最小值和平均值。
通过表3和表4可以看出预测的结果平均正确率为86.55%与之前的研究者做的消歧正确率高,文献[7]中利用BP神经网络模型和统计待消歧词的上下文信息来进行词义消歧正确率平均正确率为84.54%,最高达到88.9%,但最低只有72.72%说明系统不稳定;在文献[8]中使用动态规则法最高正确率达到83.9%;在文献[9]中使用的神经网络词义消歧正确率达到82.5%,本文正确率达到86.55%;利用义原同现频率进行多义词消歧正确率只有75%;在文献[10]中使用13个不同的歧义词测试最高正确率达到85.0%,最低达到27.8%。通过此次实验证明本文模型比文献[7]的模型提高正确率2.01个百分点,比文献[8]高16.05个百分点,比文献[10]高1.55个百分点,说明本文使用神經网络进行消歧正确率还是比其他的消歧方式高,因此利用神经网络在词义消歧方面具有很好的前景。
4 结论
本文提出了一种基于神经网络的词义消歧模型,利用word2vec模型训练的词向量作为输入,结合神经网络模型对多义词进行词义消歧。实验表明,该方法比基于知识的词义消歧算法有更高的正确率。同时,利用词向量能够更好的保存文本序列的上下文信息。由于实验数据的规模有限,若要提高消歧的效果,还需要大规模实验数据,还可以对神经网络进行调整,这些问题将在下一步研究中解决。
参考文献
MincaA, Diaconescu S. An approach to knowledgebased word sense disambiguation using semantic trees built on a WordNet lexicon network[C]// The 6 th Conference on Speech Technology and Human_Computer Dialogue, 2011: 1-6.
Suvitha D S, Janarthanan R.Enriched semantic information Processing using WordNet based on semantic relation network[C]// Internation Conference on Computing, Electronics and Electrical Technologies, 2012: 846-851.
孙鹏, 冯翔. 一种基于集成学习的健壮性半监督SVM[J]. 软件, 2018, 39(11): 182-186.
王永生. 基于改进的Lesk算法的词义排歧算法[J]. 微型机与应用, 2013(24): 69-71.
蒋振超, 李丽双, 黄德根. 基于词语关系的词向量模型[J]. 中文信息学报, 2017, 31(3): 25-31.
LE A C, SHIMAZU A, HUYNH V N. Semi-supervised Learning Integrated with Classifier Combination for Word Sense Disambiguation[J]. Computer Speech & Language, 2008, 22(4): 330-345.
谢芳, 胡泉. 基于BP神经网络的词义消歧模型[J]. 计算机工程与应用, 2006, 12: 187-189.
张婷婷. 基于语义规则的词义消歧方法的研究[J]. 数码世界, 2018: 131-132.
张国清. 两种词义消歧方法分析与比较[J]. 信息与电脑, 2017(19): 47-52.
张春祥, 徐志峰, 高雪瑶, 等. 一种半监督的汉语词义消歧方法[J]. 西南交通大学学报.
张晓明, 尹鸿峰. 基于卷积神经网络和语义信息的场景分类[J]. 软件, 2018, 39(01): 29-34.
张玉环, 钱江. 基于两种LSTM结构的文本情感分析[J]. 软件, 2018, 39(1): 116-120.
刘腾飞, 于双飞, 张洪涛, 等. 基于循环和卷积神经网络的文本分类研究[J]. 软件, 2018, 39(01): 64-69.
BengioY, DucharmeR, VicebtP, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research. 2003, 3: 1137-1155.
王红斌, 郜洪奎. 基于word2vec和依存分析的事件识别研究[J]. 软件, 2017, 38(6): 62-65.
Mikolov Tomas, Yih Wen-tau, Zweig Geoffrey. Linguistic regularities in continuous space word representations[C]. The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 2013: 746-75.
关键词: 词义消歧;自然语言处理;词向量;神经网络
中图分类号: TP391.1 文献标识码: A DOI:10.3969/j.issn.1003-6970.2019.02.003
【Abstract】: In computer linguistics, word sense disambiguation is an important issue in natural language processing. Word sense disambiguation refers to the process of determining object semantics according to context. In words, sentences, and chapters, such words appear in context. There are different meanings in the semantic environment. This paper proposes a neural network-based model to achieve word sense disambiguation, input word vector into neural network, and achieve the purpose of disambiguation through classification. Experiments show that neural network disambiguation has higher accuracy than traditional statistical method disambiguation.
【Key words】: Word sense disambiguation; Natural language processing; Word vector; Neural network
0 引言
词义消歧(WSD)即根据多义词所在的上下文环境所确定语义的过程,解决这个问题对于自然语言处理的相关研究和应用具有很重要的意义。机器翻译、语音识别、文本分类和自动摘要等各种自然语言处理系统都涵盖了消除歧义这项工作,为了使这些系统更高效,提高消歧的准确度就显得尤为重要[1]。
多义词消歧方法主要有三种:第一,基于规则方式来进行词义消歧,使用该方法需要一个具有完备性、一致性和对开放领域适应的语料库,该方法存在很多瓶颈问题[2]。第二,基于统计的消歧方法,利用统计学方法自动在训练语料中获取消歧所需的语言学知识,根据训练数据的差异选择又分为有监督机器学习、无监督机器学习和半监督机器[3]學习三种方法,无监督的消歧方法就是运用聚类算法对相似的语义环境或样本示例进行聚类,最典型的就是Lesk算法[4];有监督的消歧方法就是运用标注好的语料库,提取与歧义词有关的语义关系作为特征进行消歧,这种方法具有较好的消歧效果,但是难点在于需要大量人工标注的语料库[5];结合有监督和无监督两种方法的优点推敲出的半监督消歧方法就是根据少量有标注的训练语料,结合未标注语料资源构建消歧分类器[6];第三,基于知识库的消歧方法,该方法计算词汇在词典中的不同义项和语言环境中的语义的共现率,选择出共现率最高的分类作为歧义词在当前语义环境下的语义,但由于现有词典的覆盖范围相对狭窄,不具备扩充能力,因而该方法逐渐受到冷落。
2005年谢芳[7]等人利用BP神经网络模型和统计待消歧词的上下文信息来进行词义消歧。2014年张婷婷[8]提出基于WordNet现存的词义结构以及词义对用的上下文语义关系,词义消歧之后通过语义选择完成消歧工作。2016年张国清[9]进行了有导的利用神经网络进行的词义消歧方法,还介绍了无导的利用Hownet义原同现频率信息进行的消歧方法。2016年张春祥[10]等人将语义信息引入词义消歧模型之中。在汉语句子中,以歧义词汇为中心定位其左右词汇单元,以左右词汇单元的语义类别为基础,使用贝叶斯模型来判断歧义词汇的真实语义。随着神经网络的兴起,神经网络在自然语言处理也被广泛应用[11-13]。Bengio[14]等借助语言模型的思想,使用句子中的词作为神经网络的输入和神经网络的输出,利用语言模型的思想和神经网络反向传播算法,对词向量进行学习,大大缩短了训练时间[15]。结合矩阵分解和上下文窗口,能利用更多的统计信息,在越大的语料上越具有优势,深度学习获得的词向量中包含大量的语义信息[16],这些语义信息能否用于以及如何用于词义消歧领域成为了最新的问题。基于此,本文提出了一种基于神经网络的有导词义消歧方法, 利用神经网络的泛化功能来解决传统有导消歧中的问题,达到比较好的词义消歧效果。为了验证模型的有效性,本文采用人民日报数据集对模型进行实验。实验结果表明,该模型取得了较好的效果。
本文的主要工作如下:(1)提出利用神经网络应用于中文词义消歧,该方法可提高消歧的准确度;(2)利用词向量的特点,结合神经网络,将消歧过程转变为简单的分类过程;(3)充分利用《同义词词林》的词典结构,进行编码处理做为神经网络的分类输出。
本文组织结构:第一节介绍了词义消歧的定义及其相关研究进度和成果;第二节介绍了神经网络的模型;第三节介绍了词义消歧的模型及消歧过程;第四节通过调整窗口参数做不同实验获取最佳参数,达到最佳消歧效果;最后一节是本文结论。 1 神经网络模型
从最简单的神经网络讲起,这个神经网络仅由一个“神经元”构成,该神经元有两个部分,一部份为状态值,另一个部分为激活值。一个神经元有一个或多个输入,每一个输入对应一个权值w,神经元内部将输入的值与对应权值相乘相加后,再将结果与偏置值相加,最终将结果放入激活函数中,由激活函数给出最后的输出,“神经元”如下图1所示。
2 基于神经网络的词义消歧算法
2.1 方法描述
本文提出的基于神经网络的词义消歧方法主要思想是,将多义词所在的语义环境通过截取一定的长度转变为词向量输入神经网络,通过神经网络反复迭代计算,调整权值和偏置值将该多义词进行准确分类,找出最合适的义项进行输出。词义消歧步骤如下:①数据预处理;②多义词所在的上下文环境及其义项的向量表示;③搭建神经网络并训练网络;④进行测试得出结论。
2.2 文档预处理
首先对需要进行消歧的文档进行分词,并将待消歧的词语做标记,标记为《同义词词林》中的小类代码,然后查找待消歧文本中的多义词,并將多义词整理统计分为一个义项、两个义项及多个义项的词典。由于本文使用的多义词标记是《同义词词林》中的小类代码,需要将这些小类代码用One-Hot编码方式表示为具体向量,最后将词典的每个义项转换为小类代码的具体向量形式。
2.3 神经网络的输入
由于多义词的含义取决于多义词所在的上下文环境,所以上下文显得尤为重要,上下文的确定是在歧义词前后一定大小的窗口内进行截取,窗口过大会引入更多噪声,过小又会丢失信息会降低消歧的准确度,通过阅读文献的累计,本文取窗口大小为5,将包含该歧义词在内的9个词作为输入。
将语料进行预处理后,需要把分词和截取以后的句子表示为计算机能够计算的形式,常用的表示模型分别是词袋模型和词向量。词袋模型直接将每一个词语或者符号统一放置在一个集合,然后按照计数的方式对出现的次数进行统计,TF-IDF是词袋模型的一个经典用法;而词向量是将字、词语转换为向量矩阵的计算模型,常用的有One-Hot(独热)编码方式。自Google团队的Word2vec的提出以及普及,Word2vec方式能很好地克服独热编码方式的两个缺点。该方法将一个词映射到一个实数向量空间中,这种方法使得词义之间的相似性可以用空间距离表示,两个词向量的空间距离越近,表示两个词的相似性越高。2013年开放了Word2vec可以训练词向量的工具。Word2vec以大量文本训练语料作为输入,通过训练模型快速有效地将一个词语表达成向量形式。
本文将该歧义词所在的语句通过截取后利用Word2Vec进行词向量训练,获得9*60维的词向量作为神经网络的输入。基于神经网络的词义消歧模型主要有四层组成。基于神经网络的词义消歧模型如图2所示。
(1)将文本分词后,用词向量作为神经网络的输入;
(2)利用神经网络对词向量的特征进行提取;
(3)最后利用softmax分类器进行多义词分类,输出小类代码所指向的向量形式。
2.4 神经网络的输出
经过神经网络计算后,得到待消歧词Wi 对应的输出向量,而输出向量是由同义词词林的小类编码通过One-hot编码得到的向量。例如,“我国人民特别爱花,所以牡丹自古有上市的传统。”中“花”字是多义词,它具有“花儿”和“积攒”这两个义项,
3 实验
3.1 数据集
为验证本文模型的有效性,采取了在人民日报作为数据集,且此数据集是不平衡数据集。本次实验从中挑选了常用的12个歧义词,分别为“提高”,“系统”,“用”,“发表”,“队伍”,“根本”,“左右”,“行动”,“花”,“保证”,“水”,“多少”。该预料包括800条句子。数据集分为两部分,将百分之三十作为测试集,百分之七十作为训练集:(1)训练数据集;(2)测试集数据集。
使用神经网络进行词义消歧分为两个阶段:
(1)训练学习阶段:向神经网络输入数据,提供一组输入与输出对应的数据,神经网络通过反复迭代计算,不断的调整权值和偏置值,直到满足给定的期望输出值,结束参数值的调整,或者已经达到循环的次数而结束迭代计算,可能没有调整到合适的参数。代价函数如式(4)所示:
3.2 实验参数设置
本文的实验硬件环境的主要参数CPU:Intel(R) Xeon(R) X5690 @3.47 GHz,CPU内存(RAM)为32 GB,GPU:NVIDIA 2080Ti 11G操作系统为openSUSE 15.0。本文实验软件环境如表1所示。
对于神经网络来说参数的设置十分重要,它会影响神经网络的性能。本文中主要参数设置为:神经网络由四层构成,神经网络输入层的维度为所需消歧的句子数目Len乘以以窗口大小为W的维度乘以词向量维度,输出层为小类编码的类别数,中间的隐藏层可以调整,权值和偏置值初始化值为0.1,则神经网络输出的维度为Len*1426,隐藏层的激活函数使用relue函数,输出层的激活函数使用Softmax函数进行实验,其他参数设置如表2所示。
3.3 实验结果
本文设置了五组实验进行中文消歧,第一、二组实验设置窗口大小为3、4,将分词后长度为5、7的词向量作为神经网络的输入,第三、四组实验设置窗口大小为5、6,将分词后长度为9、11的词向量作为输入,第五组实验设置窗口大小为7,将长度为13的词向量作为输入,而每一组又分别用12个不同的歧义词训练模型,由于数据集的数量有限,本实验采取交叉验证的方式进行实验,根据五组不同的窗口参数设置,对系统的正确率影响如图4所示。从图3.1可以看出,当窗口大小为3、4、7时,系统的正确率普遍偏低,当窗口大小为6时,系统的正确率最大为94.20%,最小为72.86%,系统稳定性较差,但是当窗口大小为5时,系统的稳定性好,正确率较高,因此本文选取窗口大小为5进行实验。 当窗口大小为5时,使用挑选的12个歧义词进行实验,实验结果如表3所示。
表4中给出了BP神经网络模型、动态规则方法、义原同现频率方法、半监督[10]方法和本文的模型在测试集上得到的结果,具体评价指标包括正确率的最大值、最小值和平均值。
通过表3和表4可以看出预测的结果平均正确率为86.55%与之前的研究者做的消歧正确率高,文献[7]中利用BP神经网络模型和统计待消歧词的上下文信息来进行词义消歧正确率平均正确率为84.54%,最高达到88.9%,但最低只有72.72%说明系统不稳定;在文献[8]中使用动态规则法最高正确率达到83.9%;在文献[9]中使用的神经网络词义消歧正确率达到82.5%,本文正确率达到86.55%;利用义原同现频率进行多义词消歧正确率只有75%;在文献[10]中使用13个不同的歧义词测试最高正确率达到85.0%,最低达到27.8%。通过此次实验证明本文模型比文献[7]的模型提高正确率2.01个百分点,比文献[8]高16.05个百分点,比文献[10]高1.55个百分点,说明本文使用神經网络进行消歧正确率还是比其他的消歧方式高,因此利用神经网络在词义消歧方面具有很好的前景。
4 结论
本文提出了一种基于神经网络的词义消歧模型,利用word2vec模型训练的词向量作为输入,结合神经网络模型对多义词进行词义消歧。实验表明,该方法比基于知识的词义消歧算法有更高的正确率。同时,利用词向量能够更好的保存文本序列的上下文信息。由于实验数据的规模有限,若要提高消歧的效果,还需要大规模实验数据,还可以对神经网络进行调整,这些问题将在下一步研究中解决。
参考文献
MincaA, Diaconescu S. An approach to knowledgebased word sense disambiguation using semantic trees built on a WordNet lexicon network[C]// The 6 th Conference on Speech Technology and Human_Computer Dialogue, 2011: 1-6.
Suvitha D S, Janarthanan R.Enriched semantic information Processing using WordNet based on semantic relation network[C]// Internation Conference on Computing, Electronics and Electrical Technologies, 2012: 846-851.
孙鹏, 冯翔. 一种基于集成学习的健壮性半监督SVM[J]. 软件, 2018, 39(11): 182-186.
王永生. 基于改进的Lesk算法的词义排歧算法[J]. 微型机与应用, 2013(24): 69-71.
蒋振超, 李丽双, 黄德根. 基于词语关系的词向量模型[J]. 中文信息学报, 2017, 31(3): 25-31.
LE A C, SHIMAZU A, HUYNH V N. Semi-supervised Learning Integrated with Classifier Combination for Word Sense Disambiguation[J]. Computer Speech & Language, 2008, 22(4): 330-345.
谢芳, 胡泉. 基于BP神经网络的词义消歧模型[J]. 计算机工程与应用, 2006, 12: 187-189.
张婷婷. 基于语义规则的词义消歧方法的研究[J]. 数码世界, 2018: 131-132.
张国清. 两种词义消歧方法分析与比较[J]. 信息与电脑, 2017(19): 47-52.
张春祥, 徐志峰, 高雪瑶, 等. 一种半监督的汉语词义消歧方法[J]. 西南交通大学学报.
张晓明, 尹鸿峰. 基于卷积神经网络和语义信息的场景分类[J]. 软件, 2018, 39(01): 29-34.
张玉环, 钱江. 基于两种LSTM结构的文本情感分析[J]. 软件, 2018, 39(1): 116-120.
刘腾飞, 于双飞, 张洪涛, 等. 基于循环和卷积神经网络的文本分类研究[J]. 软件, 2018, 39(01): 64-69.
BengioY, DucharmeR, VicebtP, et al. A Neural Probabilistic Language Model[J]. The Journal of Machine Learning Research. 2003, 3: 1137-1155.
王红斌, 郜洪奎. 基于word2vec和依存分析的事件识别研究[J]. 软件, 2017, 38(6): 62-65.
Mikolov Tomas, Yih Wen-tau, Zweig Geoffrey. Linguistic regularities in continuous space word representations[C]. The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL-HLT), 2013: 746-75.