基于VCK-vector模型的中文多义词消歧方法研究

来源 :昆明理工大学 | 被引量 : 2次 | 上传用户:lsssml1990
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自计算机被研发问世以来,人类从最开始使用二进制码与计算机进行互动,到使用汇编语言给计算机发送指令,再到之后的使用高级编程语言调用计算机的各项功能,经历了漫长的发展。但是即便使用高级编程语言与计算机进行交互,依然没有达到人类不懈追求的最终目标—“让计算机理解人类的自然语言”。因此,如何让计算机理解人类的自然语言这一研究领域应运而生,即自然语言处理(NLP)。而在NLP中,存在最大的问题就是自然语言并不像高级编程语言或者汇编语言那样,每一条代码或者指令最后都只会转化为一条唯一确定的计算机能够理解的二进制编码。这是由于在自然语言中,无论文章、句子还是词语,都存在多义和歧义的特点造成的。所以如何消除自然语言中的歧义成为了自然语言处理研究中的重点和难点问题。自然语言处理中的歧义问题,从基础上影响和制约着自然语言在各个领域的应用效果和质量,比如在机器翻译领域中的应用、文本处理领域中的应用、信息检索领域和数据分析领域中的应用等。基于以上背景,本文将基于Viterbi算法的词性标注模型、CBOW语言模型及K-Means聚类算法进行组合,构建一种基于词向量的多义词组合消歧模型(VCK-Vector)。通过词性分布对比、语义相关度任务和聚类效果分析等方法对模型进行分析,最后通过现代汉语多义词词典中的多义词对模型进行评价。相较于单纯使用语言模型训练得到的词向量,VCK-vector模型缩小了多义词在上下文中的词义范围,提高了通过上下文对多义词消歧的效果,更加清楚准确的反映了多义词与其相关词语之间的关系。通过验证,VCK-vector模型的消歧精度达到81.7%。相较于基于《同义词词林》的统计消歧方法准确率提高了1.7%,相较于单纯使用CBOW语言模型进行多义词消歧,准确率提高了29.7%。最后,本文对模型进行实验验证,通过实验数据整理、实验结果分析以及与百度AI词向量对比等工作,证明了本文所提出的组合消歧模型在处理大型中文语料库的多义词消歧问题上是有效可行的。
其他文献
水稻是世界上主要的粮食作物之一,世界上有超过50%的人口以大米为主食。株高是水稻重要的农艺性状,与水稻产量和品质密切相关。鉴定、研究和利用更多的株高及粒型性状突变体
目的:探讨生态环境对枳壳活性成分形成和累积的影响。方法:采取高效液相色谱法分析了江西樟树、新干,重庆綦江、奉节、江津,湖南沅江、汉寿益阳,浙江衢州等地区枳壳中12种活
针对一个简单的具有质量偏心的Jeffcott转子系统,建立了该系统发生碰摩时的数学模型,并利用非线性振动谐波平衡法的基本原理,对该数学模型进行了近似周期解的求解.在此基础上
为了解决传统建模方法难以适应复杂系统的结构复杂、非线性等问题,本文采用Agent建模仿真方法对复杂系统进行建模仿真,详细阐述了基于Agent的复杂系统仿真的建模步骤,最后,给
本文利用美国NCEP/NCAR1°×1°全球再分析资料(FNL)、 Micaps降水资料、风云卫星资料、雷达资料、CMA Best Track资料等常规和非常规观测资料,以及中尺度非静力数值模式WRF
介绍了铁路行业固废的特点、性质及其无害化、减量化和资源化的意义,现行固废处理技术分类及其优缺点,总结适合我国国情的固废处理技术类型,基于此结合我国铁路固废特点,提出
1.研究目的:探究一种新的股骨颈空心钉组合内固定方式对于偏垂直型股骨颈骨折治疗的疗效。为垂直型股骨颈骨折的治疗提供一种新的方法和思路。2.研究内容及方法:本研究通过结
在小学的教学和学习的过程中,大部分的数学公式都是通过一步又一步的推导得来的,特别是在求几何图形的面积、立体几何的体积的时候,都是将许多未知的量设为已知,将许多陌生的
领属范畴是一种极为重要的语法、语义范畴。它反映了人们的认识框架,反映了语言的共性,具有语言普遍性。领属范畴影响着语言的语法、语义现象,对世界语言的语法体系有着特殊
电火花沉积技术作为一种金属表面处理技术,在金属表面强化和零件损伤修复领域取得广泛的应用。脉冲电源作为电火花沉积系统中的关键部分,其性能对电火花沉积加工效果具有重大