词语相似度计算方法研究

来源 :南京师范大学 | 被引量 : 0次 | 上传用户:myweiyong168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理最根本的目的就是让计算机能正确处理人类语言,利用计算机对词语语义进行理解是自然语言处理中最为关键的问题。词义相似度计算作为语义理解的基础性工作已被广泛应用于词义消歧、机器翻译、信息检索、自动应答等各种领域。   目前词义相似度的计算方法主要分为两个大类:一类是通过具有一定层次体系的词典计算词义相似度;另一类是利用词语的上下文获取词义信息,从而计算词义相似度。第一类方法是将词语构建于一个具有层次关系的树形结构体系词典中,通过计算整个体系中两个目标词之间的路径、上下位关系、属性之间的关系来表征目标词之间的词义相似度。这种方法过分依赖词典的设计,需要完备的层次关系,因此受人的主观影响较大。第二种是利用语料中目标词上下文词语作为目标词词义的表示,通过计算两个目标词上下文之间的关系来确定两者之间的相似度。这类方法受上下文影响较大,同时会有数据稀疏问题。   本文针对这两种方法的优缺点,通过词典对上下文词语的概念提升,提高了目标词词义的表示程度,从一定程度上缓解了向量空间模型中的数据稀疏问题,并起到良好的降维效果。同时,通过利用上下文词语获取词义表示信息,从词语的实际使用环境出发,真实反映词语使用时的动态词义。在此基础上,本文还将相对词频比运用于向量空间模型的特征选择中,进一步提高了词语相似度的准确性和合理性。   词义区分是自然语言处理的另一个重要内容,本文在构建词义相似度计算模型的基础上,将该模型运用到词义区分的计算中去。通过词语相似度算法改进K-means聚类方法,并取得很好的效果。   本文通过对目前词义相似度算法领域中理论、技术、应用等方面的研究与实践,提出了综合词典和上下文的新方法,为词义相似度计算的研究做了新的尝试。
其他文献
随着计算机技术的快速发展与普遍应用,人们对软件的质量要求越来越高,如何能够开发出高质量的软件成为从事软件行业技术人员亟待解决的问题。软件测试技术是保证软件质量的重
软件测试在软件的整个开发过程中占有非常重要的地位,是保证软件质量、提高软件可靠性的关键步骤之一。测试自动化是软件测试的一个发展趋势,人们在自动化软件测试方面做了大
研究和开发苹果自动实时分级系统,选出高质量的水果,为国家创取外汇,在我国具有重要的经济价值和广阔的应用前景,目前国内外研究比较多的是农产品苹果的品质检测。在苹果品质
深空探测是人类探索外太空,认知宇宙,近距离观测天体的重要途径。深空探测器从发射到逐渐接近目标,实现对目标天体的交会飞掠、撞击或着陆探测,需要完成远距离、长时间的航天
基于B/S结构的Web应用系统渐渐成为Internet上使用最为广泛的应用开发技术。框架技术是J2EE中重要的软件技术,框架技术能够提高软件的开发效率,同时让各个应用层以松散耦合的
IT行业的快速发展,带动了所有传统行业的发展,包括海运物流。传统的海运物流模式具有信息不对称性,即海运物流需求者与海运物流服务提供者之间存在较大的信息差,双方的沟通的
图像信号在产生、传输过程中,经常会受到各种噪声的干扰,一般来说,现实中的图像通常都是带有噪声的。因此图像处理工作中,在进行图像分割、模式识别等高层次的处理前,选用适
人脸识别是一项方兴未艾的生物特征识别技术,广泛应用于各行各业身份识别的信息技术领域。近十年来,伴随着网络通信和多媒体技术的飞速发展,以及计算机硬件水平的快速提升,作
学位
在社会主义民主政治以及和谐社会发展的过程中,论坛BBS已成为人们交流意见和发表评论的重要平台。为了及时采集BBS舆论信息,掌握BBS热点话题评论内容的观点、态度和情感倾向,监