基于多语义的WordNet词语相似度与相关度测量研究

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:xiaopirate
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的研究和发展,词语相似度和相关度的测量在多个领域有着越来越大的应用价值,如在:自然语言处理、人机交互、信息检索、语义消岐、生物医学等领域。如何更准确地判断词语相似度和相关度,是所需要研究的核心问题。近年来,随着对语义网愈来愈多的研究,本体这个概念也应运而生。本体是对某一特定论域中的概念、关系和实例等元素的形式化描述。结构化的领域本体常被用于衡量概念之间的相似度和相关度,其中WordNet这一语义词典被广泛应用于词语相似度和相关度的测量。现有的测量方法,如基于边的方法、基于信息内容的方法,大多是仅基于WordNet中完备的“is-a”关系(上下位关系)。但这种方式容易引起语义的缺失,还依赖于语料库的可靠性。虽然WordNet是由多个领域的专业学者设计编制的语义词典,但毕竟是由人工编制,难免存在一定的语义误区,若在计算中仅仅考虑单一的语义关系,会在一定程度上限制算法的可靠性。本文提出了一种基于“is-a”关系的多语义互补模型来进行词语相似度和相关度的测量,本文认为,单一的“is-a”关系虽然完备,但是存在语义误区,需要综合利用WordNet提供的多种不完备语义关系来解决,并根据各种关系所做出贡献的最大值来判断目标词对之间的词语相似度或相关度。文本测量方法主要有以下几个创新点:(1)从WordNet中分析挖掘出了可用于词语相似度和相关度测量的多种语义关系,并在此基础上提出了基于WordNet的多语义互补的词语相似度和相关度计算模型。在该模型中,各语义关系的贡献不是通过简单的加权求和,而是通过取最大贡献,使得每种语义关系都能充分发挥作用;(2)提出最近公共下位的概念,作为特例补充目标概念的共性,缩短两个概念之间的语义距离,增强它们的语义联系;(3)将文本提出的词语相似度和相关度计算模型应用于形容词和副词的词语相似度和相关度计算上,利用不完备的语义关系为形容词和副词构建起语义路径,帮助解决了形容词和副词在WordNet中因为没有完备的上下位语义关系,一直以来难以计算的问题。为验证本文所提出的计算模型的有效性,本文在广泛公认的数据集MC30,RG65,AG203,SimLex999以及TOEFL上与人工标注做了多角度的实验对比,通过数据集的测试证明,本文提出的计算模型可以充分发挥各种语义关系的作用,获得了比单一语义关系计算模型更好的实验结果,即使在大型数据集上,也有很好的表现。另外,利用多种语义关系提供的语义关联,为形容词和副词相似度与相关度的计算难题提供了解决方案。根据实验结果评估,本文提出的方法在优化词语相似度和相关度的准确率上有较大的贡献,突破了词语相似度和相关度测量研究的提升瓶颈。
其他文献
随着经济的不断发展以及市场竞争日益激烈,企业作为市场中的经营主体,在谋求发展的同时一定会面临大大小小的风险,而对于葡萄酒制造业的烟台张裕公司更是如此。国内整体经济下行和国际中美贸易博弈使得张裕公司在其生产经营过程中会出现许多意想不到的机遇和挑战,张裕公司应该防范各种潜在的风险,而财务风险是其中重要的一环,及时的发现财务风险问题并采取有效管控措施就显得极为重要。本文以财务风险分析的相关理论为基础,将
信任,是影响员工态度与行为的重要心理因素,一直以来为企业人力资源管理所重视,为学术界所关注。员工对领导信任是信任研究的一个重要组成部分,深入探讨员工对领导信任的结构
目前,以石英为基质的长周期光纤光栅广泛应用于光纤通信与传感领域。但是,石英光纤的透过范围一般小于2μm,石英长周期光纤光栅无法在2μm以上的中红外波段发挥作用。由于中红外波段的光源和光纤器件在生物传感,环境监测等领域具有重要的应用价值,因此研究适用于中红外波段的光纤器件具有重要意义。硫系玻璃是一种新颖的红外光学材料,具有优良的红外光学特性。本文以硫系玻璃为基质材料,开展了硫系长周期光纤光栅的结构设
能源转换与存储是应对新时代能源危机的重要方法之一,而设计高性能的电催化剂和能源存储材料是该方法的重中之重。近年来,围绕着过渡金属磷化物的研究热潮逐渐兴起,为能源领
经济飞速发展的同时,我国自然资源日渐耗竭,环境污染一步步加剧。企业一味追求利润最大化以及政府将国内生产总值作为考核绩效的唯一标准,致使经济发展、自然资源与生态环境发展间的不平衡。党的十八届三中全会提议要对自然资源资产负债表进行编制,一方面起到维持生态环境平衡与经济可持续发展的作用,另一方面则为了建立生态环境损害责任终身追究制度,对政府领导干部自然资源资产进行离任审计,因此对自然资源资产负债表进行探
清洁充足的进气是发动机正常工作的前提。矿用车辆工作在高灰尘浓度的环境中,确保发动机进气的清洁性尤为重要。采用带有旋流管式粗滤器的复合式空气滤清器可以基本解决矿用车辆发动机空气滤清问题。但目前采用的旋流式滤清器的过滤面积一般不能变化,从而造成滤清器高速时进气阻力大、低速时滤清效果差。针对这一问题,本文提出采用采用模块化可变流通面积、双进气口的旋流管滤清器的改进方案并进行了相关研究。主要研究工作有:(
M管道输送介质高含H2S、CO2,管道存在腐蚀风险,采用连续加注缓蚀剂作为防腐工艺之一。目前,对管道内部缓蚀剂液膜分布情况以及随流动情况变化规律的研究非常少,无法充分发挥
吕姆克山位于月球风暴洋中央,是我国探月三期工程“嫦娥五号”月面采样任务的候选着陆区。该区域的数字高程模型、光照和通讯条件分析可以支持“嫦娥五号”月面采样任务的决策与实施。本论文以中国“嫦娥一号”上搭载的激光测高仪LAM、日本SELENE上搭载的激光测高仪LALT和美国LRO卫星上搭载的激光测高仪LOLA获取的测高数据为基础,提出了一套联合处理多源测高数据的处理流程,使用多源测高数据构建了吕姆克区域
纳米氧化铈作为镧系金属氧化物的一种,被广泛用于燃料催化剂、太阳能电池、固体燃料电池、紫外线吸收剂、汽车催化转化器、气体传感器、氧气泵、冶金、玻璃以及陶瓷等。由于
符号学是研究符号指意系统的科学,由皮尔斯(Charles.Sanders.Peirce)首倡。莫里斯(C.W.Morris)区分了三种意义,即指称意义、言内意义和语用意义。翻译活动从本质上看是进行语