基于逆概念频率的词语相似度计算

来源 :厦门大学学报(自然科学版) | 被引量 : 0次 | 上传用户:bbshisegui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语相似性度量在服务选择、自然语言处理、文献检索等领域具有重要的作用,目前通用的词语相似度计算方法是利用《知网》对词的概念解释得出词语之间相似度.对《知网》结构进行分析,认为利用《知网》计算词的相似度的方法中概念的4项基本结构的权重应该动态产生,并提出区分度作为衡量4项基本结构的动态权重.在分析现有研究基础上,借鉴逆文档频率(IDF)权重计算思想,认为义原的区分度与义原在所有概念的相应位置中出现次数成反比,提出了一种基于义原出现频次的义原权重计算方法:逆概念频率(inverse concept frequency,ICF).通过分析概念的组织结构,计算第一基本义原结构、其他基本义原结构、关系义原结构、关系符号结构中各义原的ICF权重,将4个基本结构中的最大义原ICF权重作为基本结构的ICF权重.利用动态ICF值逼近基本结构的区分度,进而计算词语相似度.通过对真实数据的实验对比可以看出ICF算法能有效提高计算词语相似度的准确率.相比较传统算法平均前160个词准确率从30.74%提高到72.28%,平均召回率从15.87%提高到49.64%.
其他文献
在很多人不知道校园文化到底为何物的情况下,笼统而大张旗鼓地进行校园文化建设其效果是显而易见的,至少很难形成一种合力,而且很难产生持久的效应。这是很多高校校园文化建
<正>数字时代,传统媒体集体发"微"。140个字,使得微博新闻传播迅速、发布便捷;朋友圈,让微信资讯更易于分享、互动性增强。可以说,借助于微博、微信等"微"平台,媒体的影响力
<正>据报道,目前我国网民规模达6.18亿,其中手机网民规模达5亿。互联网正对新闻信息传播方式与格局产生越来越大的影响。传统企业和新型行业皆以拥有相当影响力和权威性的新
随着世界经济一体化程度的日益加深,由国际会计准则理事会(IASB)制定的国际财务报告准则(IFRS)在全球运用越来越广,已成为各国会计准则趋同的目标。我国也是IFRS的趋同者之一,于2006
针对劳动力价格上涨对花椒生产造成负面影响的实际,对当地花椒的无刺优树展开了繁育试验,对砧木选择、无性系无刺性状及结果性状的稳定性、采摘工效等内容进行研究,以促进陇
思想政治教育过程是实现思想政治教育目的的过程,在思想政治教育中居于核心地位。针对思想政治教育过程理论研究上存在的一些分歧,加强对这一过程的理论研究,不仅能够明晰问
WTO以后,世界纺织服装贸易格局发生了深刻的变化,而我国的纺织服装业也受到了来自发达国家与发展中国家的双重夹击,所面临的贸易环境日益严峻。基于进出口数据,运用国际市场
利用收集到的降水雨滴谱资料与多普勒雷达的观测资料,将Parsivel激光降水粒子谱仪计算的回波强度与雷达观测的回波强度作以比较,结果表明:两者具有较好的一致性,雷达观测到的
城镇化是一个国家和地区经济社会发展的必然趋势。改革开放30多年来,中国的城镇化率大幅提升,从1978年的18%提高到2012年的52.57%。近年来,山西省也高度重视城镇化建设工作,城镇
美国是第三部门最发达的国家之一,其影响力渗透在美国社会生活的方方面面,发挥着重要作用。目前国内关于第三部门的研究很多,主要集中在理论研究、实证研究和经验介绍三个方