基于中文维基百科的词语相关度计算

来源 :情报学报 | 被引量 : 0次 | 上传用户：moimon

【摘要】

：

词语相关度的计算是自然语言处理关键技术之一，在信息检索、机器翻译、词义消歧、句法分析等领域有广泛应用。国内现有大部分词语相关度计算方法是基于知网（HowNet）的。本文将中

【作者】

：

谌志群高飞曾智军

【机构】

：

杭州电子科技大学计算机应用技术研究所

【出处】

：

情报学报

【发表日期】

：

2012年12期

【关键词】

：

【基金项目】

：

本文受国家自然科学基金（项目号：61103101）和教育部人文社会科学研究基金（项目号：12YJCZH201）资助.

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词语相关度的计算是自然语言处理关键技术之一，在信息检索、机器翻译、词义消歧、句法分析等领域有广泛应用。国内现有大部分词语相关度计算方法是基于知网（HowNet）的。本文将中文维基百科作为语义资源，利用其分类层次、概念文档之间的链接来计算汉语词语之间的相关度。在借鉴向量空间模型和谷歌相似度（Google Similarity Distance）计算方法基础上，通过构建分类图和相关语义向量来实现汉语词语相关度的计算。在测试集Word Similarity-353上进行了实验，实验结果的斯皮尔曼等级相关系数显示

其他文献

基于用户任务导向的政府网站可用性测评研究

本研究选择“香港政府一站通”和“首都之窗”两个网站作为政府网站可用性测评实验的对象，采用标准的可用性测试方案“CIF标准”展开实验。在测试实验中，首先为参加测试的人员

期刊

政府网站可用性任务导向CIF比较分析测评government website usability task-oriented CIF compa

妇产科病历质量管理存在的问题与对策

目的:分析妇产科病历中常见问题出现的原因,讨论针对此类问题的管理策略,以提升病历质量管理。方法:于2017年8月～2018年8月随机抽取医院妇产科存档的病例310份,病历包涵产妇体

期刊

妇产科病历质量管理问题管理对策

基于C4．5的维基百科页面信息质量评价模型研究

采用开放协同编辑模式的维基百科，其内容的精确性一直受到人们的质疑。除了极少部分被维基百科认定为高质量文章外，维基用户很难判断其余大部分文章的质量。对此，本文将维基百科

期刊

维基百科信息质量质量评价分类模型Wikipedia information quality quality evaluation classifi

火车卧铺票价格改革势在必行

火车卧铺票价格改革势在必行安徽财贸学院贸易经济系冯德连邮编：２３３０４１火车卧铺票大致处于供不应求的市场态势，由于排队购票的艰难，加之一般公务员乘飞机不能报销旅费，因此一些旅客不得

期刊

中国铁路运输运价改革

一种基于齐普夫定律的确定语料中高低词频分界点的新方法——以科学计量研究为例

确定一定数量的高频词是识别研究热点的基础性工作，但是目前对于如何确定高低词频的分界点还缺乏客观的、行之有效的方法。本研究以2002～2011年收录入Web of Science SCI中934

期刊

齐普夫定律科学计量研究热点高频词低频词分界点Zipf＇s law scientometrics research focuses high-f

社会化标注系统中标签检索质量模拟研究

社会化标注系统近年发展迅速,伴随出现的垃圾标注泛滥现象不容忽视。本文以社会化标注系统中标签检索质量为研究对象,细化普通用户标注行为,建立社会化标注模拟系统,明确定义

期刊

社会化标注系统检索质量垃圾标注模拟系统social tagging system retrieval quality spam tags simulat

基于组合评价方法的关联规则兴趣度评价

关联规则挖掘算法通常生成大量的规则,但由于资源的限制,只有少量规则可能被筛选出来使用。因此关联规则的兴趣度评价成为数据挖掘领域中的一个重要问题。考虑到关联规则兴趣

期刊

关联规则兴趣度组合评价购物篮分析association rules interestingness combination evaluation mar

高阶段嗣后充填采矿大型采场底部矿柱回采探讨

吴集铁矿北段和李楼铁矿-400 m中段采用分段凿岩高阶段嗣后充填采矿法,在-400 m水平布置出矿底部结构,底部结构矿柱矿量损失大,损失率可达8％～9％.为了提高回采率,减少矿石损失,根

期刊

底部矿柱高阶段嗣后充填法回采方案

融合科技文献内外部特征的主题模型发展综述

以 LDA（ Latent Dirichlet Allocation）为代表的主题模型自提出以来就受到了广泛关注，并且随着研究的不断深入产生了大量有代表性的研究成果。为了满足用户多样化的检索需求，本文

期刊

主题模型LDA模型内部特征外部特征科技情报分析topic modelLDAintra-featuresextra-featuresanalysis o

时代邻里:自我锤炼,顺应时代之变

社会重大公共事件考验着各行各业,面对疫情挑战,物业服务企业应深刻认识到,在内外部环境都面临动荡的背景下,公司自身的能力建设,决定着未来发展。可以说,疫情也倒逼企业要加

期刊

物业服务企业智能化管理提升能力应变能力高效稳定内外部环境深刻认识顺应时代

基于中文维基百科的词语相关度计算

与本文相关的学术论文