基于中文维基百科的语义相关度计算的研究与实现

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:qishikdjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义相关度计算是自然语言处理领域的重要研究方向,是信息检索、文本分类、词义消歧、基于实例的机器翻译等多种自然语言处理技术的重要基础。由于中文本身的特点和其他原因,中文语义相关度计算的研究要落后于英文。为了促进中文自然语言处理技术的发展,研究中文语义相关度计算技术具有重要的理论意义和现实意义。本文主要研究了基于维基百科分类体系和链接结构进行语义相关度计算的算法。首先,本文介绍了语义相关度计算的研究背景与相关研究方法,以对本领域有详尽的了解。其次,本文将基于WordNet等树状分类体系的语义相关度计算算法运用到了中文维基百科上,随后依据维基百科的分类体系是有向无环图而不是树的特点提出了基于分类体系的多路径语义相关度算法。再次,本文将WLM(Wikipedia Link-based Measure)算法应用到中文维基百科上,提出了结合维基百科分类体系和链接结构的WLT(Wikipedia Links and Taxonomy based measure)算法,随后本文将基于分类体系的算法与WLM算法和WLT算法结合起来,实验结果显示基于维基百科分类体系和链接结构进行语义相关度计算比单独基于其中一种的算法更好。最后,将本文提出的基于维基百科的语义相关度算法运用到了YHPODS系统中:一是话题关键词的定制,二是基于语义的分类。此外,本文为了测试语义相关度算法的准确度,构造了人工评测的测试集Words-240,并将其公开发布。由于维基百科数据量大,为了提高算法运行效率,本文采用了优化数据库库表、建立数据库连接池和设置内存、文件缓存等措施对算法进行优化,使得算法的运行效率提高了数十倍。
其他文献
以龙眼枝为主原料、蔗糖为辅料干馏法制备烟熏液,以酚类化合物、3,4-苯并芘和羰基化合物的含量作为评价指标,通过单因素和正交实验得出烟熏液制备的较佳工艺条件为蔗糖添加量
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
最近。宋朝有点热。“如果穿越,你愿意回到哪个朝代”,在网络上疯传。一时间,“我们爱宋朝”成了一个“吸睛”无数的时尚话题。很多“宋粉”在各种传播平台上亢奋地呼喊着“回到
众所周知,颜真卿在书法史上的地位极高,苏轼在《书吴道子画后》中言:“诗至于杜子美,文至于韩退之,书至于颜鲁公,画至于吴道子,而古今之变,天下之能事毕矣。”(《苏轼文集》卷
<正> 青光眼是当今世界范围内的主要致盲性眼病之一。全球大约有7千万名青光眼患者,每年约有7百万患者因青光眼导致双目失明。据不完全统计,仅中国就有940万名青光眼患者,其
随着经济的快速发展,各行各业都在发生着翻天覆地的变化。各个企业受发展大环境的影响,也迎来了发展的新的阶段,机遇与挑战并存。为了能够在日益激烈的竞争中站稳脚,时刻保持
6月17日至7月20日,中国美术馆举办“匈牙利当代艺术展”。展览以匈牙利的当代艺术作品为核心,可以说是当代艺术家在结构主义的基础上的全新创作,展品风格、流派丰富多彩,异彩纷呈
人力资源部是整个组织中最重要的枢纽,有效的人力资源工作能提高整个机构的工作效率。目前,各区域机构为了响应国家可持续发展战略,其自身的工作量持续上升,导致人力资源工作
封面这幅画是常沙娜先生在2017年春节之际所绘新作《文殊变》。常沙娜先生是新中国第一代工艺美术设计家、图案学家、设计教育家、艺术家,曾任中央工艺美术学院院长15年,是历史
中国连环画历史悠久,新中国成立后,连环画几经辉煌与波折。进入新世纪,传统连环画开始借助“连藏”的势头发展。站在时代新的节点,连环画的发展无疑进入一个新阶段。