基于WordNet的蒙古文领域知识图谱构建方法研究

来源 :内蒙古师范大学 | 被引量 : 0次 | 上传用户:gidzkid
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱是一种采用可视化方式展示知识库中包含的各类知识要素的语义网络,随着近年来科学技术的不断创新,语言信息处理开始着眼于知识图谱这一可视化展示方法。自然语言处理,特别是蒙古文信息处理目前着重解决语义问题,所以词汇语义网和知识图谱等成为当下研究的热点。本文的所有数据均来自于WordNet底层数据库,这是因为几乎所有的概念信息都包含在WordNet当中。目前部分本体库、语义词典甚至于蒙古文名词语义网等都是以WordNet为基础而设计的。本文以Word Net为数据来源,提高了资源的利用率,与非结构化数据相比,减少了对资源预处理,节约了时间,加快了构建速度。本文对构建过程进行了深入研究,具体各项研究内容如下:1、首先分析影响语义相似度的参数,在综合分析各参数的优劣势后将概念信息量(Information Content,IC)定为参数,并在已有算法的基础上提出了改进的IC值计算模型。本文在基于WordNet自身结构的同时考虑到WordNet每个概念在语义树中的深度以及概念的子节点数来计算概念IC值。经过实验验证,改进后的IC计算模型更符合WordNet语义树的特征。2、在选定语义相似度参数后,对现有算法展开了剖析。最后,结合IC参数,给出了语义相似度计算的新模型,该模型还将概念的语义距离考虑在内,通过实验检验发现改进后的语义相似度模型在计算的语义相似度值与人工打分的相关系数高于其它计算方法,这说明该算法模型优于其它计算模型。3、概念以及概念间关系的抽取是构建知识图谱最为关键的一步,本文顶层概念的抽取是利用语义相似度算法的改进模型进行的,然后根据WordNet底层数据库获得概念集以及各概念间的关系。4、本文知识图谱的构建是按以下的流程进行的:基于人工将目标领域划分为彼此不包含的子领域,并为每个子领域设定一个核心概念,利用语义相似度算法获得每个子领域的顶层概念。根据顶层概念借助WordNet底层数据库获得每个子领域的初始概念集。然后重新利用语义相似度算法求每个子领域的初始概念集与其余子领域的顶层概念的语义相似度值,获得目标领域的最终概念集。将最终概念集利用蒙古文WordNet进行映射获得相对应的蒙古文词汇,最后利用图形数据库理论,使所构建的目标领域知识图谱可视化展示。5、蒙古文计算机领域知识图谱的构建是对本文基于WordNet蒙古文领域知识图谱构建方法的检验,展示了具体的构建流程,将对之后蒙古文知识图谱的进一步完善有一定的参考价值。
其他文献
共建教学法就是要教学相长,师生共建班级群体及自身文明.它遵循公式:教学=课程(管理×学习),要求师生协作,以范题立项,以解题定约,记"帐"履约,从善寻解,自查质量,共谋发
记叙文是一种常见的写作体裁,它具有目的性、程式性等特征。正确认识和把握其体裁特征有利于培养学生的语篇意识,对逐步培养学生的阅读鉴赏能力和写作能力也有积极的意义。本
社会的转型,文化的开放,经济的发展,媒介的发达,给教育带来了一系列新课题。有一个特别突出的现象值得我们关注,那就是现在的儿童正面临着“童年的消逝”。$$ 上世纪80年代,美国
报纸
目的:分析ICU护理管理中人性化保护性约束的应用情况。方法:选择本院2017年1月至2018年12月ICU收治的130例ICU患者,根据有无实施人性化保护性约束护理分组,对两组患者不良情
进入21世纪以来,全球经济一体化的大趋势下,企业与企业之间的竞争时代已经渐渐远去,竞争实质正在逐步演变为产业链之间的竞争,产业链上多元环节的融合与共通,成为企业竞争的关键所
目的:探讨临床孕期护理管理工作中引入情绪管理护理手段后,对护理人员在问题解决能力和负面情绪发生情况方面的影响。方法:将2018年4月至2019年4月笔者所在医院妇产科80例护