论文部分内容阅读
知识图谱是一种采用可视化方式展示知识库中包含的各类知识要素的语义网络,随着近年来科学技术的不断创新,语言信息处理开始着眼于知识图谱这一可视化展示方法。自然语言处理,特别是蒙古文信息处理目前着重解决语义问题,所以词汇语义网和知识图谱等成为当下研究的热点。本文的所有数据均来自于WordNet底层数据库,这是因为几乎所有的概念信息都包含在WordNet当中。目前部分本体库、语义词典甚至于蒙古文名词语义网等都是以WordNet为基础而设计的。本文以Word Net为数据来源,提高了资源的利用率,与非结构化数据相比,减少了对资源预处理,节约了时间,加快了构建速度。本文对构建过程进行了深入研究,具体各项研究内容如下:1、首先分析影响语义相似度的参数,在综合分析各参数的优劣势后将概念信息量(Information Content,IC)定为参数,并在已有算法的基础上提出了改进的IC值计算模型。本文在基于WordNet自身结构的同时考虑到WordNet每个概念在语义树中的深度以及概念的子节点数来计算概念IC值。经过实验验证,改进后的IC计算模型更符合WordNet语义树的特征。2、在选定语义相似度参数后,对现有算法展开了剖析。最后,结合IC参数,给出了语义相似度计算的新模型,该模型还将概念的语义距离考虑在内,通过实验检验发现改进后的语义相似度模型在计算的语义相似度值与人工打分的相关系数高于其它计算方法,这说明该算法模型优于其它计算模型。3、概念以及概念间关系的抽取是构建知识图谱最为关键的一步,本文顶层概念的抽取是利用语义相似度算法的改进模型进行的,然后根据WordNet底层数据库获得概念集以及各概念间的关系。4、本文知识图谱的构建是按以下的流程进行的:基于人工将目标领域划分为彼此不包含的子领域,并为每个子领域设定一个核心概念,利用语义相似度算法获得每个子领域的顶层概念。根据顶层概念借助WordNet底层数据库获得每个子领域的初始概念集。然后重新利用语义相似度算法求每个子领域的初始概念集与其余子领域的顶层概念的语义相似度值,获得目标领域的最终概念集。将最终概念集利用蒙古文WordNet进行映射获得相对应的蒙古文词汇,最后利用图形数据库理论,使所构建的目标领域知识图谱可视化展示。5、蒙古文计算机领域知识图谱的构建是对本文基于WordNet蒙古文领域知识图谱构建方法的检验,展示了具体的构建流程,将对之后蒙古文知识图谱的进一步完善有一定的参考价值。