论文部分内容阅读
科学知识图谱,简称知识图谱,属于科学计量学的范畴。它是一种建立在引文分析和可视化的基础之上,将知识作为研究对象,以可视化的方式显示出知识的发展进程及其之间结构关系的图形。它作为知识可视化的载体,描述了知识的内部结构及知识节点间的联系。知识图谱的研究始于国外,距今已有几十年历史。相比于国外,国内的研究工作相对滞后,而且无论是理论还是应用方面都受到国外的影响。虽然起步较晚,但是在短短几年中也取得了一定的成果。随着研究工作的深入,一些新的问题也随之出现:研究对象范围过窄,国内知识图谱都是某一学科的国际化方向研究,大多选取SCI、SSCI等英文引文数据库作为数据来源,很少有选自中国的引文数据库;此外研究方法也比较滞后,国内关于知识图谱数据分析的研究几乎都是采用传统的因子分析、聚类分析等多元统计分析方法,对一些比较先进的技术与算法大多都只是简要的理论介绍,很少进行实际的试验研究。这些问题都影响并阻碍了知识图谱在国内的发展。本文主要工作是在分析知识图谱国内研究现状的前提下,以来源于中国知网CNKI的中国引文数据和部分学科中文权威语料作为研究对象,构建一个基于潜在语义分析的学科知识图谱系统。首先收集中国引文数据作为数据源,然后对数据进行预处理并进行潜在语义算法分析,最后根据分析得到的数据实现知识结构的可视化。论文的主要研究工作有:(1)构建了教育技术学科知识图谱的中文数据库。收集了大量教育技术学领域的中文知识数据,对其进行一系列分析处理,挖掘出数据中的知识,并研究确定知识之间的关系,以此构建学科领域知识图谱的中文数据库。(2)对知识图谱构建策略进行研究。提出一种基于潜在语义分析的知识图谱构建方法,包括潜在语义分析、中文分词、特征词提取与可视化。并将潜在语义分析应用到知识图谱构建的数据分析阶段。(3)设计了学科知识图谱系统,系统主要从数据预处理模块、数据分析模块、知识结构可视化模块三个部分进行设计与实现。本文的特色之处在于:(1)针对国内大多以英文引文数据库作为知识图谱研究对象的现状,选取中国的引文数据作为研究对象,构建了一个完整的教育技术学科知识图谱中文数据库。(2)区别于国内知识图谱数据分析大多采用传统的多元统计分析方法,本文将潜在语义分析技术应用其中,设计并实现了一个基于潜在语义分析的学科知识图谱系统。