基于潜在语义分析的学科知识图谱构建

被引量 : 0次 | 上传用户:lzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
科学知识图谱,简称知识图谱,属于科学计量学的范畴。它是一种建立在引文分析和可视化的基础之上,将知识作为研究对象,以可视化的方式显示出知识的发展进程及其之间结构关系的图形。它作为知识可视化的载体,描述了知识的内部结构及知识节点间的联系。知识图谱的研究始于国外,距今已有几十年历史。相比于国外,国内的研究工作相对滞后,而且无论是理论还是应用方面都受到国外的影响。虽然起步较晚,但是在短短几年中也取得了一定的成果。随着研究工作的深入,一些新的问题也随之出现:研究对象范围过窄,国内知识图谱都是某一学科的国际化方向研究,大多选取SCI、SSCI等英文引文数据库作为数据来源,很少有选自中国的引文数据库;此外研究方法也比较滞后,国内关于知识图谱数据分析的研究几乎都是采用传统的因子分析、聚类分析等多元统计分析方法,对一些比较先进的技术与算法大多都只是简要的理论介绍,很少进行实际的试验研究。这些问题都影响并阻碍了知识图谱在国内的发展。本文主要工作是在分析知识图谱国内研究现状的前提下,以来源于中国知网CNKI的中国引文数据和部分学科中文权威语料作为研究对象,构建一个基于潜在语义分析的学科知识图谱系统。首先收集中国引文数据作为数据源,然后对数据进行预处理并进行潜在语义算法分析,最后根据分析得到的数据实现知识结构的可视化。论文的主要研究工作有:(1)构建了教育技术学科知识图谱的中文数据库。收集了大量教育技术学领域的中文知识数据,对其进行一系列分析处理,挖掘出数据中的知识,并研究确定知识之间的关系,以此构建学科领域知识图谱的中文数据库。(2)对知识图谱构建策略进行研究。提出一种基于潜在语义分析的知识图谱构建方法,包括潜在语义分析、中文分词、特征词提取与可视化。并将潜在语义分析应用到知识图谱构建的数据分析阶段。(3)设计了学科知识图谱系统,系统主要从数据预处理模块、数据分析模块、知识结构可视化模块三个部分进行设计与实现。本文的特色之处在于:(1)针对国内大多以英文引文数据库作为知识图谱研究对象的现状,选取中国的引文数据作为研究对象,构建了一个完整的教育技术学科知识图谱中文数据库。(2)区别于国内知识图谱数据分析大多采用传统的多元统计分析方法,本文将潜在语义分析技术应用其中,设计并实现了一个基于潜在语义分析的学科知识图谱系统。
其他文献
发动机动力总成的惯性参数包括其质量、质心位置、转动惯量、惯性积和惯性主轴。本文应用“悬线法”原理与计算机三维模型分析相结合的方法测量发动机动力总成质心位置,并研
EVA作为一种衡量企业绩效的指标,其与传统会计利润指标在评价企业价值方面的优劣已成为国内外学者争论的焦点。文章通过对国内关于EVA和传统会计指标绩效评价的理论和实证研
<正>解决台湾问题是毛泽东毕生未竟事业。为完成这一历史使命,实现祖国完全统一,毛泽东殚精竭虑,做了大量工作,作出五大历史性贡献。贡献一:提出解决台湾问题将成为中国长期
当前,企业为了更好地适应外部形势的变化,为了在竞争中处于有利地位,就会不断地改进生产模式,革新管理方法,这样也会对企业职工的思想和行动产生不同程度的影响,这也给企业党
企业党支部是党工作的基础,是党在企业里的基础组织,是党与群众保持密切练习的纽带与桥梁,它对党的建设工作具有重要作用。新时期重视煤炭企业的党支部建设是新形势煤炭企业
通过保密资格审查认证使各涉密单位进一步理顺了保密管理体系,完善了保密制度,明细了保密责任,强化了保密意识。但如何巩固保密资格审查认证成果,建立科技保密管理长效机制,
<正> [化学名]4-(对氯苯基)-4-羟基-N,N-二甲基-α、α-二苯基-1-哌啶丁酰胺盐酸盐[结构式] [作用特点]本品为止泻药,系通过胆碱能和非胆碱能神经元的局部相互作用而直接作用
新兴的电子商务网络平台及其关联的第三方支付中介机构构成了我国电子商务的核心,基于此架构的交易双方博弈就成为了一个新的研究方向。分析在无限期多重博弈框架下电子商务
云南兰坪盆地内的银铜多金属矿床以产大量黝铜矿系列矿物为特征。黝铜矿系列矿物是主要的载银矿物,大多属银黝铜矿系列,Ag含量最高可达46.4%,Ag原子数最高为6.64。存在四大系
专门用途英语是一种能够满足某种特定需求的教学实践,国内研究现状表明,研究多侧重于理论探讨,实证性研究不多;偏向于本科院校的ESP教学研究与实践,对高职院校ESP课程建设实