知识图谱的原理及应用

来源 :大东方 | 被引量 : 0次 | 上传用户:root1234789
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  1.产生背景
  知识图谱的起源最早可追溯到文献计量学和科学计量学的诞生时期。1938年Bernal制作了早期学科图谱;1948年Ellingham手工绘制了图表,形象地展示自然科学和技术分支学科间的关系。同年,Price用简单的曲线可视化科学知识指数增长规律。到20世纪50年代,Garfield创制《科学引文索引》。并以编年体形式手工绘制引文网络图谱;随后“文献耦合”(两篇文献同引一篇或多篇相同的文献)、“科学引文网络”、“同被引”(与本文同时被作为参考文献引用的文献,与本文共同作为进一步研究的基础)、“共词”(指一定频率共现于同一语篇中的词)、“引文可视化”等相继被提出,科学知识可视化成为专门领域。近年来,因为网络信息技术的飞速发展使得网络信息呈爆炸式增长,造成大量信息冗余,资源重复率高,人们对知识与信息选择更加困难,查找精确性和效率都有了很大的影响。为了解决上述问题并能可视化的展示知识及信息,科学知识图谱应运而生[1]。
  2.含义
  知识图谱(Mapping Knowledge Domain)也被称为科学知识图谱、知识域可视化或知识域映射地图,旨在描述真实世界中存在的各种实体或概念,是可视化地描述人类随时间拥有的知识资源及其载体,绘制、挖掘、分析和显示科学技术知识以及它们之间的相互联系,在组织内创造知识共享的环境以促进科学技术知识的合作和深入[2]。具体分为传统科学计量图谱、三维构型图谱、多维尺度图谱、社会网络分析图谱、自组织映射图谱、寻径网络分析图谱等几个种类。
  3.原理
  知识图谱的基本原理是科学文献、科学家、关键词等分析单位的相似性分析及测度。根据不同的方法和技术可以绘制不同类型的科学知识图谱。该方法首先,通过计算机和互联网搜索引擎强大的自动查询功能,在极短的时间里面完成对海量信息的准确查询。其次,通过计算机对已查询到的海量零散信息进行文献计量统计分析,不仅可以通过量化模型将其以科学的、可视化的形式直观地呈现出来,而且还可以发现它们之间的深层次关系和趋势,为今后在该领域的研究提供更有力的客观数据和科学支持。
  4.特征
  知识图谱具备动态性、空间性、知识依赖性、关联性四方面的特征[3]:
  第一,动态性。这是知识图谱区别于传统知识地图的本质特征,它以静态的图谱中点与点以及连线的关系形式,揭示知识间隐含的动态结构变化信息。
  第二,空间性。知识图谱以二维或者三维图形展示知识之间的空间结构,通过坐落空间位置和所占据领域大小来标示知识所处战略位置的重要程度。
  第三,知识依赖性。知识图谱与一般图像的区别在于,一般图像是对原材料进行直接加工所生成,而知识图谱是建立在对知识进行数据统计或者文本分析后,所构建的客观知识综合体的基础上的再次加工处理。知识图谱一般无法直接从原始知识材料中加工产生,它依赖于对原材料的再次加工。
  第四,关联性。知识图谱可以揭示各知识点之间的相互关系,点与点在图谱中所处的距离远近表示它们间关系的亲疏,点与点之间连线的粗细表示它们关系连接的力度大小。
  5.绘制流程
  知识图谱绘制的基本绘制流程主要有数据的收集、处理与绘制以及图谱解读三个阶段过程。
  5.1数据的收集
  确定并选取合适的数据源,对数据源进行采集。(在进行论文研究时主要可对CNKI、CSSCI、CSCD和万方等文献数据库中抽取数据进行分析研究。)
  5.2处理与绘制
  选取绘图工具绘制知识图谱,揭示选取数据之间的深层次关系,常见的知识图谱应用的软件有Bibexcel、Pajek、CiteSpace、BICOMB和SPSS、HistCite等。
  5.3图谱解读
  对于绘制的结果的图表进行专业的解读。
  6.基本方法
  知识图谱的基本方法主要包括五种,分别是引文分析法、共被引分析法、多元统计分析法、词频分析法、社会网络分析法。
  6.1引文分析法
  引文分析法(Citation Analysis)就是利用各种数学、统计学的方法,以及比较、归纳、抽象、概括等逻辑方法,对科学期刊、论文、著者等各种分析对象的引用和被引用现象进行分析,以便揭示其数量特征和内在规律,达到评价、预测科学发展趋势的一种信息计量研究方法[4]。常见的引文分析技术主要包括文献合配分析法、影响因子分析法和共被引用分析法。
  6.2共被引分析法
  共被引分析法的含义是一种定量的情报研究方法,它以具有一定学科代表性的一批文章(著者或期刊)为分析对象,利用聚类分析、多维标度等多元统计分析方法,借助电子计算机,把众多的分析对象之间错综复杂的共引网状关系简化为数目相对较少的若干类群之间的关系,并直观地表示出来,使分析對象之间相互关系的格局清晰可辨,在此基础上分析研究分析对象所代表的学科及文献的结构和特点[5]。主要分为共词分析法、共作者分析法、共期刊分析法、共文献分析法五种类型。
  6.3多元统计分析方法
  多元统计分析方法包括:聚类分析、主成分分析、因子分析和多维尺度分析。
  6.3.1聚类分析法
  聚类分析指在没有先验知识的条件下,采用定量方法,根据事物本身所固有的特性的亲疏程度从数据分析的角度自动进行归类,对数据给出一个更准确、细致的分类结果,是研究“物以类聚”的一种科学有效的方法。
  6.3.2主成分析法
  主成分分析也称主分量分析,指把多个变量(指标)化为少数几个综合变量(综合指标)的一种统计方法。它是一种降维方法,通过找出几个综合变量来代表原来众多的变量,尽可能地反映原来所有变量的信息量,而且彼此之间互不相关,从而达到简化的目的[6]。   6.3.3因子分析法
  因子分析是主成分分析的推广,是采用降维方法,从研究原始变量相关矩阵内部结构出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多元统计分析方法[7]。
  6.3.4多维尺度分析法
  多维尺度分析又称多维量表分析,它是将一组个体间的相异数据经过MDS转换成空间构图,且保留原始数据的相对关系。多维尺度分析依据需要分析对象的变量,把对象映射到一个特定的空间位置上,通过分析对象位置间的距离,可以揭示对象间的亲疏关系。
  6.4词频分析法
  词频分析法是文献计量方法中的定性分析法,通过分析某一研究领域文献中的词出现的频次高低,可以确定该领域发展动向和研究热点发展动向[8]。根据对象的不同分为:关键词词频分析法、主题词词频分析法、篇名词频分析法。
  6.5社会网络分析法
  社会网络分析又称社会网或网络分析,是对社会网络中行为者之间的关系进行量化研究的一种具体工具。也就是说,社会网络分析是测量与调查社会系统中各部分(点)的特征与相互间的关系(连接),将其用网络的形式加以表示,进而分析其关系的模式与特征的理论、方法和技术。社会网络分析可以分为两类:一是自我中心社会网分析,探讨个体在网络中的联结与位置;二是整体社会网分析,探讨的是网络整体的构成与形态[9]。
  7.应用
  科学知识图谱应用范围广泛,在应用上主要分为通用知识图谱和行业知识图谱。通用知识图谱面向通用领域,以常识性知识为主,首先考虑结构化的百科知识,强调知识的广度,使用者是普通用户。而行业知识图谱是面向某一特定领域,对基于行业的数据进行建构,优先考虑的是基于语义技术的一些行业的知识库,强调的是知识的深度,它的潜在使用者是行业的人员。知识图谱主要是基于数据及业务的关系分析,因为是多学科的交叉融合,科学知识图谱能在诸多研究领域中得到应用,在行业上其广泛用于金融、医疗、教育、证券投资等领域。对于研究方面,乐飞红等在2002对知识图谱的有效作用作了部分总结:搜索导航,利用提供知识检索,提高知识的复用和防止知识的冗余,从而增强检索和获取效率;隐型知识的转化,发现知识孤岛并建立联系,促进知识共享;为知识评估提供基础;帮助学习者快速获取所学知识;提供学习知识的机会;创造、评价知识资产;建立对知识进行组织和管理的基础设施等。
  参考文献
  [1]朱游娟,《初中数学问题的全知识图谱设计与实现》硕士论文
  [2]刘则渊、陈悦、侯海燕等著:《科学知识图谱:方法与应用》人民出版社2008年版,第5页。
  [3]陈祖香:《面向科学计量分析的知识图谱构建与应用研究》,2010年南京理工大学硕士学位论文,第26页
  [4]邱均平:《信息计量学》,武汉大学出版社2007年版,第315页
  [5]赵党志:《共引分析——研究学科及其文献结构和特点的一种有效方法》,《情报杂志》1993年第2期,第36—42页
  [6]唐启义、冯明光:《實用统计分析及其DPS数据处理系统》,科学出版社2002年版,第333—372页
  [7]李健生:《“引文分析法”质疑》,《图书情报工作》1992年第5期,第41—45、57页
  [8]马费成、张勤:《国内外知识管理研究热点——基于词频的统计分析》,《情报学报》2006年第2期,第163—171
  [9]李新蕊.主成分分析、因子分析、聚类分析的比较与应用[J].山东教育学院学报,2007(6):23—26
  (作者单位:福建师范大学福清分校应用心理学研究所)
其他文献
毛笔字的《体育課教案》
期刊
摘 要:在国有企业的发展过程中,只有做好党建工作与企业文化的深度融合工作,才能使得国有企业在市场经济的竞争中充分发挥其主导作用,才能不断提高企业的软实力,最终实现国有企业的长期有效发展。  关键词:国有企业;党建;企业文化;实现机制  1 企业党建工作的推进对企业文化产生的影响  1.1明确企业文化前进方向  虽然国有企业党建工作和企业文化建设两者相对来说都是独立的个体,但是它们又有同样的一个目标
期刊
摘 要:在当前互联网技术快速发展的背景下,各种新媒体也开始占领传统媒体的市场,这导致传统电视媒体也开始遇到了前所未有的压力和负担,并给新时期电视编辑带来了众多挑战。那么,在新媒体环境下,传统的电视编辑理念与模式已经无法有效满足时代发展需要,只有不断电视编辑的创新发展,保证跟上时代的发展脚步,有效满足社会发展需要和观众的需求,才能够更好的推进自身的发展。因此,本文就对电视编辑在新媒体下的创新思维应用
期刊
摘 要:创新是民族进步的灵魂,是一个国家兴旺发达的不竭源泉。但为什么我们这么重视创新,而成果却不多呢?本文从几个方面了来阐述原因。要有好的创新首先更加需要一个好的环境。  关键词:分科教学;新课程改革  面对人才竞争的时代,我们呼唤创新教育,呼唤一套适合培养创新人格的教学策略。然而,在日常的教学中,我们常常看到一种奇怪的现象:小学生刚上一年级时学习的欲望极强,兴趣极浓,对于老师的提问可谓争先恐后。
期刊
摘 要:我国走入新经济时代,人们的经济条件改善给旅游产业发展带来了推进作用。但不同区域的经济发展追求目标与产业结构存在一定的差异性。所以考虑长远经济效益与我国旅游产业的实际情况,开展旅游会展管理模式的创新应用,逐步提升民众的参与程度,能够提升产业经济效益。  关键词:新经济时代;旅游会展管理模式;创新研究  一、旅游会展概述  (一)旅游会展概念  旅游会展就是旅游产业与商务会展结合的一种产业,其
期刊
据网络报道,中国近几年每年有近百万人死于投江、跳楼、自缢、服毒、割腕等自杀行为。其中学生又占很大比例。校园欺凌现象也层出不穷。更有甚者,殴打双亲,行凶杀人......从北京到南京,从山西到陕西,从上海到青海......学生心理健康问题让人揪心。  2015年5月26日浙江在线——钱江晚报记者邵巧宏报道,宁波法院2014年审结一审未成年人刑事案件603起,判决未成年犯804人。  《人民日报》记者张
期刊
摘 要:近十年来,我国青少年的体质健康正在逐年的下降,我们通过对采集的资料进行分析,比较了两种青少年体质健康的评价方法,并在此基础上,构建了更科学的青少年体质健康参照标准框架[1]。通过结论可以得出:在具有青少年健康标准的情况下,可以通过体制指标和健康指标二者之间的关系,总结出青少年健康的体制标准,在由青少年逐年发展到成年人体质指标的生长曲线,由成年人的体制标准反向推断青少年的体制标准,然后在通过
期刊
摘 要:用户体验是用户在使用产品、技术和服务过程中的综合感受与反应。良好的用户体验是提高竞争力的有效举措。用户体验的测量方法包括传统的经验性测量方法及生理心理指标的测量方法等等。目前最常用的是问卷法、访谈法以及专家评价法。近来有学者逐渐采用行为实验或脑电等神经生理实验进行研究,但仍然离不开问卷法的参与。测量法作为一种标准化测量,在用户体验领域的利用度并不高。  关键词:用户体验;问卷法;访谈法  
期刊
摘 要:托妮·莫里森小说《柏油孩子》从黑人女性的视角阐释了女性的身体同自然一样被视为男性统治的对象,从而表明了莫里森的生态女性主义的立场:只有正确处理人与自然的关系,构建平等人与人之间的关系才能达到真正目的上的生态平衡。  关键词:托妮·莫里森;《柏油孩子》;生态女性主义;生态平衡  一、引文  托尼·莫里森是20世纪美国黑人女作家,一生创作了大量以黑人女性为题材的小说,荣获了很多重要的文学奖项,
期刊
摘 要:国家综合实力的增强离不开航空军的建设,为此本文将从航空兵部队内部对于机务的保障能力的必要性出发,形成评价体系,主要针对机务人员的素质、航空备件保障、机务指挥保障等多方面的因素进行评估,并针对评估体系的建立依据进行分析,得出相应的结论。希望能够对航空兵部队在机务保障的建设当中发挥相应的借鉴意义。  关键词:航空兵部队;机务保障能力;评估指标体系  引言:  各国的发展过程中部队的建设必不可少
期刊