国内外关联数据研究热点对比分析

来源 :知识管理论坛 | 被引量 : 0次 | 上传用户:ufo747
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:[目的/意义]国内关联数据研究尚出于研究发展的初期,理论研究和应用研究也都尚未成熟。通过对国内外研究热点主题对比分析,为国内关联数据研究起提供借鉴。[方法/过程]通过数据分析和文献调研,分别从发文量、研究群体、词频以及主题识别等方面进行中外研究的对比分析,从中发现国内外关联数据研究存在的差距。[结果/结论]在对比分析的基础上,针对国内关联数据研究提出研究本土化、注重应用型研究、优化研究群体结构以及关注关联数据学科化应用4点发展建议。
  关键词:关联数据 研究热点 对比分析 数据分析
  分类号:G250.7
  1 引言
  自2006年T. Berners-Lee提出关联数据的概念以来,研究人员便开始对关联数据进行深入的研究。关联数据是W3C推荐的一种用于发布和联接各类数据的规范,旨在建立一个映射所有自然、社会和精神世界的数据网络,通过对大千世界万事万物及其相互之间关系进行机器可读的描述,来构建一个一个富含语义的、互联互通的知识海洋,使人们可以在更大范围内准确、高效、可靠地查找、分享、利用这些相互关联的信息和知识[1]。国内对关联数据的关注最早始于2008年,由曾蕾、刘炜等在于上海举办的“数字环境下图书馆前沿问题”研讨班上将关联数据这一概念正式引入国内。自此,国内关于关联数据的研究不仅在数量上日渐增多,研究的主题也日趋广泛。本文通过对国内外相关研究文献进行共词分析、主题挖掘,并借助SPSS、Sati等工具进行统计、主题聚类分析等,试图通过对比找出国内关联数据研究的特点与不足,为国内关联数据研究及发展提供指导。
  2 数据来源与研究方法
  本文研究数据力求精准、全面,在中文数据的收集过程中,笔者发现除核心词汇“关联数据”以外还有一些其他关键词,笔者也将它们列入检索式;在保证数据全面性的同时,考虑到中文词汇的多义性,还对初步的检索结果做了进一步的人工筛选,最终得到381条文献数据。在中文数据的筛选过程中,笔者发现381条数据基本上都是图书馆学与情报学(G25)和计算机科学(TP3)领域的文献,并通过文章第一作者所在的机构信息对此进行了验证。因此在英文数据的收集过程中,为了确保对比的有效性,本文对研究方向做了限定。本文中英文数据来源信息具体如表1所示:
  本文章主要应用统计分析、关键词共现分析和对比分析3种研究方法。统计分析主要是试图从数据量的角度来反映研究的发展现状以及未来的发展趋势;关键词共现分析的主要原理是通过关键词对共同出现的次数来反映二者之间的亲疏关系,进而反映相关研究主题之间的关系结构[2];对比分析可以很好地反映出比较对象之间的不同,在理论研究方面,比较结果可以很好地指导劣势方的发展。
  3 数据分析
  在正式的数据分析之前,本文对所获取的数据中的关键词项进行了基本清理,清理方式主要有中英文合并、单复数合并以及低价值词汇剔除等。为了对数据本身有更深入的理解,以下从发文量、词频、主题聚类及核心主题判定等方面对数据内容进行深度挖掘。
  3.1 发文量分析
  发文量的变化能够反映一个领域的发展状况以及未来的研究趋势,对国内外关联数据研究数据按照时间进行统计,其结果见图1。关联数据的概念最早在2006年被提出[3],2008年之后便进入研究的快速发展期,2014年达到了发文量的峰值,之后的研究热度呈下降趋势。国际上对于关联数据的研究表现为理论与实践共同发展的态势,随着关联数据理论研究主题的丰富和内容的深入,国外关联数据事业也得到了长足的发展。相比于国际来说,国内相关研究具有一定的滞后性——国内最早在2008年12月引入了关联数据这一概念,而最早见刊的是姚小乐、刘炜等人翻译自E. Summers等人的《LCSH,SKOS和关联数据》一文,该文从信息组织的角度对关联数据做了基本的介绍[4];国内关联数据研究的增长也较为迅速,并呈现进一步加速增长的趋势,预计2017年会出现发文量的峰值,但由于受到国际研究热度下降的影响,国内发文量的峰值也可能会提前到来。另外,笔者还根据分类号对文章的学科信息进行了统计,中文数据中计算机科学文献占比约为51%(202篇),图书馆学情报学文献占比约为49%(196篇),同属于这两个学科的文献共17篇;英文数据中计算机科学文献占比约92% (1 275篇),图书馆学情报学文献占比为8%左右(107篇),同属于两个学科的文献共68篇。
  3.2 词频统计分析
  关键词是文章研究内容的直接体现,词频的高低可以体现出关键词之间重要性的差异;对国内外相关数据进行关键词统计及共词分析能够反映关联数据研究的热点主题以及热点主题之间的关系结构。本文章使用SATI 3.2进行关键词抽取和词频统计,中文数据中共含802个关键词,英文数据共含2 420个关键词。由于篇幅所限,这里只列出词频大于或等于4次的中文关键词和词频大于或等于8次的英文关键词(见表2),其中省略了核心关键词“关联数据(linked data)”和“关联开放数据(linked open data)”。另外,为了更好地展现高频关键词之间的关系,本文分别采用关键词共现矩阵和关键词相似度矩阵两种方式对中英文数据进行展示;关键词共现矩阵可以让人直观地了解到两两关键词之间的共现频次以及二者之间的亲疏关系,而关键词相似度矩阵是在关键词共现矩阵的基础上为了减小误差进行的归一化处理,相似度矩阵中的数值都在0-1之间,数值越接近1,表示两个关键词之间的主题相似度越大,反之越小。本文分别利用Bicomb 2和SATI 3.2构建了两类矩阵,但由于篇幅所限,文章只展示英文关键词词频大于20的关键词共现矩阵(12*12矩阵,见表3)以及中文关键词词频大于10的关键词相似度矩阵(11*11矩阵,见表4)。
  3.3 主题聚类及主题识别
  主题聚类是文献计量学常用的研究方法,已被广泛应用于某一领域的主题分析等方面,它利用词与词之间的关联程度进行聚类,形成多个主题。本文对中文关键词词频大于或等于5次的数据进行聚类分析,去除核心关键词“关联数据”和“关联开放数据”后共计29个(占关键词总数约4%的比例)。之后在前文分析的基础上,选择SPSS中的ward聚类算法进行系统聚类,并得到聚类树状图(见图2)。之所以考虑ward算法,是因为该算法强调簇内的差异小、簇间的差异大,突出强调主题簇内部的同质性,适用于这种主题相关的数据样本进行进一步集群聚类。以选取的中文数据样本为参照,选取前4%的英文关键词(约100个关键词,词频亦为大于等于5次),由于SPSS系统聚类所能处理数据量有限,对于英文数据的主题聚类文章采用Citespace进行关键词聚类,在未做人为调整的前提下,数据的聚类效果见图3。主题聚类的直接目的在于主题识别,主题识别的精准与否与前期的主题聚类效果有着重要的关系。本阶段的主题识别主要是通过关键词反向回溯文献再进行人为识别,所识别的结果直接来源于分析数据。由于所有关键词之间并不存在严格的层级关系,在忽略树状图本身所具有的层级特性的前提下,共识别出7个热点研究主题,同时在前文关键词共现矩阵的基础上,通过计算各主题的战略坐标来显示研究主题的热度和成熟度,热点研究主题依次为关联数据、本体与信息组织(E)、关联数据发布(C)、关联数据与图书馆服务(D)、关联数据知识发现(F)、关联数据资源整合(G)、关联数据可视化(B)、关联数据语义互联(A)。   英文数据的主题识别是基于Citespace所形成的20个类团图进行的,去除8个没有形成明显聚类的孤立点后,共形成了12个主题类团(见图3),类团的位置可以反映研究主题所处的位置,同时由于自动生成的类团标签并未能清晰反映研究主题,本文通过对类团内关键词进行人工回溯的方法形成了新的类团标签,表5在给出12个主题具体标签的同时又给出了对应的关键词,需要说明的是所形成的主题标签具有一定的主观性,相互之间也并非是完全独立和平等,但所形成的标签基本可以客观反映类团的核心研究主题。
  4 中外关联数据热点研究对比分析
  对比分析是认识事物并发现比较对象间不同点的有效方法,通过中外关联数据研究之间的对比不仅可以发现国内外关联数据研究存在的差异,同时也可以指导国内关联数据研究的未来发展方向。
  4.1 研究群体的差异
  中外关联数据研究群体存在较大的差异,这在一定程度上也导致了二者在研究主题方面存在的差异。研究群体的差异本质上是一种研究视角和研究方法的差异,不同的研究群体从各自学科的角度来审视同一研究主题,即使是具有一定交叉的某些学科,其所关注的研究点以及研究成果也天然带有某学科的学科特性,这主要是由研究人员的知识结构及其受过的学术训练决定的。从国内外关联数据的研究文献数据来看,承载关联数据这一研究课题任务的学科主要为计算机科学和图书馆学情报科学,因而国内外关联数据研究群体的不同主要体现在这两个学科在关联数据主题上比例的不同,比例的不同又可以从文献所属学科和研究人员单位两个角度来反映。从文献所属学科的角度来说,国外图书情报科学文献量占调研数据的8%,而国内的比例则高达近50%;从研究人员所属的研究单位来看,国内研究关联数据的学者中来自图书情报领域者比例高达90%以上,而国外则不到10%。除此之外,尽管研究人员的数量、核心作者数量以及单个作者的发文量等数据都可以反映研究群体的差异,但由于文章是将国内数据与国外多个国家的数据进行对比,绝对数量的对比具有一定的不合理性,故文章未对此进行论述。总体来说,中外关联数据的研究群体在构成比例方面存在较大的差异,国内研究群体以来自图书馆学情报领域的研究人员为主,国外主要的研究力量则来自于计算机领域。
  4.2 研究主题的广度差异
  国外关联数据研究主题较国内全面、完善,并逐渐形成了较为完整的关联数据研究体系,而国内相关研究依旧存在较多的空白点。对照3.3部分的热点研究主题发现,国外关联数据研究基本覆盖了关联数据生命周期(见图4)的各个阶段,而国内的关联数据研究主题主要集中于关联数据前期研究的部分阶段,其余部分阶段的研究则基本空白或刚刚起步。对比中外关联数据热点研究主题,可以发现国内研究的空白点和新兴研究点(见表6)——国外目前的研究热点中国内尚未出现的研究主题属于国内空白点,可为国内关联数据研究中长期的发展提供方向;国外目前的研究热点中国内已经出现但尚未发展成为热点的研究主题属于新兴研究点,可为国内关联数据当下的研究方向提供参考。
  4.3 研究主题的深度差异
  由3.3部分SPSS分析得到国内关联数据研究主要集中于7个研究主题,国外关于这些问题的研究已经较为成熟或起步较早,但即使对于相同的研究问题,国内外研究也存在较大的不同,即针对同一研究主题的研究深度亦有不同。主要体现在两个方面:一是同一主题下的子研究主题的多样性有所差异,二是同一研究主题的应用性研究数量不同。以关联数据生命周期的第一个阶段,同时也是国内目前研究相对较为成熟的“关联数据发布”研究主题为例,其国内外研究差异如表7所示:
  4.4 研究主题的发展趋势及研究模式的差异
  国内外关联数据研究不仅在当前具有较大差异,甚至在未来的研究发展方向和趋势方面也会存在一定的差异。国内关联数据研究的发展方向主要为关联数据可视化、关联数据挖掘等新兴研究点和研究空白点,且短期内研究的主要方式仍是介绍国外相关主题的研究现状和内容,但随着国内研究的深入,各主题领域的应用性研究数量可能会逐渐增多。相较而言,国外关联数据质量研究体系更为完善,理论与应用研究协调发展,研究已经逐步进入了缓慢发展时期,研究数量可能会继2015年后进一步减少;关联数据整合应用和学科化应用和关联数据联合查询以及关联数据质量问题是目前国外关联数据研究遇到的瓶颈问题,这也是国外研究的主要发展方向。
  整体上来看,国内外关联数据研究的模式存在较大的差异,国外研究进程基本属于循序渐进的模式,在理论研究与应用研究协调发展的基础上,稳步地推进并理顺关联数据生命周期中各阶段的循环发展,是一种需求驱动的发展形式。国内则可能是由于起步时间较晚以及研究人员的学科背景差异,在对国外研究的重点介绍关联数据研究中占有很大的比重,研究形式多以综述和案例分析为主,同时也并非是依据研究需求的发展依次引入关联数据生命周期中各阶段的研究主题,例如在关联数据前期各阶段研究尚未成熟的情况下,关联数据整合已成为国内关联数据研究的热点主题。
  5 结论
  通过对国内外关联数据研究领域的发文量、词频、主题、研究群体等的分析,不仅可以发现国内外相关研究存在一些差异,也能指导国内关联数据研究的发展:首先,可以优化国内研究群体结构,引入新的研究力量——学科背景不同在一定程度上决定了研究关注的重点,研究形式等也会有所差异,引入计算机科学领域的研究力量是深化国内关联数据研究的途径之一,有助于关联数据研究的合理、健康发展。其次,在深化理论研究的同时,应积极开展应用型研究。即不仅要关注关联数据概念、原则、发布方法、整合理论等方面的理论研究,同时更要关注发布工具、资源整合工具以及质量评估工具的开发应用。再次,应关注关联数据的学科化应用,打破图书馆概念实体的限制。在关注图书馆关联数据应用发展的同时,更应积极探索关联数据在农业、环境、教育、医药等领域的专业化应用。最后,要注重关联数据研究的本土化。国内当前的关联数据研究所基于的数据资源基本都是外文资源,由于中文数据在转化为关联数据的过程中会碰到一些中文数据所特有的问题,如URI配置等,关联数据研究本土化是国内关联数据事业发展的首要前提之一。   参考文献:
  [1] 刘炜. 关联数据: 概念、技术及应用展望[J]. 大学图书馆学报, 2011, 29(2): 5-12.
  [2] 冯璐, 冷伏海. 共词分析方法理论进展[J]. 中国图书馆学报, 2006, 32(2): 88-92.
  [3] BERNERS-LEE T. Linked data [EB/OL]. [2016-03-06].https://www.w3.org/DesignIssues/LinkedData.html.
  [4] SUMMERS E, ISAAC A, REDDING C, et al. LCSH, SKOS和关联数据[J]. 姚小乐, 刘炜译. 现代图书情报技术, 2009(3): 8-14.
  [5] SCHARFFE F, EUZENAT J. Linked data meets ontology matching: enhancing data linking through ontology alignments[C]//International conference on knowledge engineering and ontology development. Paris: Springer, 2011: 279-284.
  [6] OSIMO D, MUREDDU F. Research challenge on opinion mining and sentiment analysis[J/OL]. [2016-03-20]. http://www.w3.org/2012/06/pmob/opinionmining.pdf.
  [7] ZHAO J, MILES A, KLYNE G, et al. Linked data and provenance in biological data webs [J]. Briefings in bioinformatics, 2009, 10(2): 139-152.
  [8] SPEISER S, HARTH A. Integrating linked data and services with linked data services [M]. Berlin: Springer, 2011: 170-184.
  [9] HOGAN A, HARTH A, UMBRICH J, et al. Searching and browsing linked data with swse: the semantic web search engine [J]. Web semantics: science, services and agents on the world wide web, 2011, 9(4): 365-401.
  [10] VRANDE?I? D, KR?TZSCH M. Wikidata: a free collaborative knowledgebase[J]. Communications of the ACM, 2014, 57(10): 78-85.
  [11] MENDES P N, M?HLEISEN H, BIZER C. Sieve: linked data quality assessment and fusion[C]. Proceedings of the 2012 joint EDBT/ICDT workshops. Berlin: ACM, 2012: 116-123.
  [12] BRUNETTI J M, AUER S, GARC?A R, et al. Formal linked data visualization model[C]//Proceedings of international conference on information integration and web-based applications & services. Sydney: ACM, 2013: 309.
  [13] PIEDRA N, CHICAIZA J A, L?PEZ J, et al. An architecture based on linked data technologies for the integration and reuse of OER in MOOCs context [J]. Open praxis, 2014, 6(2): 171-187.
  [14] ZAVERI A, KONTOKOSTAS D, SHERIF M A, et al. User-driven quality evaluation of dbpedia[C]//Proceedings of the 9th international conference on semantic systems. Graz: ACM, 2013: 97-104.
  [15] CORRENDO G, SALVADORES M, MILLARD I, et al. SPARQL query rewriting for implementing data integration over linked data[C]//Proceedings of the 2010 EDBT/ICDT workshops. Berlin: ACM, 2010: 4.
  [16] DI NOIA T, MIRIZZI R, OSTUNI V C, et al. Linked open data to support content-based recommender systems[C]//Proceedings of the 8th international conference on semantic systems. New York: ACM, 2012: 1-8.   [17] 范炜. 受控词表的术语服务研究[J]. 图书情报工作, 2012, 56(14): 34-39, 97.
  [18] 刘炜, 夏翠娟, 张春景. 大数据与关联数据: 正在到来的数据技术革命[J]. 现代图书情报技术, 2013 (4): 2-9.
  [19] 沈志宏, 黎建辉, 张晓林. 关联数据互联技术研究综述: 应用, 方法与框架[J]. 图书情报工作, 2013, 57(14): 125-133.
  [20] 张春景, 刘炜, 夏翠娟. 关联数据的开放应用协议[J]. 中国图书馆学报, 2012, (1): 43-48.
  [21] 黄永文. 关联数据在图书馆中的应用研究综述[J]. 现代图书情报技术, 2010, 26(5): 1-7.
  [22] 汤怡洁, 杨锐, 刘毅. 近年来 SPARQL 查询技术的研究热点及进展[J]. 知识管理论坛, 2014(1): 1-6.
  [23] 郭少友, 尚雨, 魏朋争, 等. 绿色关联数据: 概念、要求与工程[J]. 图书情报工作, 2012, 56(23): 113-118.
  [24] 田野, 祝忠明, 刘树栋. 基于关联数据的推荐系统综述[J]. 现代图书情报技术, 2013, 29(10): 1-7.
  [25] 陈涛, 夏翠娟, 刘炜, 等. 关联数据的可视化技术研究与实现[J]. 图书情报工作, 2015, 59(17): 113-119.
  [26] 吴玥, 李占羽. 基于关联数据开放政府数据[J]. 电脑知识与技术, 2010 (11): 8688-8691.
  [27] 吴鹏飞, 马凤娟. 国外关联数据教育应用项目研究与启示[J]. 电化教育研究, 2013, 34(4): 114-120.
  [28] 魏来, 付瑶. 基于 Green Linked Data 的关联数据质量标准[J]. 情报资料工作, 2013, 34(3): 69-72.
  [29] 蒋世银, 李春旺. 基于关联数据科研机构综合评价模型研究[J]. 情报理论与实践, 2015, 38(11): 71-75.
  [30] 欧石燕, 胡珊, 张帅. 本体与关联数据驱动的图书馆信息资源语义整合方法及其测评[J]. 图书情报工作, 2014, 58(2): 5-13.
  [31] 白海燕, 梁冰. 利用 D2R 实现关系数据库与关联数据的语义模式映射[J]. 现代图书情报技术, 2011(8): l-7.
其他文献
绒毛 (Frxinus velutina Torr.)又称绒毛白蜡 ,原产美国西南部靠墨西哥的加利福尼亚等州。 1911年首先引种到济南 ,5 0年代引种到天津 ,6 0~ 80年代引种到黄河、长江中、下游各省、市、自治区
本文以国家级自然保护区——大青沟为例,在分析大青沟保护区旅游现状的基础上,运用SWOT方法对大青沟自然保护区开展生态旅游的优势、劣势、机遇与挑战进行考察,最后对如何保
嵌段共聚物分相时.形成球状、柱状或层状的微观区.本文用热力学方法分析了分相的条件、影响微观区大小和形态的因素。对于分相温度、微观区的形状和大小的计算结果与文献中的实
英国殖民者在17世纪到达美洲时,便把伊丽沙白时代的英语带到了美洲大陆,并逐步形成美式英语。随着时间的推移,美式英语脱离英国而独立存在,成了世界上通用的影响面很大的语
目的探索慢性肺动脉高压大鼠心脏结构和功能的变化。方法雄性成年SD大鼠40只,肺动脉高压组32只,采用腹腔注射野百合碱溶液建立慢性肺动脉高压模型;对照组8只,注射同样剂量的
缺血性心脏病严重危害着人类健康。目前,虽然有很多抗心肌缺血的药物,但大多缺乏组织特异性,加上缺血区血液循环障碍,药物在缺血区的分布往往很少。心肌缺血所引起的一些病理
本刊讯(记者梁辉通讯员许万军)5月9日,自治区人力资源社会保障厅召开党风廉政建设巡查工作动员大会,正式启动全厅党风廉政建设巡查工作。自治区人力资源社会保障厅厅长、党组
进入4月,尽管姗姗来迟的春天才到东北,但一季度的消息为东北三省二季度经济开了个好头:一季度,吉林地方级财政收入增10.6%,超全国平均水平;沈阳预计地区生产总值同比增长14%;
本文研究DMT作引发剂,甲基丙烯酸甲酯的聚合动力学,提出并讨论了引发机构.一、胺结构对MMA聚合的影响表1列出不同芳香胺对MMA聚合的影响,其中聚合速度最快的是氮原子和苯环
考场是一组同心圆。所谓赶考,就是从圆心出发,向外突围。走出的半径越大,突破的圆圈越多,考绩也就越佳。中国共产党人的赶考史,很像突破一层又一层同心圆。井冈山周围,是国民