基于Web of Science学术大数据的国家引用强度测量与层次聚类分析

来源 :西南大学 | 被引量 : 0次 | 上传用户:lhm0510
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着近年来电子存储技术的不断进步与发展,以及科学界的学术数据的指数增长,人们得以在更高规模的数据集上对科学事业进行更深层次的探索。随着存储技术的发展和计算能力的提升,这些数据的可获取性和可分析性得到极大增强,同时也催生了一门新兴的交叉学科:科学学(Science of Science)。科学学旨在通过网络科学、数据科学和人工智能的理论基础与技术手段,对这些由学术大数据构成的复杂系统进行挖掘与分析,使人们能够从数据的角度理解科学内部的构成和演化规律。19世纪的法国科学家巴斯德曾说过:“科学不分国界,因为知识属于人类,是照亮世界的火炬。”随着国际学术合作的加强和“开放科学”运动的展开,科学将会变得更加地无国界化。虽然科学并不具有国家属性,但作为科学影响力的表征,论文及其引文索引却是有“国籍”的。现有研究已经充分表明,一篇论文往往更倾向于引用来自本国的论文,并且论文受本国读者阅读的程度也显著高于该国论文发表量的国际占比。然而,尚不清楚的是,各国对其他国家的引用是否具有偏好,人们对科学工作的认可和赞赏是否已经构成了不同的社团结构,即属于同一社团的国家和地区之间的引用强度较高,而属于不同社团的国家和地区之间的引用强度较低。本文旨在通过对Web of Science收录的1970年至2016年的文献数据进行分析来探究这一问题。由于不同的国家和地区每年发表的论文数量不同,导致可引用的论文的曝光率不同,因此直接量化两个国家之间的引用强度是存在量级偏差的。本文针对论文产量排全球前20的国家/地区,从引用强度的度量、国际引文网络的社区发现、中国论文的迅速增长对学术社团的影响等方面进行了研究和分析:首先,本文提出基于标准分数Z-score(zero-mean normalization)构建的随机引用零模型,即各个国家收到的期望引用数量正比于其论文发表量的国际份额。另外,由于标准分数Z-score的数值不受原始变量单位的影响,因此本文将其用于度量各国的实际被引用量与期望值之间的相对标准距离,使各国之间的引用强度具备可比性。在得到各国之间的引用强度矩阵之后,考虑到该矩阵的维度和规模,本文采用适用于低维、较小规模网络的层次聚类算法对该矩阵进行层次划分。结合由层次聚类算法得到的树状图和引用强度的热力图发现:科学界存在明显的两个学术社团,即属于同一社团的国家/地区互相引用的程度更深,而属于不同社团的国家/地区互相引用的程度更浅。继而,本文针对中国的学术发展情况提出6种假设,并通过对中国的论文进行随机删减使其达到国际平均发展水平,从而讨论中国在各学科领域的快速发展对该学术社团划分的结构性影响。研究发现:(1)国际科学界中出现的“东方”和“西方”学术社团,基本上遵循人们对东西方世界的直观认知。以东方国家/地区为首的“东方阵营”包括中国、韩国、印度、土耳其、伊朗和中国台湾。西方国家为主的“西方阵营”包括美国、加拿大、英国、荷兰、澳大利亚、瑞士、德国、法国、意大利、西班牙和日本。唯一例外的是日本,它在地理上是一个东方国家,但在科学上与西方接触更为密切。该“东西方二分”的出现始于2004年左右,并且稳定出现超过十年。在此之前,国际科学界像一个洋葱状的结构,西方国家构成了引文网络的核心,且彼此之间的引用强度十分紧密。位于外层的国家/地区虽然远离核心层,但彼此之间的引用强度不足以形成一个新的核心。当只关注在单一国家署名的论文及其引用关系时,这种“东西方二分”的社团划分保持不变。(2)基于引用强度的热力图表明,“东方阵营”与“西方阵营”之间存在引用强度的非平衡关系:“西方阵营”受到“东方阵营”无偏的引用强度,而“东方阵营”受到“西方阵营”远低于期望的引用强度。由于引用行为是对学术成果的认可度的反映,“东方阵营”受到“西方阵营”的有偏引用也体现于国际主流科学奖项的颁布情况,例如诺贝尔奖(Nobel Prize)、菲尔兹奖(Fields Medal)和图灵奖(Turing Award)很少授予来自东方的学术成果,而“西方阵营”在其中占据主导地位。此外,本文以美国和中国为例,发现该有偏引用会对“东方阵营”成员的国际被引用率产生显著的抑制作用,而对“西方阵营”成员的国际被引用率产生显著的增益效果。(3)东方科学研究的快速发展和西方的相对衰落可能导致了该东西方社团划分的出现。在过去二十年来,大多数东方国家,如中国、印度和韩国,都经历了科学成果的稳定和高水平增长时期。其中中国的增长水平之高尤其显著,因此本文通过控制变量,对中国的论文进行随机删减使其达到国际平均发展水平。并由此发现中国在特定研究领域的快速发展,很大程度上影响了“东西方学术阵营”划分的出现。综上所述,本文基于Z-score构建的引用强度零模型,度量了各国之间的引用偏好,并通过层次聚类算法对各国的引文模式下的社团结构进行划分,发现了国际科学界中潜在的“东西方学术阵营”。继而讨论该社团结构给国际学界带来的实际影响,最后通过控制变量法,发现中国在各学科的快速发展对“东西方学术阵营”的形成具有结构性影响,对我国在各学科领域的学术发展工作具有参考意义。
其他文献
数学问题解决能力作为数学能力的核心,是整合多个认知与元认知过程以运用已有数学知识解决现实情境的能力。我国《培智学校义务教育生活数学课程标准》指出生活数学要面向全体智力障碍学生,使学生都能够接受适合的数学教育。智力障碍学生将数学问题解决能力应用在生活或工作中,能够获得更高的生活质量。改良版图示策略是一种为专门为中重度障碍学生解决数学问题开发的新方法,目前国际上对改良版图示策略的实证研究数量有限,在我
平原君,即战国之际的赵国贵公子赵胜,与信陵君魏无忌、孟尝君田文、春申君黄歇被后人并称为“战国四公子”。作为“战国四公子”之一,平原君及其事迹历来为文人墨客所青睐,其豪举养士、合楚定纵、毁家纾难等事迹流传甚广,不仅是平原君形象塑造的基石,更是后世创作者的题材宝库,为后世学者留下了广阔的解读空间。总体说来,平原君的形象从先秦到宋代经历了由简到繁的过程。其间,历代文人对平原君形象的书写与阐释并非只是简单
茎瘤芥(又名青菜头)是十字花科芸薹属芥菜种中的一类重要蔬菜,主要用于加工生产榨菜,在长江上游重庆涪陵及周边区域广泛栽培,是当地冬季主要栽培作物。随着重庆市涪陵及周边区域茎瘤芥产业的发展,茎瘤芥栽培过程中存在过量施肥、偏施氮肥、土壤酸化和环境污染等问题,这些问题不仅导致生产成本增加,也造成了茎瘤芥产量降低和品质下降,严重制约了茎瘤芥产业的健康发展。缓释肥具有养分释放慢和养分利用率高的特点,被誉为“环
本文主要以视觉语言元素的角度,着重以人物题材为切入点,分析奥地利艺术家古斯塔夫·克里姆特绘画创作中对“平面化”图式结构的建立。古斯塔夫·克里姆特(Gustav Klimt,1862-1918)是欧洲十九世纪末至二十世纪初奥地利国宝级绘画艺术大师。此时西方现代主义正处于发展初期,社会背景的巨变以及科学领域的蓬勃发展等因素促使文艺领域的现代主义发展。从克里姆特“平面化”图式结构研究中可以窥见西方现代主
现实生活中存在着大量的复杂系统,将它们抽象成复杂网络进行研究分析已成为一种有效的研究手段。在网络科学中,簇结构已被证明是复杂网络上一种普遍存在的结构特征。挖掘网络的簇结构既对揭示复杂系统中隐藏的各种信息、功能以及变化特征具有重要作用,也对理解现实世界中的各种交互行为具有一定的指导意义,例如,针对社交关系的个性化推荐、预测不同蛋白质之间的互动关系以及挖掘社会媒体的传播行为等。网络聚类算法是识别复杂网
传统的英语阅读教学重点放在语言点的分析讲解上,忽视培养学生对语篇的分析能力。学生对阅读课的兴趣不高,加上缺乏相应的语篇知识,导致学生在面对阅读时,无章法可依,信心不足。2017年版的《普通高中英语课程标准》要求学生在阅读的过程中,深化对语言的理解,重视对语篇的赏析,提升阅读理解能力。因此,本研究决定把语篇分析的阅读方法应用到实际的阅读教学中,分析其对于学生阅读理解能力和学生对阅读理解的信心和兴趣的
在人工智能技术不断发展的今天,我们已经处于信息的海洋中。但是当我们进行决策、投资时,要如何综合多个层次、多个方面的信息做出最明智、最符合当下情况的决策是一个不可避免的问题。在多源信息融合的应用中,如何处理传感器收集到的数据对于信息融合来说是至关重要的一步。首先要对收集到的传感器信息进行有针对性的处理,这样才能保证最后的融合结果是符合直觉与常理的。但是在实际的应用中由于传感器本身的故障、物理特性或者
土地承载着人类的社会活动,是人类社会发展的基础,与我们的生活息息相关,随着经济社会的快速发展,土地成为越来越重要的资源,合法保护和适当利用土地资源变得越来越重要。土地质量是土地的综合属性,体现了自然因素、人类活动等对土地的影响,通过土地质量地球化学评价可以得到土壤有益元素、有害元素等的含量水平、空间分布,以及土地质量的综合水平。了解研究区土地质量的详细情况,对土地利用规划、环境保护和可持续发展有重
从人工智能这一概念被首次提出至今,游戏博弈一直都是其最具技术和挑战性的主要研究领域和方向之一,博弈又可以划分为完全信息博弈和非完全信息博弈。完全信息博弈主要指在进行博弈时,信息都是完全可知的;非完全信息博弈的主要特征是智能体进行博弈时无法从局面信息中获得所有的信息。很多博弈都实际上是基于非完全的信息博弈模式来进行开发和对局的,例如带手牌的德州扑克等牌类,麻将,有战争迷雾的即时战略游戏等。真实世界的
随着人工智能领域的蓬勃发展,人工智能技术在人们日常生活中的应用日益广泛。其中机器学习日渐成为人工智能中最不可或缺的重要技术,而深度强化学习以其独特的学习模式成为了机器学习领域最炙手可热的研究方向之一。在深度强化学习中,模型的学习不需要提前采集大量标注的样本数据用于训练,也不需要考虑样本覆盖率问题,而是通过其独特的交互学习模式边学习边采集训练数据,甚至还能实现自我学习。这也使得深度强化学习在需要短时