论文部分内容阅读
并非所有的成果都类似诺贝尔奖的获奖工作或发表在《Nature》或《Science》上的研究一样拥有相当的成就与影响力,对于其余大部分的科研成果进行合理的量化分析,往往关系到科研政策、评价规则等的制定与修改,是长期以来的研究课题。研究实体主要有两种公开行为,即发表和引用。发表中包含的信息相对有限,其作为作者对自身研究内容的单向表达,基本只能体现作者在对应时期的研究内容及合作关系;而引用作为科研工作间的交流则包含了更多的信息,它除了能表现作者的研究内容外,还体现了该研究在更长时间中的价值及关联知识网络等丰富内容。因此大量针对科研成果的量化分析都逐渐过渡到了基于引用,或以引用为主的方法上。实际情况中,研究实体命名的歧义以及复杂不规范的计数方法都为计量分析带来了巨大的障碍,是否对研究实体进行消歧以及不同的计数方法选择往往会带来截然不同的评价与排名结果,如何准确发现研究实体并选择合理的计数方法是可靠量化分析的重要前提,目前存在众多针对作者等微观层面研究实体的消歧方法,但在机构层面的消歧研究因其复杂性仍然缺乏统一可行的方案。对于一个科研工作的引用,可以被粗略地分为两个部分,一个是来自作者自己的引用,即自引;一个是来自非作者的引用,即他引。其中自引一直充满争议,一个作者能有很多理由引用自身的工作,但是这些自引并不一定能反映这一工作的重要性和影响力。在国家这一宏观层面开展的自引研究并不多,且已有的相关研究基本限定在某一个或少数几个国家,以及一个或少数几个特定领域内的简单数据统计与现象分析,缺乏对这一层面自引情况的全面研究对比以及对相关原因的深入定量分析。本研究基于Web of Science(Wo S)数据库,在对原始数据进行清洗和结构化整理后,在已有的机构消歧方法基础上进一步改进了名称识别的准确性,并在相应层面对基于数学性质严格分类的不同计数方法产生的排名进行了相关性分析,最后以文献中第一作者的第一机构所在地址为该文章来源,计算并对比了主要国家的国际引用占比(即国家层面的他引占比),并对其进行了建模分析,解释了中国相比其它主要国家的异常变化趋势并在实证数据中对模型进行了验证,全面系统的描述了国家层面的自引现象及内在作用机制,补充和深化了相关研究。主要研究内容和发现如下:(1)大量研究机构在文献中往往存在多个命名形式,主要体现为名称的缩写、简写等,这类一个机构对应多个名称的现象即为机构层面的名称歧义,为后续统计分析带来了困难。由于针对机构的消歧方法尚无通行的解决方案,本文尽可能结合有限的信息,综合研判进行机构消歧。首先利用简写的作者名称筛选潜在的同一机构,对现有的基于规则的算法进行改进和整合,通过对机构名称的文本相似度,包含关系等开展多维度评判,结合机构地址中的多层次地理信息对其进行消歧处理,在Wo S数据库的数学和计算机与信息科学两个领域内得到了准确率较高的消歧后机构名称对照表。(2)科研工作的定量分析存在多种计数方法,通过5个严格定义的数学性质可将其归纳分类为完全计数(Complete Counting,CC)、完全分数计数(Complete-fractionalized Counting,Cf C)、第一作者直接计数(Straight Counting with first author,SCf)、通讯作者直接计数(Straight Counting with reprint author,SCr)、整体计数(Whole Counting,WC)、整体分数计数(Whole-fractionalized Counting,Wf C)共6种计数方法。本文在机构名称消歧的基础上,对机构层面相应两个领域内的文献利用下产生的发文量和收引量排名进行了相关性分析,并依据Spearman相关系数和层次聚类的结果将其进一步简化为三类,为相关研究中的计数方法选择提供了参考,其中Cf C,SCf,SCr在前30,50及100个机构中均呈现相对较高的相关性,为一类,WC和Wf C为一类,而CC则单独为一类。(3)结合计数方法的分析结果,以第一作者直接计数(SCf)方法统计文章机构地址所在国家为其对应国籍,计算了主要国家在2010年至2016年的收到引用量中的国际引用占比,统计结果显示中国的国际引用占比出现了明显异于其它主要国家的逐年下降趋势。基于随机引用的零模型(Null Model)开展的建模分析发现,在国家层面,每年发出引用量的增长率相对越高,其国际引用占比就将承受更大的下行压力;反之,则越容易呈现上升趋势。这一结论在实证数据中得到了较好的验证,随后本文通过“捡球”模型(Picking Ball Model)将引用过程简化,简明扼要地定性解释了出现这一现象的根本原因在于不同国家在全球科研工作总量中占比的变化,并在将发引量简化为发文量后,主要结论依然成立。这一模型的建立弥补了以往国家层面自引用研究在理论和内在机制上的缺失,进一步深化和拓展了自引用研究的范围。(4)对于随机引用模型中未能包含的大量其它因素,本文通过Z分数计算了外国对中国文献的实际引用概率与期望之间的偏差,结果显示消除与不消除学科体量影响时,外国对中国的引用偏好在2010至2016年间分别呈现了轻微上升和下降的趋势,这部分反映出中国在活跃的新兴学科中收到其他国家的实际引用概率相较中国发表文献所带来的期望值在持续下降。