基于实证数据的机构与国家论文引用量分析与建模研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:wulb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
并非所有的成果都类似诺贝尔奖的获奖工作或发表在《Nature》或《Science》上的研究一样拥有相当的成就与影响力,对于其余大部分的科研成果进行合理的量化分析,往往关系到科研政策、评价规则等的制定与修改,是长期以来的研究课题。研究实体主要有两种公开行为,即发表和引用。发表中包含的信息相对有限,其作为作者对自身研究内容的单向表达,基本只能体现作者在对应时期的研究内容及合作关系;而引用作为科研工作间的交流则包含了更多的信息,它除了能表现作者的研究内容外,还体现了该研究在更长时间中的价值及关联知识网络等丰富内容。因此大量针对科研成果的量化分析都逐渐过渡到了基于引用,或以引用为主的方法上。实际情况中,研究实体命名的歧义以及复杂不规范的计数方法都为计量分析带来了巨大的障碍,是否对研究实体进行消歧以及不同的计数方法选择往往会带来截然不同的评价与排名结果,如何准确发现研究实体并选择合理的计数方法是可靠量化分析的重要前提,目前存在众多针对作者等微观层面研究实体的消歧方法,但在机构层面的消歧研究因其复杂性仍然缺乏统一可行的方案。对于一个科研工作的引用,可以被粗略地分为两个部分,一个是来自作者自己的引用,即自引;一个是来自非作者的引用,即他引。其中自引一直充满争议,一个作者能有很多理由引用自身的工作,但是这些自引并不一定能反映这一工作的重要性和影响力。在国家这一宏观层面开展的自引研究并不多,且已有的相关研究基本限定在某一个或少数几个国家,以及一个或少数几个特定领域内的简单数据统计与现象分析,缺乏对这一层面自引情况的全面研究对比以及对相关原因的深入定量分析。本研究基于Web of Science(Wo S)数据库,在对原始数据进行清洗和结构化整理后,在已有的机构消歧方法基础上进一步改进了名称识别的准确性,并在相应层面对基于数学性质严格分类的不同计数方法产生的排名进行了相关性分析,最后以文献中第一作者的第一机构所在地址为该文章来源,计算并对比了主要国家的国际引用占比(即国家层面的他引占比),并对其进行了建模分析,解释了中国相比其它主要国家的异常变化趋势并在实证数据中对模型进行了验证,全面系统的描述了国家层面的自引现象及内在作用机制,补充和深化了相关研究。主要研究内容和发现如下:(1)大量研究机构在文献中往往存在多个命名形式,主要体现为名称的缩写、简写等,这类一个机构对应多个名称的现象即为机构层面的名称歧义,为后续统计分析带来了困难。由于针对机构的消歧方法尚无通行的解决方案,本文尽可能结合有限的信息,综合研判进行机构消歧。首先利用简写的作者名称筛选潜在的同一机构,对现有的基于规则的算法进行改进和整合,通过对机构名称的文本相似度,包含关系等开展多维度评判,结合机构地址中的多层次地理信息对其进行消歧处理,在Wo S数据库的数学和计算机与信息科学两个领域内得到了准确率较高的消歧后机构名称对照表。(2)科研工作的定量分析存在多种计数方法,通过5个严格定义的数学性质可将其归纳分类为完全计数(Complete Counting,CC)、完全分数计数(Complete-fractionalized Counting,Cf C)、第一作者直接计数(Straight Counting with first author,SCf)、通讯作者直接计数(Straight Counting with reprint author,SCr)、整体计数(Whole Counting,WC)、整体分数计数(Whole-fractionalized Counting,Wf C)共6种计数方法。本文在机构名称消歧的基础上,对机构层面相应两个领域内的文献利用下产生的发文量和收引量排名进行了相关性分析,并依据Spearman相关系数和层次聚类的结果将其进一步简化为三类,为相关研究中的计数方法选择提供了参考,其中Cf C,SCf,SCr在前30,50及100个机构中均呈现相对较高的相关性,为一类,WC和Wf C为一类,而CC则单独为一类。(3)结合计数方法的分析结果,以第一作者直接计数(SCf)方法统计文章机构地址所在国家为其对应国籍,计算了主要国家在2010年至2016年的收到引用量中的国际引用占比,统计结果显示中国的国际引用占比出现了明显异于其它主要国家的逐年下降趋势。基于随机引用的零模型(Null Model)开展的建模分析发现,在国家层面,每年发出引用量的增长率相对越高,其国际引用占比就将承受更大的下行压力;反之,则越容易呈现上升趋势。这一结论在实证数据中得到了较好的验证,随后本文通过“捡球”模型(Picking Ball Model)将引用过程简化,简明扼要地定性解释了出现这一现象的根本原因在于不同国家在全球科研工作总量中占比的变化,并在将发引量简化为发文量后,主要结论依然成立。这一模型的建立弥补了以往国家层面自引用研究在理论和内在机制上的缺失,进一步深化和拓展了自引用研究的范围。(4)对于随机引用模型中未能包含的大量其它因素,本文通过Z分数计算了外国对中国文献的实际引用概率与期望之间的偏差,结果显示消除与不消除学科体量影响时,外国对中国的引用偏好在2010至2016年间分别呈现了轻微上升和下降的趋势,这部分反映出中国在活跃的新兴学科中收到其他国家的实际引用概率相较中国发表文献所带来的期望值在持续下降。
其他文献
小学语文教学应与学生的生活相联系旨在开扩学生的视野,提高学习语文的兴趣。本文将分析生活对语文教学的意义并探讨如何实现小学语文教学的生活化以此提高语文教学的教学质量。
期刊
已有文献较少从创新效率的无效性角度关注创新激励政策的作用。随着国家创新激励政策实施力度不断加大,强化政策实施精准性与有效性已成为提高企业创新系统整体效能的重要支点。基于中国A股上市公司面板数据,运用DEA两阶段模型从企业创新无效性的视角剖析典型创新激励政策——高新技术企业优惠税率政策对处于不同生命周期阶段的企业创新无效性的影响与作用机制。分组描述性统计结果显示,成熟期企业所受税收优惠、企业规模和员
期刊
随着网络与人们生活越来越紧密的结合,每个人都成为互联网上信息的生产者,每天有海量的数据在产生,信息检索成为了一个十分重要的课题,人们对于信息检索的需求也不再是单纯的用关键字查找相关文本,而是文本、图片、音频、视频等各种模态的数据互相检索查询,因此跨模态检索成为了信息检索方法研究的热点。跨模态哈希方法由于其额外空间占用低、检索速度快的特点成为了跨模态检索问题的一个优秀解决方案,因此受到越来越多的研究
学位
随着互联网大数据和信息技术的飞速发展,各类社交平台相继兴起,随之而来的是海量的数据,其中大部分是文本数据,而如何从文本中提取出有价值的部分,则正是自然语言处理的研究内容。在这些文本数据中,又以陈述句居多,如何针对这些句子,提出合理的问题,正是问题生成所要解决的。如今的在线教育行业正向以人工智能、大数据为基础的智慧教育发展,在这其中,需要为学生提供更多针对性的评估方法,这些往往都是以提问的方式出现。
学位
新兴的在线新闻平台为人们获取信息提供一种新的途径,随着这些平台上各种新闻数量的爆炸性增长,人们在海量新闻中很难找到有价值的话题。因此,如何从各种在线新闻中发现有意义的话题成为一项重要任务,新闻话题检测技术应运而生。新闻话题检测是话题检测与跟踪(Topic Detection and Tracking,简称TDT)的子任务,近年来引起广泛关注。通常,一个话题可以被认为是在特定时间或地点发生的特定事件
学位
近年来,全球癌症发病率呈逐年上升趋势,其中女性乳腺癌的发病率已经超过肺癌,已经成为影响女性健康的主要疾病之一。对乳腺癌症患者进行精准生存预后判断是当前乳腺癌研究领域的关键问题。准确的生存预后作为癌症预后的重要研究内容之一,在临床决策、建立姑息治疗体系等方面具有重要意义。与此同时,基因测序技术和数字影像技术的发展带来了海量的癌症组学和病理图像等多模态数据,为乳腺癌患者生存期预测研究提供了坚实的数据基
学位
人机对话作为自然语言处理的一个重要分支,旨在使普通人能够使用自然语言与机器进行交互,以方便快捷的方式获得自动信息服务。现有的人机对话系统主要可分为闲聊型和任务型两大类。任务型对话系统包含自然语言理解(Natural Language Understanding,NLU)、对话状态追踪(Dialog State Tracking,DST)、对话策略(Dialogue Policy,DP)和自然语言生
学位
聚类分析是一种经典的无监督机器学习方法,其主要目标是根据数据空间的相似性,密度,间隔或特定的统计分布度量将数据进行划分。聚类一般用于探索性的数据挖掘问题,如今在图像分析,信息检索,数据压缩,文本挖掘和生物信息学等多个领域均有广泛的应用。然而,随着数据采集技术和存储技术的进一步发展,大量的无结构化、非线性的高维数据也随之产生,传统的聚类算法往往无法有效地揭示和探索这些高维非线性数据的潜在知识规律。因
学位
报纸
背景:研究表明,在地塞米松诱导腭裂的小鼠胚胎腭突间充质细胞中miR-135a-5p呈高表达,初级纤毛及其介导的Shh信号通路参与小鼠胚胎腭突间充质细胞的自噬。由此猜测miR-135a-5p可能通过初级纤毛及其介导的Shh信号途径调控小鼠胚胎腭突间充质细胞的自噬。目的:探讨miR-135a-5p对小鼠胚胎腭突间充质细胞自噬的调控作用。方法:体外提取并培养C57BL/6J小鼠胚胎腭突间充质细胞。细胞转
期刊