顶级科研论文在社交网络中的关注度研究

来源 :现代情报 | 被引量 : 0次 | 上传用户:lxwhuochai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:[目的/意义]顶级科研论文代表了世界学术领域内重大的独创研究成果,其在网络中的受关注程度体现了社会大众对重大科研进展的关心热度。研究顶级期刊论文在网络中的关注度及其影响因素,可以为提出全面科学的论文评价体系奠定基础,为论文在网络中获得高的网络关注提供指导意见。[方法/过程]利用2016年发表在《Nature》和《Science》的1584篇科研论文的Altmetrics数据和题录信息,从分布特征和相关系数两个维度描绘了论文社会影响力与学术影响力的关系,从论文研究主题和来源国家两个维度探析了论文网络关注度的影響因素。[结果/结论]顶级期刊论文的Altmetrics指标和被引量波动范围较大,各指标分布均呈现长尾偏右的尖顶曲线;论文的Attention score与被引量的相关性较弱;探讨与人类健康和生活相关研究主题的论文更容易获得高的网络关注度。不同国家的论文网络关注度呈现出3类较突出的特征;论文的国际合作程度越高,越有机会获得高的网络关注度。
  关键词:Altmetrics;社交媒体;顶级科研论文;关注度
  DOI:10.3969/j.issn.1008-0821.2019.07.019
  〔中图分类号〕G250.252 〔文献标识码〕A 〔文章编号〕1008-0821(2019)07-0153-09
  Abstract:[Purpose/Significance]Top academic papers represent the significant original scientific research in the worldwide academic field,and their popularity on the social network reflects what the public interest is for major scientific research progress.Research on the degree of attention of top academic papers on the social network and its influencing factors can lay a foundation for the comprehensive scientific paper evaluation system,and provide guidance for papers to gain high network attention on the social network.[Method/Process]Using altmetrics data and bibliographic information from 1584 papers published in《Nature》and《Science》in 2016,the relationship between social influence and academic influence were depicted from two perspectives of the distribution characteristics and correlation coefficient,and the influencing factors of the network attention were investigated from two perspectives the research topic and country.[Result/Conclusion]The fluctuation range of Altmetrics indicator and citations of top journal papers was relatively large,and the distributions for all indicators presented a sharp curve with a long tail to the right.The relationship between the Attention score and the citation score was relatively weak.Papers with topics related to human health and life were more likely to gain high network attention.The network attention for different countries presented three prominent features,and the higher of the papers international collaboration rate,the greater of network attention the papers would receive.
  Key words:Altmetrics;social media;top academic papers;degree of attention
   传统的论文评价方法一般使用论文的被引量来评价论文的价值,测度的是论文的学术影响力,周期较长且具有滞后性,逐渐变得难以适应现代科学研究的需要[1]。随着互联网技术的普及、开放获取运动的深入和在线科学交流方式的繁荣,Altmetrics应运而生[2],它测度的是论文的社会影响力,是对传统计量学的一种补充[3]。广义的Altmetrics是面向学术成果全面影响力的评价指标体系;狭义的Altmetrics则是专门研究基于社交网络数据的计量指标[4],包括学术成果在Facebook、Twitter、Mendeley等社交网络中被转载、推送和提及的次数等。目前提供社交网络计量指标的服务平台主要有Altmetric.com、ImpactStory、PLOS ALMs和Plum Analytics等。由于社交网络计量指标反映的是学术成果在网络中受关注的程度,故可用来衡量学术成果的社会影响力。   文献的网络关注度与被引量之间的关系一直受到学者们的广泛关注。对于网络关注度是否与被引量存在显著的正相关性,不同研究给出的结论不尽相同。一些研究表明论文网络关注的增加会导致被引量的显著增加,例如Shu F等[5]的研究表明,在同年同期刊发表的论文中,被Twitter转发的论文比未被Twitter转发的论文被引量高30%。而另一些研究[6-8]则发现论文网络关注度与被引量之间的关系较弱。可见,论文的网络关注度与被引量之间的关系仍然是个开放性的话题。本文选取2016年发表在《Science》和《Nature》兩本期刊上的所有论文作为研究对象,综合运用论文的Altmetrics数据和题录信息,探讨顶级期刊论文的网络关注度与被引量之间的关系,并从论文的内在特征和外显特征两个角度,对论文网络关注度的影响因素进行深入分析,以期为全面科学的论文评价体系构建提供理论依据。
  1 研究设计
  首先,确定论文集合,收集论文的Altmetrics指标数据(见表1)和在学术数据库中的题录信息。然后,从分布特征和相关系数两个角度探讨论文社会影响力与学术影响力之间的关系。最后,从内在特征和外显特征(国家)两个维度对论文网络关注度的影响因素进行剖析,内在特征主要选取论文的研究主题,外显特征主要选取论文的来源国家。
  1.1 数据采集
  论文的题录信息来源于Web of Science(WoS)。在WoS核心合集数据库中,设置检索式“出版物名称:Nature or Science AND 时间跨度:2016-2016”,共检索到5 306篇记录。选取文章类型为“Article”,得到1 584篇论文的题录信息,包括题目(TI)、摘要(AB)、作者机构隶属(C1)、DOI号(DI)和被引量(Z9)等。
  论文的Altmetrics指标数据来源于Altmetrics.com。通过本项目组开发的Python程序访问Altmetrics API,通过上述1 584篇论文的DOI号获取对应Altmetrics指标数据。
  两类数据集的获取时间均为2018年9月12日。
  1.2 论文社会影响力与学术影响力关系分析
  以论文的Altmetrics指标数据表征其社会影响力,以被引量表征其学术影响力,从分布特征和相关系数两个维度探讨论文社会影响力与学术影响力之间的关系。
  1.2.1 论文Altmetrics指标与被引量的分布特征
  本文利用统计学基本方法,从集中趋势、离散程度和分布形态3方面对论文Altmetrics指标与被引量的分布特征进行刻画分析,其中,集中趋势的统计量包括均值和中位数,离散程度的统计量包括极大值、极小值、极差和标准差,分布形态的统计量包括偏度和峰度。
  1.2.2 论文Altmetrics指标与被引量的相关分析
  根据论文Altmetrics指标与被引量的分布特征,判断二者是否服从正态分布。若服从正态分布,则选择Pearson相关系数描绘各Altmetrics指标与被引量之间的关系,若不服从正态分布,则选择Spearman相关系数描绘两者之间的关系。
  根据相关性分析结果,确定一个可代表网络关注度的综合指标,用于下一步论文网络关注度的影响因素分析。
  1.3 论文网络关注度的影响因素分析
  借鉴论文被引量的影响因素,结合论文在网络中传播的特点,本文从内在特征(标题)和外显特征(国家)两个维度对关注度不同的论文进行研究。
  1.3.1 不同关注度论文主题分析
  论文标题是论文主题的浓缩,一个吸引眼球的标题必然会在网络上引起高度关注,故本文选取标题进行论文的主题分析。按论文的Attention Score和被引量分别排序,选择位于前1/4的值为阈值,将论文分为4类,即高关注高被引论文、低关注高被引论文、高关注低被引论文和低关注低被引论文。首先,分别对4类论文的标题进行切词、去停用词、词频统计、删除意义不明确的词等操作,并选取各类前10个高频主题词。然后,将每个主题词对应回原论文,将论文的Attention Score和被引量赋给对应的主题词,计算每个主题词的平均Attention Score值和被引值,并以此作为主题词的横纵坐标。最后,将这些主题词绘制在战略坐标图中进行主题分析。
  1.3.2 不同关注度论文的来源国别分析
  为了探明论文的网络关注度是否受来源国家的影响,我们从国家差异度和国家合作程度两个角度进行剖析。
  1)国家差异分析
  运用1.2.1中的描述性统计量,从集中趋势、离散程度和分布形态3方面对发文量前20国家综合网络关注度指标的分布特征进行刻画分析。
  2)国家合作程度分析
  统计每篇论文的合作国家数量,按照前述的相关系数选择标准,选择合适的相关系数指标,描绘论文Attention Score和国别数量之间的关系。
  2 结果与讨论
  2.1 论文社会影响力与学术影响力关系研究
  2.1.1 论文Altmetrics指标与被引量的分布特征
  由表2可知,Post、Twitter、Mendeley和Attention Score 4种Altmetrics指标的均值与中位数存在显著差异,标准差亦较大,说明其向中心集中的程度较低,两极化离散程度较高。Facebook、Msm、Feed、Reddit和Google 5种Altmetrics指标的均值与中位数较为接近,且标准差相对较小,说明其向中心集中的程度较高、离散程度较低。表中除Reddit外,其余9项指标的极大值与极小值的差距都较为明显,说明指标的波动范围较大。从分布形态上看,10个指标的偏度、峰度均为正值,说明其分布都呈现长尾偏右的尖顶曲线,其中Mendeley和被引量指标的值较大,说明二者的分布曲线形态相近,更为尖峭。   2.1.2 论文Altmetrics指标与被引量的相关分析
  根据前述分析,本文中论文的9种Altmetrics指标和被引量指标均不服从正态分布,故本文采用Spearman相关系数计算各指标之间相关关系。
   表3的相关矩阵显示,各指标之间的相关性均具有统计学意义。除Mendeley指标外,其余8种Altmetrics指标之间的相关系数均较高,呈现出较强的正相关性。结果与之前的研究[7-9]不一致:2017年Hassan对15个学科的论文Altmetrics数据进行研究,发现各Altmetrics指标间的相关系数在0.1~0.4之间,属于弱相关的范围。2015年Costas分析了5个领域的718 315篇论文Altmetrics指标间的相关性,得出各指标间的相关性较弱的结果。这说明顶级期刊论文不同于普通期刊论文,在各个工具上的访问具有一致性。
  相反,除Mendeley指标外,其余8种Altmetrics指标与被引量之间的相关系数均较低,呈现出较弱的正相关性。这一方面再次表明了Altmetrics指标所反映的影响力维度与被引量并不一致;另一方面提示可以利用论文的Mendeley指标预测论文的被引量,由于Mendeley的时效性远强于被引量,因此可以帮助科研人员更快地发掘论文的学术价值。
  Attention Score与其它各Altmetrics指标之间均表现出较强的相关性,这表明作为对论文接收到的各种网络关注度的加权综合值,Attention Score可以反映论文的综合社会影响力。本文采用Spearman相关系数对Attention Score与被引量之间的关系进行详细分析(见表4)。首先,分别计算《Nature》和《Science》期刊上所有论文Attention Score与被引频次之间的相关系数,并进行对比分析。结果显示,两期刊论文的Attention Score和被引频次相关系数均具有统计学差异,但相关系数不高,处于弱相关范围,且前者的相关系数(0.208)大于后者(0.110)。然后,分别对《Nature》和《Science》期刊论文按照Attention Score进行降序排列,选取前25%和后25%两个集合,计算Attention Score与被引频次之间的相关系数,并进行对比分析。结果显示,《Nature》期刊中Attention Score排名前1/4论文的Attention Score与被引量之间的相关系数具有统计学意义,但相关程度不高(0.165),低于《Nature》所有论文集合的相关系数。最后,分别对《Nature》和《Science》期刊论文按照被引量进行降序排列,选取前25%和后25%兩个集合,计算Attention Score与被引频次之间的相关系数,并进行对比分析。结果显示,《Nature》期刊中Attention Score排名前1/4论文的Attention Score与被引量之间的相关系数具有统计学意义,且其相关系数(0.397)高于所有论文集合的相关系数。以上表明,对于刊登在不同期刊上的论文,其Attention Score与被引量之间的相关性存在差异;高被引论文受网络关注的程度相较于高关注论文受学术界关注的程度更高。
  2.2 论文网络关注度的影响因素分析
  2.2.1 不同关注度论文主题分析
  对论文标题进行切词、去停用词、词频统计、删除意义不明确的词(如“结构(Structure)”、“规则(Regulation)”、“系统(System)”、“通路(Pathway)”、“通道(Channel)”、“相互作用(Interact)”)等操作,绘制高频主题词战略坐标图(见图1)。
  由于部分词的坐标值较接近,导致绘制出来的点有重合,故本文对这些词的坐标进行了细微调整。
  由图1可知,“细胞(Cell)”和“人类(Human)”是四类论文共同的研究主题。在高关注高被引论文中,“癌症(Cancer)”、“病毒(Virus)”、“DNA”、“进化(Evolution)”等均是与人类生命健康息息相关的主题。而高关注低被引论文中,“记忆(Memory)”、“气候(Climate)”、“冥王星(Pluto)”、“全球(Global)”等主题较为生活化,与人类生活息息相关。低关注高被引的论文与低关注低被引的论文研究主题具有一定的相似性,如“蛋白质(Protein)”、“量子(Quantum)”、“分子(Molecular)”、“钙钛矿(Perovskite)”等均为较专业化的主题。以上表明,偏生活化的主题在网络中的受关注度较高,专业化的主题在网络中受关注度则较低。
  为了更直观地展现高关注度论文的研究主题,表5列出了Attention Score排名前10的论文。这10篇论文的研究主题包括:海平面上升、人类寿命、阿尔茨海默病、细菌的降解同化、自动驾驶汽车的困境等。这些主题与大众的生活联系比较紧密,易引起大众的兴趣并被大众所理解。其中论文“南极洲海平面上升对过去和未来的贡献”获得的网络关注度最高,其研究内容事关全世界人民的生存发展,被全球46个国家/地区转载,美国转载次数最高(112次),全球转载人数共计达到516人。
  2.2.2 不同关注度论文来源国家分析
  1)国家差异度
  本文将1 584篇论文的Attention Score值降序排序,以四分位间距分成4份,选取前1/4(25%)的论文(396篇)和后1/4(25%)的论文(396篇)分别代表高关注论文和低关注论文,对这两类论文进行研究。分别统计两类论文的来源国家/地区发文量。每个国家/地区的发文量根据论文的通讯作者所属国家/地区进行计算。例如,1篇论文有3位通讯作者,2位来自中国,1位来自美国,那么,中国对这篇论文的贡献记2/3,美国记1/3。   表6列出了两类论文中发文量前20的国家,美国在两类论文中均居首位,且发文量远高于其它国家,这说明美国在顶级期刊《Nature》和《Science》上的发文量占主导地位。德国和英国紧跟其后。由表6可以将国家分为3类。第一类,高关注论文与低关注论文占本国发文量的比例相当,例如美国和日本,这说明这两个国家的论文在不同类别中分布均匀。第二类,高关注论文量占本国发文量比重较高,低关注论文量占本国发文量比重较低,例如澳大利亚,这说明该国发表的论文大部分获得相对较高的网络关注度。第三类,高关注论文量占本国发文量比重较低,低关注论文量占本国发文量比重较高,例如中国,这说明我国发表的论文大部分获得相对较低的网络关注度。
   表7展示了发文量前20名的国家论文网络关注度的分布特征。美国的发文量最高,且论文网络关注度的极大值和极小值均位于首位,表明美国发表论文的网络关注度悬殊较大。中国的发文量位居第四,但论文的篇均网络关注度、中位数和极大值均较低,表明我国的论文网络关注度整体处于较低水平。澳大利亚的发文量较少,但其论文的篇均关注度最高,位列第一,属于典型的论文“少而精”的国家。从分布形态上看,各国论文网络关注度的偏度、峰度均为正值,说明其分布都呈长尾偏右的尖顶曲线。
   以上表明,我国在顶级期刊上发表论文的数量已经显现出优势,但受网络关注的程度仍处较低水平,故论文质量有待进一步提升。
  2)国家合作程度
  表8显示论文的Attention Score和国别数量之间存在显著相关性(p<0.01),相关系数r为0.234,属于弱相关范围。表9显示,论文的Attention Score随着参与撰写论文的国家数量的增多而增加,由7个国家合作撰写的论文获得网络关注度最高(742.33),合作国家数量大于7时,论文的网络关注度虽有所下降,但仍保持较高水平(>500)。前期研究[10]证实,论文在网络上的扩散首先是从本地区、本国开始的。因此论文的合作国别个数越多,就越有可能同时在多个国家进行扩散,从而获得更多学者和大众的关注。
  3 结论与展望
  3.1 结 论
  1)高水平期刊论文的Altmetrics指标和被引量波动范围较大。其中,Post、Twitter、Mendeley和Attention Score 4种Altmetrics指标两极化离散程度较高,Facebook、Msm、Feed、Reddit和Google 5种Altmetrics指标向中心聚拢程度较高。各指标分布均呈现长尾偏右的尖顶曲线,其中Mendeley和被引量的分布曲线更为尖峭。
  2)Attention Score指标与其他Altmetrics指标的相关系数均较高,故可以选做衡量论文网络关注度的一个综合指标。Mendeley指标与各Almetrics指标的相关度较低,但与被引量的相关度很高,故可用于预测论文的被引量,评价论文的学术价值。
  3)对于高水平期刊论文而言,关注人类健康和生活话题的论文容易在网络中获得更高的关注度,而关注专业性话题的论文在网络中获得的关注度则较低。这与之前的研究结果[11]一致,即在社交媒体中,研究主题会影响论文在网络中的关注度。
  4)不同国家的论文网络关注度呈现出3类较突出的特征,分别是以美国为代表的“均匀分布型”、以中国为代表的“中低关注型”和以澳大利亚为代表的“高度关注型”。论文的国际合作程度会影响论文的网络关注度。论文的国家合作度越高,越有机会获得较高的网络关注度。这提示科研人员要重视并加强国际合作,一方面可以实现优势互补,另一方面也能促使论文获得高的社会认可度。
  3.2 展 望
  本文选取刊登在顶级期刊上的论文,在分析其网络关注度与被引量之间关系的基础上,从论文的内在特征和外显特征两个角度,对网络关注度的影响因素进行了分析。由于Altmetrics指标受时间的影响比较大,所以本文只选取了《Nature》和《Science》一年的发文量作为研究对象。下一步可以选取适当方法消除时间带来的影响,扩大数据量,以便得出更可靠的结果。未来也有待从关注渠道、关注网络等多角度开展论文网络关注度研究。
  参考文献
  [1]Weller K,Puschmann C.Twitter for Scientific Communication:How Can Citations/References Be Identified and Measured?[C]//Proceedings of the ACM WebSci11.Koblenz:ACM,2011:1-4.
  [2]余厚强,邱均平.替代计量学视角下地在线科学交流新模式[J].图书情报工作,2014,58(15):42-47.
  [3]Remedios,M.Altmetrics-A Complement to Conventional Metrics.[J].Biochemia Medica,2015,25(2):152-160.
  [4]魏思廷.結合替代计量学的数字图书馆知识服务新模式[J].图书情报知识,2015,(2):87-92.
  [5]Shu F,Haustein S.On the Citation Advantage of Tweeted Papers at the Journal Level[C]//Proceedings of the Association for Information Science
其他文献
〔摘要〕在我国科技重大专项制度以及吉林省科技信息研究所知识服务现状的基础上,提出了面向吉林省科技重大专项的知识服务模式,指出通过面向吉林省科技重大专项提供知识服务能够显著提高知识服务效果,对于科技重大专项以及科技信息机构来说能够取得双赢的结果。文章的最后就如何开展面向吉林省科技重大专项的知识服务提出了对策。  〔关键词〕知识服务;科技重大专项;科技信息机构  〔中图分类号〕G391〔文献标识码〕A
〔摘要〕情报检索是情报研究工作的前提和核心。本文基于科学知识图谱理论,对近数十年来情报检索的研究做概貌性描述,运用主题词词频分析、聚类分析、共词分析、合著分析等文献计量方法,统计了情报检索领域1956-2015年的103 733篇学术文献,对文献的时间分布、文献主题分布、关键词词频、国家分布、机构分布、作者分布、合著关系等数据进行分析,并通过可视化知识图谱展示了作者合著关系以及主题词和关键词的共现
10月31日,北京CBD国际人才一站式服务中心揭牌,这是中国(北京)自贸区范围内的首创。另外,朝阳区还正式启动了中国自由贸易试验区CBD国际人才港,将着力打造集人才集聚、综合服务、发展培育和交流互动于一体的综合性人才发展服务平台,构建国际人才全链条服务体系,建设国际人才信息互通之“站”、发展互动之“港”、交融互联之 “家”。  聚集国际人才 助力自贸区建设  当前,朝阳区正全力推进自由贸易试验区和
17年教育路上,中黄致力于培养兼备中国情怀和国际视野的未来人才,驾驶着国际教育推广与传统文化传播两架“马车”齐头向前。  作为海上丝绸之路的主港,广州一向被视为中国通向世界的“南大门”。千年大港与商都的底蕴,首批沿海开放城市的契机,赋予这座城市中西相融、古今交汇的气派与胸襟。借时代发展之东风,国际化教育近年来在此亦掀起潮流,呈百花齐放的恢弘气象。  自2003年在广州的文化沃土上落地生根,中黄国际
PSW签证恢复后,“二硕”成为了留英学子的“最优解”。  “二硕”,顾名思义,指的是第二个硕士。对很多在英国高校就读的中国留学生来说,“二硕”这个词语并不陌生。但在国内,很少有人会在已经获得了硕士学位之后,再度返回校园,读第二个硕士专业。这跟国内硕士研究生的学制较长有密不可分的关系。由于中国的硕士研究生学制为三年,且社会环境对于工作经验要求较高,很多人都倾向于尽早进入职场,积攒工作经验。而在英国,
〔摘 要〕本文设计了一个基于B/S的图书馆自建特色数据库,对其数据库的构建和系统功能的设计进行了详细的阐述。该系统可根据文献的题名、作者、关键词等,实现单条件检索、多条件检索、模糊检索和跨库检索,提高专业文献的检索效率与信息资源利用率。  〔关键词〕特色数据库;B/S;检索系统  〔中图分类号〕G250.74 〔文献标识码〕C 〔文章编号〕1008-0821(2009)02-0109-03    
赴美留学14问,直击留学生关注焦点。  近期,赴美禁令解除,美国驻华使馆开放学生签证工作,很多学生期盼着秋季学期能够重返校园。但是,他们还面临着很多现实的问题亟待解答。  当前,签证工作进行情况如何?美国疫情形势怎么样?美国政府和高校在接种疫苗、入境隔离方面有哪些政策?如何才能获取准确信息?  近日,《留学》记者来到美国驻华大使馆,围绕着中国学子最关切的焦点问题展开 专访。  美国驻华大使馆领事处
调整心态,正确备考。  自从新冠肺炎疫情暴发以来,一系列的考试取消或延期导致许多留学生的生活、学习计划被打乱,停签、停航、停考,一切都偏离了既定轨道。如今更是延续至5月、6月份,这场风波远未平息。  SAT6月全球考试取消,雅思、托福5月大陆考试取消,IB全球大考取消,A-Level 5-6月考试取消,AP改为线上,ACT4月考试延期至6月……  这些考试的接连取消或延迟,受到影响最大的就是申请2
〔摘要〕通过校企发明专利合作申请的统计,对比广东高校和企业在行政区内外校企合作创新网络的特点和差异,以期对现阶段广东校企产学研技术创新的功能定位及校企合作的紧密度和广度有一个总体认识。研究发现:广东校企技术合作呈现出有别于国内普遍规律的特点,企业参与主体以省内主导行业中的龙头企业为主,中小企业参与程度较低;合作对象主要是国内著名大学,与省内高校合作较少;合作创新的技术领域集中在电子通信行业。高校参
摘要:以Web of Science数据库为检索来源。以主题检索的形式得出竞争情报的相关文献.运用文献计量学的方法对这些文献进行论文发表数量的年度分析,不同语种数量分析,不同国家地区分析,以及论文作者的分布和期刊来源分析。由此反映出WOS数据库竞争情报领域发表论文的状况,总结了该领域发表论文的一些特点,为以后相关内容的进一步研究提供借鉴。  关键词:竞争情报;Web of Science;文献计量