期刊h指数与载文量引文量关系模型的实证与验证

来源 :图书情报工作网刊 | 被引量 : 0次 | 上传用户:myhululu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要] 分析Schubert- Glanzela期刊h指数模型可能存在的问题,通过实际统计回归得出期刊h指数经验模型,通过实例验证其模型的准确性。在分析模型变化规律的基础上,对模型进行修正与描述。通过实例验证,指出经验模型对机构h指数同样具有较高的解释力度。
  [关键词] 期刊h指数 经验模型 机构h指数 验证
  
  2005年美国物理学家赫希 (J. E. Hirsch) 提出了主要用于评价科学家个人学术成就的一项新指标——h指数 (h-index)。该指标一经提出,便迅速得到国际科学界的高度关注,成为科学计量学与科学评价领域的国际热点问题。匈牙利信息科学与计量学研究中心、《科学计量学》(Scientometrics) 主编布劳恩 (T. Braun) 等人将h 指数加以扩展并应用于期刊影响力评价中 , 创立了期刊 h 指数,即: 对于一种期刊, 如果它发表的全部论文中有h篇文章 , 每篇被引用数至少为 h,同时要满足这个自然数为最大,那么该值即为该期刊的h指数[1]。A. Schubert与W. Glanzela在假设期刊文献被引分布规律遵循Lotka定律的基础上,推导出期刊h指数与载文量、篇均被引量的理论数学模型,如公式(1)所示:
   …………(1)[2]
  (h为h指数,c为常数,N为载文量,IF为影响因子,S为篇均被引量,a为Lotka指数)
  并设Lotka指数a=2时,对其进行了验证,验证结果常数c约为0.75,且不存在学科差异。公式中涉及了载文量(N)、影响因子(IF)与h指数3个指标量,影响因子代表了期刊论文的质量,因此,该公式巧妙地将期刊h指数和载文数量与质量联系在一起,极富创意地解释了期刊h指数的内涵。但公式在推导过程中毕竟经过了多次的近似转换,尤其是公式中的常数c的取值,笔者也认为是1,从理论上来说也应该为1(当N=1、IF=1时,h=1),但作者在验证时得出常数c的取值约为0.75。笔者在仔细分析作者的验证结果后认为常数c小于1的结果是对载文量(N)或篇均引文量(S)的幂总体上高估了,为此,笔者从实例统计出发,力求对公式(1)作出修正,使得模型与实际误差更小、更精确。
  
  1 期刊h指数模型的实证与验证
  
  笔者利用《中国引文数据库》作为统计源,利用《中国期刊全文数据库》中的期刊导航分类目录,按类统计不同专业不同时间段载文量及分别至统计时的被引量与h指数,并以公式(2)回归。
   …………(2)
  先后共统计回归了45个不同样本,回归结果均遵循公式(2),这说明公式(1)中的常数确实为1,根据公式(1)可知N与S的幂的和为1( ,对45个样本回归结果为:0.997< <0.804,均小于1,平均约在0.9左右,这充分说明了公式(1)在推导过程中,由于经过多次的近似转换,使得N与S的幂比实际的大,在验证时,使得常数c小于1。各类统计样本回归的 与 有一定的差别,但也有一定的规律性,通过对 与 直线回归后得到如下结果:
   …………………… (3)
   …………(4)
   ……………… (5)
  为了验证所得模型的准确性,分别取 为0.32、0.33、0.34、0.35、0.36, 分别为0.688、0.635、0.582、0.529、0.476,对所统计的样本逐一验证,并与公式(1)(a=2)对比,为了能够清楚地表达模型的准确性,本文使用统计学中的解释力度概念:
   ………… (6)
  (h表示实际统计的h值, 表示模型估算的h值, 表示实际统计的h值平均数)
  以《中国期刊全文数据库》中导航目录提供的数学类目录为样本,载文时间为2000-2001年,统计时间为2010年6月17日,如表1所示。
  验证结果为: , ,即公式(3-5)对统计样本的解释力度为97.80%,公式(1)在c=1、a=2时对统计样本的解释力度为78.28%,取c=0.82时,公式(1)的解释力度为92.56%,这时已接近最大值。其他样本验证结果基本一致,公式(3-5)在 取不同的值时,对其他44个统计样本的解释力度均大于公式(1)在c取最佳值时的解释力度,且均大于92%。结果表明,公式(3-5)对各种学科及不同时间段的期刊h指数均有更高的解释力度,模型具有较高的可信度。
  
  2 对公式(3-5)的解读与验证
  
  为了直观地表达公式(3-5)在 取不同值时的变化,笔者设N=1 000,S分别取0.1-10.1,再分别以 取0.32、0.33、0.34、0.35、0.36, 分别取0.688、0.635、0.582、0.529、0.476,通过这5组数据分别计算h值,结果如图1所示。图中系列1- 5分别表示 取0.32-0.36。
  从图1可以清楚地发现,当S在3.5-3.7之间、h在20-25之间时,5组曲线基本重叠,在S<5时,差异较小,当N取值增大时,重叠点的S值也相应增加,当N每增加1 000时,交叉点的S值约增加0.2-0.3,反之当N取值减小时,重叠点的S值相应减小,因此,对于S较小的统计样本, 取值变化对解释力度影响并不明显,对于S值比较大的统计样本, 取值变化对解释力度影响比较明显。基于上述分析可以做出如下解读:①在统计样本回归时,如果S值较小,很小的随机误差就可能使得回归所得的系数发生变化,如果S较大时,回归系数变化较小,但统计的样本中由于样本量本身不大,而S值较大的样本只是整个样本中极少数,这使得随机误差很可能向同一方向偏离,使回归系数发生变化。笔者认为这是统计样本无法得到统一方程的主要原因。②在对统计样本进行验证时,决定 取值的主要是S值较大的点。③对于样本量较小,少数S值又较大的样本,由于随机误差使得h值同时偏向一方,使 的取值发生变化,但如果是一个大样本, S值较大的样本数量较多,同时偏向一方的可能性极小,应该是在中间值上下正态分布,所以,样本验证时的最佳 的取值为中间值0.34。因此,可以认为 取值范围是由于统计样本较小,随机误差造成的,实际 的取值应该是0.34,即期刊h指数(h)与载文数量(N)、篇均被引量(S)的曲线为:
   …………(7)
  为了进一步验证上述推断,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月18日的被引量与h指数,统计样本验证结果如表2所示。
  再以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计目录,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月20日的被引量与h指数,统计样本验证结果如表3所示。
  以《中国引文数据库》提供的高被引期刊统计表(统计时间为2010年6月10日),共提供了4 268种自然科学类期刊从收录年起的载文量、被引量与统计时的h指数,验证结果为:
   =0.34, =0.582,
  验证结果表明上文的推断基本正确,以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本,与以《中国引文数据库》提供的高被引期刊统计表提供的4 268种自然科学类期刊样本均以 =0.34时解释力度最高,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本最高解释力度时 的取值与统计时的载文时间段存在明显的相关性,随着载文时间段与被引时间段的时间差逐步扩大, 的取值逐步由0.32趋向0.34。笔者认为这种情况是由于载文时间段与被引时间段的时间差较小,后期刊发论文实际上对h指数并没有多大的贡献,但这段时间相应的载文量增加,篇均被引量相应减少,这一增加与减小打破了公式(7)的平衡,便利 取值偏小,但并不是所有的样本都是这样,如2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本中2004-2009年的统计结果并没有打破公式(7)的平衡。
  综上所述,期刊h指数与载文数量(N)、篇均被引量(S)的关系可以描述为:
   当载文时间段与被引时间段有一定时间差时(2-3年),曲线基本遵循公式(7)的变化;
   当载文时间段与被引时间段差距较小时,公式(3-5)中的 取值可能较小,但当载文时间段与被引用时间段差距逐渐扩大, 的取值也逐步从0.32趋向0.34,即公式(7);
   考虑到实际的随机误差,当载文时间段与被引时间段有一定差距(2年以上),曲线的波动范围为 。
  
  3 公式(3-5)对机构h指数的验证
  
  以万锦堃等发表的《中国部分重点大学h指数的探讨》[3]一文中表1提供的利用美国ISI Web of Science中的SCI、SSCI和A&HCI 数据库计算得到的,国内50所高等院校在2001- 2003年中发表的论文在2001年1月至2006年12 月间在ISI 各数据库中的被引频次与h指数样本的验证结果为:
   =0.34, =0.582,
  以刘颖发表的《利用h指数及衍生h指数评价省级公共图书馆学术影响力》[4]一文表1中提供的国内省级图书馆统计数据为样本,数据来源于《中国引文数据库》与美国ISI Web of Science平台,检索时间为2009年3-4月,发文时间段为1998-2008年,验证结果为:
   =0.33, =0.635,
  以赵基明等发表的《一种新的科学计量指标——h指数及其应用评述》[5]一文中表2提供的h指数前20位国家的统计数据为样本,数据主要来源于美国《基本科学指标(ESI)》数据库,统计的发文时间段为1996年1月l日至2006年8月8日,验证结果为:
   =0.34, =0.582,
  验证结果表明,公式(3-5)不仅对期刊h指数有较高的解释力度,对样本量较大的机构h指数同样具有较高的解释力度。
  
  4 结语
  
  Schubert- Glanzela期刊h指数模型从理论上解释了h指数作为期刊载文数量与质量的综合性指标的内涵,揭示了期刊h指数与载文数量与篇均被引量的幂函数关系。笔者在这一理论模型的启迪下通过实证方法得出了期刊h指数的经验模型,并且分析了影响期刊h指数模型变化的因素。通过实例验证,经验模型对机构h指数同样具有较高的解释力度。
  
  参考文献:
  [1] Braun T,Glanzel W. A hirsch-type index for journals. Scientometrics , 2006, 69(1) : 169-173.
  [2] Schubert A, Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics, 2007,1(2):179-184.
  [3] 万锦堃,花平寰,赵呈刚.中国部分重点大学h指数的探讨.科学观察,2007(3):9-16.
  [4] 刘颖.利用h 指数及衍生h 指数评价省级公共图书馆学术影响力.图书馆建设,2009(11):77-81.
  [5] 赵基明,邱均平,黄凯,等.一种新的科学计量指标——h指数及其应用评述.中国科学基金,2008(1):23-32.
  
  [作者简介]汪跃春,男,1964年生,副研究馆员,发表论文20余篇。
其他文献
我院自1993年初开展射频导管消融术以来,共治疗各类心动过速1056例,并发心脏压塞2例。
来源:新华网新华网三亚12月1日专电(记者杨丽萍)在国际旅游岛—海南省三亚市的亚龙湾国家旅游度假区,由中粮集团投资建设的两家世界顶级五星级酒店—三亚亚龙湾瑞吉度假酒店
随着知识经济的兴起和经济走向全球一体化,世界各国都在深入研究教育改革,力求使教育更好地适应经济、文化的发展,在国际竞争中立于强有力的地位。作者认为,高等职业教育将在新世
根据新闻出版广电总局《关于2014年换发新闻记者证的通知》(新广出发〔2014〕59号)、《关于进一步加强对新闻记者证申领核发工作检查的紧急通知》(新广出发〔2014〕111号)、
Objectives To explore serum cytokines levels (including IL-1β, sIL-2R, IL-6, TNF-α, and IFN-ν) and their significance in patients with acute coronary syndrom
最近,教育部批准设置了45所职业技术学院,使目前经教育部正式批准设置的职业技术学院达到了92所,其中民办职业技术学院14所。当前,专科教育的学校数量和在校生数量在我国高等教育总量中
刑事和解,是指在刑事犯罪发生以后,在司法人员的主持下,使被害人和犯罪人直接协商以达成谅解,协商结果影响到刑事处分措施的制度。刑事和解作为一种罪后情节,不仅从客观上对
“没意思!党的群众路线教育实践活动就是党员干部自己搞自己,群众有什么好处吗?”在第二批党的群众路线教育实践活动学习教育、听取意见阶段,钦州市教育实践活动QQ交流群里蹦
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
以4-硝基-2-氯咪唑为原料,硝化制得4,5-二硝基-2-氯咪唑,然后与氨水反应得到5-氨基-4-硝基-2-氯咪唑,总收率67.8%,采用质谱、红外光谱等进行了结构表征。利用自然键轨道分析