论文部分内容阅读
[摘要] 分析Schubert- Glanzela期刊h指数模型可能存在的问题,通过实际统计回归得出期刊h指数经验模型,通过实例验证其模型的准确性。在分析模型变化规律的基础上,对模型进行修正与描述。通过实例验证,指出经验模型对机构h指数同样具有较高的解释力度。
[关键词] 期刊h指数 经验模型 机构h指数 验证
2005年美国物理学家赫希 (J. E. Hirsch) 提出了主要用于评价科学家个人学术成就的一项新指标——h指数 (h-index)。该指标一经提出,便迅速得到国际科学界的高度关注,成为科学计量学与科学评价领域的国际热点问题。匈牙利信息科学与计量学研究中心、《科学计量学》(Scientometrics) 主编布劳恩 (T. Braun) 等人将h 指数加以扩展并应用于期刊影响力评价中 , 创立了期刊 h 指数,即: 对于一种期刊, 如果它发表的全部论文中有h篇文章 , 每篇被引用数至少为 h,同时要满足这个自然数为最大,那么该值即为该期刊的h指数[1]。A. Schubert与W. Glanzela在假设期刊文献被引分布规律遵循Lotka定律的基础上,推导出期刊h指数与载文量、篇均被引量的理论数学模型,如公式(1)所示:
…………(1)[2]
(h为h指数,c为常数,N为载文量,IF为影响因子,S为篇均被引量,a为Lotka指数)
并设Lotka指数a=2时,对其进行了验证,验证结果常数c约为0.75,且不存在学科差异。公式中涉及了载文量(N)、影响因子(IF)与h指数3个指标量,影响因子代表了期刊论文的质量,因此,该公式巧妙地将期刊h指数和载文数量与质量联系在一起,极富创意地解释了期刊h指数的内涵。但公式在推导过程中毕竟经过了多次的近似转换,尤其是公式中的常数c的取值,笔者也认为是1,从理论上来说也应该为1(当N=1、IF=1时,h=1),但作者在验证时得出常数c的取值约为0.75。笔者在仔细分析作者的验证结果后认为常数c小于1的结果是对载文量(N)或篇均引文量(S)的幂总体上高估了,为此,笔者从实例统计出发,力求对公式(1)作出修正,使得模型与实际误差更小、更精确。
1 期刊h指数模型的实证与验证
笔者利用《中国引文数据库》作为统计源,利用《中国期刊全文数据库》中的期刊导航分类目录,按类统计不同专业不同时间段载文量及分别至统计时的被引量与h指数,并以公式(2)回归。
…………(2)
先后共统计回归了45个不同样本,回归结果均遵循公式(2),这说明公式(1)中的常数确实为1,根据公式(1)可知N与S的幂的和为1( ,对45个样本回归结果为:0.997< <0.804,均小于1,平均约在0.9左右,这充分说明了公式(1)在推导过程中,由于经过多次的近似转换,使得N与S的幂比实际的大,在验证时,使得常数c小于1。各类统计样本回归的 与 有一定的差别,但也有一定的规律性,通过对 与 直线回归后得到如下结果:
…………………… (3)
…………(4)
……………… (5)
为了验证所得模型的准确性,分别取 为0.32、0.33、0.34、0.35、0.36, 分别为0.688、0.635、0.582、0.529、0.476,对所统计的样本逐一验证,并与公式(1)(a=2)对比,为了能够清楚地表达模型的准确性,本文使用统计学中的解释力度概念:
………… (6)
(h表示实际统计的h值, 表示模型估算的h值, 表示实际统计的h值平均数)
以《中国期刊全文数据库》中导航目录提供的数学类目录为样本,载文时间为2000-2001年,统计时间为2010年6月17日,如表1所示。
验证结果为: , ,即公式(3-5)对统计样本的解释力度为97.80%,公式(1)在c=1、a=2时对统计样本的解释力度为78.28%,取c=0.82时,公式(1)的解释力度为92.56%,这时已接近最大值。其他样本验证结果基本一致,公式(3-5)在 取不同的值时,对其他44个统计样本的解释力度均大于公式(1)在c取最佳值时的解释力度,且均大于92%。结果表明,公式(3-5)对各种学科及不同时间段的期刊h指数均有更高的解释力度,模型具有较高的可信度。
2 对公式(3-5)的解读与验证
为了直观地表达公式(3-5)在 取不同值时的变化,笔者设N=1 000,S分别取0.1-10.1,再分别以 取0.32、0.33、0.34、0.35、0.36, 分别取0.688、0.635、0.582、0.529、0.476,通过这5组数据分别计算h值,结果如图1所示。图中系列1- 5分别表示 取0.32-0.36。
从图1可以清楚地发现,当S在3.5-3.7之间、h在20-25之间时,5组曲线基本重叠,在S<5时,差异较小,当N取值增大时,重叠点的S值也相应增加,当N每增加1 000时,交叉点的S值约增加0.2-0.3,反之当N取值减小时,重叠点的S值相应减小,因此,对于S较小的统计样本, 取值变化对解释力度影响并不明显,对于S值比较大的统计样本, 取值变化对解释力度影响比较明显。基于上述分析可以做出如下解读:①在统计样本回归时,如果S值较小,很小的随机误差就可能使得回归所得的系数发生变化,如果S较大时,回归系数变化较小,但统计的样本中由于样本量本身不大,而S值较大的样本只是整个样本中极少数,这使得随机误差很可能向同一方向偏离,使回归系数发生变化。笔者认为这是统计样本无法得到统一方程的主要原因。②在对统计样本进行验证时,决定 取值的主要是S值较大的点。③对于样本量较小,少数S值又较大的样本,由于随机误差使得h值同时偏向一方,使 的取值发生变化,但如果是一个大样本, S值较大的样本数量较多,同时偏向一方的可能性极小,应该是在中间值上下正态分布,所以,样本验证时的最佳 的取值为中间值0.34。因此,可以认为 取值范围是由于统计样本较小,随机误差造成的,实际 的取值应该是0.34,即期刊h指数(h)与载文数量(N)、篇均被引量(S)的曲线为:
…………(7)
为了进一步验证上述推断,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月18日的被引量与h指数,统计样本验证结果如表2所示。
再以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计目录,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月20日的被引量与h指数,统计样本验证结果如表3所示。
以《中国引文数据库》提供的高被引期刊统计表(统计时间为2010年6月10日),共提供了4 268种自然科学类期刊从收录年起的载文量、被引量与统计时的h指数,验证结果为:
=0.34, =0.582,
验证结果表明上文的推断基本正确,以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本,与以《中国引文数据库》提供的高被引期刊统计表提供的4 268种自然科学类期刊样本均以 =0.34时解释力度最高,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本最高解释力度时 的取值与统计时的载文时间段存在明显的相关性,随着载文时间段与被引时间段的时间差逐步扩大, 的取值逐步由0.32趋向0.34。笔者认为这种情况是由于载文时间段与被引时间段的时间差较小,后期刊发论文实际上对h指数并没有多大的贡献,但这段时间相应的载文量增加,篇均被引量相应减少,这一增加与减小打破了公式(7)的平衡,便利 取值偏小,但并不是所有的样本都是这样,如2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本中2004-2009年的统计结果并没有打破公式(7)的平衡。
综上所述,期刊h指数与载文数量(N)、篇均被引量(S)的关系可以描述为:
当载文时间段与被引时间段有一定时间差时(2-3年),曲线基本遵循公式(7)的变化;
当载文时间段与被引时间段差距较小时,公式(3-5)中的 取值可能较小,但当载文时间段与被引用时间段差距逐渐扩大, 的取值也逐步从0.32趋向0.34,即公式(7);
考虑到实际的随机误差,当载文时间段与被引时间段有一定差距(2年以上),曲线的波动范围为 。
3 公式(3-5)对机构h指数的验证
以万锦堃等发表的《中国部分重点大学h指数的探讨》[3]一文中表1提供的利用美国ISI Web of Science中的SCI、SSCI和A&HCI 数据库计算得到的,国内50所高等院校在2001- 2003年中发表的论文在2001年1月至2006年12 月间在ISI 各数据库中的被引频次与h指数样本的验证结果为:
=0.34, =0.582,
以刘颖发表的《利用h指数及衍生h指数评价省级公共图书馆学术影响力》[4]一文表1中提供的国内省级图书馆统计数据为样本,数据来源于《中国引文数据库》与美国ISI Web of Science平台,检索时间为2009年3-4月,发文时间段为1998-2008年,验证结果为:
=0.33, =0.635,
以赵基明等发表的《一种新的科学计量指标——h指数及其应用评述》[5]一文中表2提供的h指数前20位国家的统计数据为样本,数据主要来源于美国《基本科学指标(ESI)》数据库,统计的发文时间段为1996年1月l日至2006年8月8日,验证结果为:
=0.34, =0.582,
验证结果表明,公式(3-5)不仅对期刊h指数有较高的解释力度,对样本量较大的机构h指数同样具有较高的解释力度。
4 结语
Schubert- Glanzela期刊h指数模型从理论上解释了h指数作为期刊载文数量与质量的综合性指标的内涵,揭示了期刊h指数与载文数量与篇均被引量的幂函数关系。笔者在这一理论模型的启迪下通过实证方法得出了期刊h指数的经验模型,并且分析了影响期刊h指数模型变化的因素。通过实例验证,经验模型对机构h指数同样具有较高的解释力度。
参考文献:
[1] Braun T,Glanzel W. A hirsch-type index for journals. Scientometrics , 2006, 69(1) : 169-173.
[2] Schubert A, Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics, 2007,1(2):179-184.
[3] 万锦堃,花平寰,赵呈刚.中国部分重点大学h指数的探讨.科学观察,2007(3):9-16.
[4] 刘颖.利用h 指数及衍生h 指数评价省级公共图书馆学术影响力.图书馆建设,2009(11):77-81.
[5] 赵基明,邱均平,黄凯,等.一种新的科学计量指标——h指数及其应用评述.中国科学基金,2008(1):23-32.
[作者简介]汪跃春,男,1964年生,副研究馆员,发表论文20余篇。
[关键词] 期刊h指数 经验模型 机构h指数 验证
2005年美国物理学家赫希 (J. E. Hirsch) 提出了主要用于评价科学家个人学术成就的一项新指标——h指数 (h-index)。该指标一经提出,便迅速得到国际科学界的高度关注,成为科学计量学与科学评价领域的国际热点问题。匈牙利信息科学与计量学研究中心、《科学计量学》(Scientometrics) 主编布劳恩 (T. Braun) 等人将h 指数加以扩展并应用于期刊影响力评价中 , 创立了期刊 h 指数,即: 对于一种期刊, 如果它发表的全部论文中有h篇文章 , 每篇被引用数至少为 h,同时要满足这个自然数为最大,那么该值即为该期刊的h指数[1]。A. Schubert与W. Glanzela在假设期刊文献被引分布规律遵循Lotka定律的基础上,推导出期刊h指数与载文量、篇均被引量的理论数学模型,如公式(1)所示:
…………(1)[2]
(h为h指数,c为常数,N为载文量,IF为影响因子,S为篇均被引量,a为Lotka指数)
并设Lotka指数a=2时,对其进行了验证,验证结果常数c约为0.75,且不存在学科差异。公式中涉及了载文量(N)、影响因子(IF)与h指数3个指标量,影响因子代表了期刊论文的质量,因此,该公式巧妙地将期刊h指数和载文数量与质量联系在一起,极富创意地解释了期刊h指数的内涵。但公式在推导过程中毕竟经过了多次的近似转换,尤其是公式中的常数c的取值,笔者也认为是1,从理论上来说也应该为1(当N=1、IF=1时,h=1),但作者在验证时得出常数c的取值约为0.75。笔者在仔细分析作者的验证结果后认为常数c小于1的结果是对载文量(N)或篇均引文量(S)的幂总体上高估了,为此,笔者从实例统计出发,力求对公式(1)作出修正,使得模型与实际误差更小、更精确。
1 期刊h指数模型的实证与验证
笔者利用《中国引文数据库》作为统计源,利用《中国期刊全文数据库》中的期刊导航分类目录,按类统计不同专业不同时间段载文量及分别至统计时的被引量与h指数,并以公式(2)回归。
…………(2)
先后共统计回归了45个不同样本,回归结果均遵循公式(2),这说明公式(1)中的常数确实为1,根据公式(1)可知N与S的幂的和为1( ,对45个样本回归结果为:0.997< <0.804,均小于1,平均约在0.9左右,这充分说明了公式(1)在推导过程中,由于经过多次的近似转换,使得N与S的幂比实际的大,在验证时,使得常数c小于1。各类统计样本回归的 与 有一定的差别,但也有一定的规律性,通过对 与 直线回归后得到如下结果:
…………………… (3)
…………(4)
……………… (5)
为了验证所得模型的准确性,分别取 为0.32、0.33、0.34、0.35、0.36, 分别为0.688、0.635、0.582、0.529、0.476,对所统计的样本逐一验证,并与公式(1)(a=2)对比,为了能够清楚地表达模型的准确性,本文使用统计学中的解释力度概念:
………… (6)
(h表示实际统计的h值, 表示模型估算的h值, 表示实际统计的h值平均数)
以《中国期刊全文数据库》中导航目录提供的数学类目录为样本,载文时间为2000-2001年,统计时间为2010年6月17日,如表1所示。
验证结果为: , ,即公式(3-5)对统计样本的解释力度为97.80%,公式(1)在c=1、a=2时对统计样本的解释力度为78.28%,取c=0.82时,公式(1)的解释力度为92.56%,这时已接近最大值。其他样本验证结果基本一致,公式(3-5)在 取不同的值时,对其他44个统计样本的解释力度均大于公式(1)在c取最佳值时的解释力度,且均大于92%。结果表明,公式(3-5)对各种学科及不同时间段的期刊h指数均有更高的解释力度,模型具有较高的可信度。
2 对公式(3-5)的解读与验证
为了直观地表达公式(3-5)在 取不同值时的变化,笔者设N=1 000,S分别取0.1-10.1,再分别以 取0.32、0.33、0.34、0.35、0.36, 分别取0.688、0.635、0.582、0.529、0.476,通过这5组数据分别计算h值,结果如图1所示。图中系列1- 5分别表示 取0.32-0.36。
从图1可以清楚地发现,当S在3.5-3.7之间、h在20-25之间时,5组曲线基本重叠,在S<5时,差异较小,当N取值增大时,重叠点的S值也相应增加,当N每增加1 000时,交叉点的S值约增加0.2-0.3,反之当N取值减小时,重叠点的S值相应减小,因此,对于S较小的统计样本, 取值变化对解释力度影响并不明显,对于S值比较大的统计样本, 取值变化对解释力度影响比较明显。基于上述分析可以做出如下解读:①在统计样本回归时,如果S值较小,很小的随机误差就可能使得回归所得的系数发生变化,如果S较大时,回归系数变化较小,但统计的样本中由于样本量本身不大,而S值较大的样本只是整个样本中极少数,这使得随机误差很可能向同一方向偏离,使回归系数发生变化。笔者认为这是统计样本无法得到统一方程的主要原因。②在对统计样本进行验证时,决定 取值的主要是S值较大的点。③对于样本量较小,少数S值又较大的样本,由于随机误差使得h值同时偏向一方,使 的取值发生变化,但如果是一个大样本, S值较大的样本数量较多,同时偏向一方的可能性极小,应该是在中间值上下正态分布,所以,样本验证时的最佳 的取值为中间值0.34。因此,可以认为 取值范围是由于统计样本较小,随机误差造成的,实际 的取值应该是0.34,即期刊h指数(h)与载文数量(N)、篇均被引量(S)的曲线为:
…………(7)
为了进一步验证上述推断,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月18日的被引量与h指数,统计样本验证结果如表2所示。
再以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计目录,通过《中国引文数据库》分别统计不同载文时间段载文量及至2010年7月20日的被引量与h指数,统计样本验证结果如表3所示。
以《中国引文数据库》提供的高被引期刊统计表(统计时间为2010年6月10日),共提供了4 268种自然科学类期刊从收录年起的载文量、被引量与统计时的h指数,验证结果为:
=0.34, =0.582,
验证结果表明上文的推断基本正确,以2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本,与以《中国引文数据库》提供的高被引期刊统计表提供的4 268种自然科学类期刊样本均以 =0.34时解释力度最高,以《中文社会科学引文索引(CSSCI)》2010-2011年来源期刊中经济学期刊目录为统计样本最高解释力度时 的取值与统计时的载文时间段存在明显的相关性,随着载文时间段与被引时间段的时间差逐步扩大, 的取值逐步由0.32趋向0.34。笔者认为这种情况是由于载文时间段与被引时间段的时间差较小,后期刊发论文实际上对h指数并没有多大的贡献,但这段时间相应的载文量增加,篇均被引量相应减少,这一增加与减小打破了公式(7)的平衡,便利 取值偏小,但并不是所有的样本都是这样,如2008年《中文核心期刊要目总览》中提供的作物、植保、林业、园艺、畜牧、水产类共80种农业期刊为统计样本中2004-2009年的统计结果并没有打破公式(7)的平衡。
综上所述,期刊h指数与载文数量(N)、篇均被引量(S)的关系可以描述为:
当载文时间段与被引时间段有一定时间差时(2-3年),曲线基本遵循公式(7)的变化;
当载文时间段与被引时间段差距较小时,公式(3-5)中的 取值可能较小,但当载文时间段与被引用时间段差距逐渐扩大, 的取值也逐步从0.32趋向0.34,即公式(7);
考虑到实际的随机误差,当载文时间段与被引时间段有一定差距(2年以上),曲线的波动范围为 。
3 公式(3-5)对机构h指数的验证
以万锦堃等发表的《中国部分重点大学h指数的探讨》[3]一文中表1提供的利用美国ISI Web of Science中的SCI、SSCI和A&HCI 数据库计算得到的,国内50所高等院校在2001- 2003年中发表的论文在2001年1月至2006年12 月间在ISI 各数据库中的被引频次与h指数样本的验证结果为:
=0.34, =0.582,
以刘颖发表的《利用h指数及衍生h指数评价省级公共图书馆学术影响力》[4]一文表1中提供的国内省级图书馆统计数据为样本,数据来源于《中国引文数据库》与美国ISI Web of Science平台,检索时间为2009年3-4月,发文时间段为1998-2008年,验证结果为:
=0.33, =0.635,
以赵基明等发表的《一种新的科学计量指标——h指数及其应用评述》[5]一文中表2提供的h指数前20位国家的统计数据为样本,数据主要来源于美国《基本科学指标(ESI)》数据库,统计的发文时间段为1996年1月l日至2006年8月8日,验证结果为:
=0.34, =0.582,
验证结果表明,公式(3-5)不仅对期刊h指数有较高的解释力度,对样本量较大的机构h指数同样具有较高的解释力度。
4 结语
Schubert- Glanzela期刊h指数模型从理论上解释了h指数作为期刊载文数量与质量的综合性指标的内涵,揭示了期刊h指数与载文数量与篇均被引量的幂函数关系。笔者在这一理论模型的启迪下通过实证方法得出了期刊h指数的经验模型,并且分析了影响期刊h指数模型变化的因素。通过实例验证,经验模型对机构h指数同样具有较高的解释力度。
参考文献:
[1] Braun T,Glanzel W. A hirsch-type index for journals. Scientometrics , 2006, 69(1) : 169-173.
[2] Schubert A, Glanzela W. A systematic analysis of hirsch-type indices for journals. Journal of Informetrics, 2007,1(2):179-184.
[3] 万锦堃,花平寰,赵呈刚.中国部分重点大学h指数的探讨.科学观察,2007(3):9-16.
[4] 刘颖.利用h 指数及衍生h 指数评价省级公共图书馆学术影响力.图书馆建设,2009(11):77-81.
[5] 赵基明,邱均平,黄凯,等.一种新的科学计量指标——h指数及其应用评述.中国科学基金,2008(1):23-32.
[作者简介]汪跃春,男,1964年生,副研究馆员,发表论文20余篇。