论文部分内容阅读
摘要:文章首先简要介绍了期刊评价的理论基础和目的,通过对各种期刊评价方法的对比,分析了期刊评价中单指标的局限性和主观因素的影响。文章采用中国科技期刊引证报告数据,利用主成分分析法对科技期刊进行综合评价,并给出了相关的评价结果,最后指出主成分分析法应用中应注意的问题和内容。关键词:科技期刊;综合评价;主成分分析法中图分类号:C03
文献标志码:A
文章编号:1008-5831(2010)01-0119-05
随着科学技术的迅猛发展和科学事业的不断进步,科技信息量急剧增加,这带来了科技期刊在品种和质量上都有较大增长。科技期刊在传播科技成就,交流学术思想,促进科技成果产业化等过程中发挥了越来越重要的作用。
科技期刊作为传播科技信息和知识的载体,构成了科技事业的重要组成部分,大到一个国家,小到一所学校或个人,其学术水平的高低均可通过期刊的状况
得到体现,因而,对学术期刊的评价也受到越来越多的关注。面对科技期刊数量的迅猛增长,如何识别科技期刊的良莠?如何选择科技期刊,以及如何评价科技期刊的水平,以揭示科研整体水平和效率?这是科研管理部门、科研工作者、情报研究人员以及读者等都十分关心的问题,于是便产生出科技期刊如何评价和遴选的问题。对学术期刊进行科学合理的综合评价,其结果微观上会影响办刊思想以及科研人员的投稿取向,宏观上会对科学文化技术的发展与交流产生重大影响。毫无疑问,对学术期刊进行综合评价不仅具有现实意义,而且十分必要。
一、学术期刊评价的理论基础
大部分科技期刊都属于学术期刊范畴。而学术期刊评价体系主要由引文数据库以及建立在此基础上的期刊组成。其理论基础是“文献离散定律”和“引文集中与分散定律”,评价的主要依据是影响因子。英国文献学家布拉福德于1934年提出“文献离散定律”,他按照引文密度将专业期刊划分为对该专业最有贡献的核心区域(nucleus)和论文数量与之相等的几个相继区域,将密度最大的核心区域的期刊称为“核心期刊”。
1971年,美国文献计量学家加菲尔德提出“引文集中与分散定律”,即:大约75%的被引文献较为集中地来自少数期刊,其余少数被引文献则来自大量较为分散的期刊。他将被引文献来源较为集中的期刊定名为“核心期刊”,从而开了“核心期刊”遴选之先河
。后来,众多学者对以上经验定律提出各种修正方案,从多方面发展了相关的文献计量理论与模型,形成了诸多公认的定律和数学模型。
二、科技期刊评价的目的
文献[1]认为,学术类科技期刊评价的目的有4个:(1)为制定科技政策提供咨询;(2)为科技期刊的宏观管理提供客观依据;(3)有利于营造鼓励科技创新的大环境;(4)为促进编辑学理论研究的发展和推动科技期刊工作的改革提供契机。
文献[2]分别从公共价值学派、理论方法学派、实用主义学派二三个角度分析了科技期刊评价的目的。公共管理学派从公共管理的角度出发,以公共价值为目标研究科技期刊如何促进科学研究工作,如何通过科技期刊评价指标体系引导科技期刊提高学术质量,从而更好地为国家的科技自主创新体系服务;理论方法学派,则从科学计量学、图书情报学理论方法人手,研究科技期刊的学科属性,对公共价值学派提出的指标体系进行批评和提出改进意见,更多地考虑理论上的可行性;实用主义学派,多是从个别学科或某个期刊的角度出发研究如何利用期刊指标,提高自身的影响力或强调单个指标在评价体系中的重要性,研究适用于本学科本期刊的评价指标体系。
文献[3]认为,期刊评价的目的从理论上看有4个方面:一是要把刊登高学术质量论文多的科技期刊评选出来;二是要把包含信息量大的科技期刊评选出来;三是把流通量大也就是看的人多的科技期刊评选出来;四是要把应用、引用、利用其中科技理论及方法多的科技期刊评选出来。
从以上观点看,对科技期刊评价目的的理解都不尽相同,但总体说来,科技期刊的评价是想通过科学、客观与合理的评价方法,评选出办刊水平高,选登论文质量优秀的科技期刊。通过这种评价来促进科技期刊质量的提高,保障期刊的良性发展,同时为各级科技管理部门、广大科研工作者、各类读者和图书馆情报人员等期刊使用者提供具有重要参考价值的信息和参考工具。
三、中国科技期刊评价方法
实际上,科技期刊的评价是一个庞大且复杂的系统工程,需要很多定性和定量的指标。目前评价期刊的因素很多,常见的有引文率、影响因子、被引频次、他引率、即年指标、基金论文比等。随着科技期刊信息化和电子出版物的发展,电子期刊也逐渐增多,于是又出现了Web下载量、Web即年下载率为代表的期刊评价指标。
在众多指标因素中,首先要确定哪些指标的组合最能合理地评价期刊,即怎样将他们组合起来建立合理的指标体系?究竟其中哪些因素所起的作用比较大,哪些是主要影响因素?在许多评价方法中都没有具体指明。
其次,各类指标权重的确定缺乏科学的方法,多带有主观性。指标的权重对期刊评价的影响很大,加权法中各因素权重的确定主要靠专家意见,专家咨询法得到的权重因子具有不确定性和模糊性。层次分析法虽然采用了数学方法计算权重,但也是建立在专家的经验基础之上的。因此,有必要采用一种科学的客观综合评价法来对科技期刊进行评价。
中国科学技术信息研究所从1987年开始,就投大量人人、物力对科技期刊和论文的发表情况进行统计分析研究,并年度出版《中国科技期刊引证报告》。该报告是在基于学科分类的基础之上,利用文献计量学指标对不同学科范畴内的期刊进行评价,并依此通过统计计算出单个评价指标的具体数值,但很明显,该报告对评价指标的数值未作进一步综合分析。例如中国科技期刊引证报告2007年版中将同一学科类别期刊的总被引频次、影响因子这两个评价指标作散点分布图进行对比,然而,这种比较仅能描述期刊在单项指标上的差异,并不能全面反映出评价指标间的特征,也不能揭示期刊之间的综合质量和水平。在各领域的科学研究中,为了全面客观地分析问题,往往要考虑从多方面观察所研究的对象,要收集多个观察指标数据,如果一个一个地分析这些指标,容易造成对研究对象片面的认识,也不容易得出综合的、一致性很好的结论,而主成分分析法可以综合考虑多方面的因素和各指标间的关系,因此,本文试图利用主成分分析法,对科技期刊进行综合评价。
四、综合评价实例分析
(一)数据来源和说明
科技期刊评价的原始数据源自中国科学技术信息研究所发布的2007年版《中国科技期刊引证报告》,并以‘计算机科学技术类’期刊为实例,采用该报告中的9个期刊引用计量指标:总被引频次、影响因子、扩散因子、学科扩散指标、学科影响指标、引用期刊数、即年指标、他引率和被引半衰期。该报告共给出25种计算机科学技术类期刊,如微型计算机 应用、计算机工程、软件学报等,如表1。
由于篇幅所限,表1仅列出五种期刊,显然该评价体系给出的仅是单个指标得分值,无法得出期刊的总体评价分布信息。
(二)科技期刊主成分分析法应用
在实际研究和应用中,由于指标较多,再加上指标之间有一定的相关性,容易造成信息重叠,而一旦随意减少变量又会损失很多信息,可能产生错误结论。而主成分分析法(Principal Component Analysis)可以将多个指标简化成少数几个不相关的综合指标,达到降低数据空间维度、简化系统结构的目的。表2为利用SPSS对表1中的9个原始评价指标、25个评价对象(期刊)数据计算出来的相关系数矩阵的特征值及其贡献率。
表2中,Extraction Sums 0f Squared Loadings为因子提取结果,是未经旋转的因子载荷的平方和。它给出了特征值大于1的前三个因子,可以看出前三个成分所解释的方差占总方差的85.50%,具有较好的代表性,因此我们确定提取前三个主成分,这在一定程度上减少了原始数据的复杂性,而且其仅仅丢失14.5%的信息。
由旋转后的因子得出的碎石图可以看出,因子1与因子2,以及因子2与因子3之间的特征值之差值比较大,而因子4以后的特征值之间的差值都比较小,因此可以进一步得出:保留3个因子将能够概括
从旋转后的因子可以看出,因子F1主要与学科扩散指标、学科影响指标、总被引频次和引用刊数相关,该因子主要反映期刊的学科对外扩散程度;因子F2主要与影响因子、即年指标和扩散因子相关,影响因子和即年指标反映的都是期刊的自身影响力,而扩散因子也是显示总被引频次扩散的范围,所以因子F2主要反映期刊对其他期刊或学科的影响力;而因子F3主要与被引半衰期、他引率和影响因子相关,期刊被引半衰期主要反映期刊收录的较新论文是在多长一段时间内发表的,期刊被引半衰期越高,该期刊被其他期刊引用的次数越多,从而与他引率关系越紧密,结合与影响因子关系,该因子反映的是期刊影响力的持久性。
图2分别以因子(F2)为横坐标,因子(F1)为纵坐标,给出了前两个因子的坐标分布图,可以看出,分布于右上角的期刊,如:17(软件学报)在期刊的学科对外扩散和期刊的影响力方面都比较高;而分布于右下角的期刊,如:15(计算机与应用化学)的期刊影响力比较高,但其学科对外扩散程度比较低,这说明该期刊可能在化学这一学科的应用领域影响力比较大,但对别的学科影响则比较小;分布于左上角的期刊,如:7(计算机工程与应用)的期刊影响力比较小,但其跨学科的程度比较高。
为了对期刊进行综合评价,我们利用表三中旋转后的因子(主成分),将三个主成分分别表示成:
F1=0.210X1+0.065 X2-0.068 X3+0.172X4+0.239X5-0.103 X6+0.233 X7+0.239 X8-0.031 X9
F2=0.030X1+0.296 X2+0.430 X3-0.378 X4-0.083)(5-0.222 X6-0.099 X7-0.083 X8+0.050 x9
F3=0.040X1+0.397 X2+0.047 X3+0.400 X4-0.071)(5-0.016X6+0.010 X7-0.071 X8+0.735 X9
以三个主成分的方差贡献率为系数可以构建期刊评价指数w如下,即:
W=A l×F1+A 2×F2+A 3×F3
分别将方差贡献率代入上式,即:W=52.097%×F1+20.751%×F2+12.650%×F3
由于9个原始指标的量纲不同,为便于计算,消除不同指标所带来的不同量纲之间的影响,我们利用均值法来计算最终评价得分。分别将原始值利用均值标准化后代入上式,就可以得出上述25个计算机科学技术类期刊的综合评价得分值以及其排名,如表4。
为便于比较,我们对得分进行了标准化处理。可以看出“软件学报”的综合评价得分最高,远远高于其余计算机技术类期刊,这表明软件学报的期刊质量和水平最好。相对而言“计算机学报”、“计算机工程与应用”紧接在后面两位,应该说前三种期刊在计算机类期刊中具有较高的办刊质量,应该算是优秀类期刊。而从得分来看,60分以上的期刊有六种,占25中期刊中的24%,基本符合2:8分布规律定律,这在一定程度上揭示了主成分方法的合理性。而绝大多数期刊的得分都分布在20~60分之间,而计算机辅助工程、微计算机应用的得分都是很低的,与优秀类期刊有较大差距。
五、结论
笔者提出的基于主成分分析法的期刊综合评价方法,可以有效规避期刊评价指标权重设置中主观因素的影响,同时可以通过主成因子的构成,分析不同指标之间的相关关联性。从方法的运用和结果来看,利用主成分分析法可以比较准确地评价期刊质量和水平的高低,具有较好的实用性,但在主成分分析法的应用中必须注意如下几个方面:(1)主成分分析法赋权的结果可能与客观实际有些偏差,也有可能无法客观地反映指标的实际重要程度;(2)主成分分析法中的样本彼此间是独立的,它们应该是一个简单的随机样本,否则用主成分分析法得出的结论是不妥当的;(3)评价指标之间如果有多重相关性,那么主成分分析可能会歪曲真实的数据信息,一些主成分将会过分地夸大某些因素的作用,而无法客观反映样本的统计特征;(4)原始数据列中,某些数据是越大越好的正向分布,而有些数据是越小越好的逆向分布,对于逆向数据可以用取倒数的方法,将其变为正向分布,以利于原始数据的转化处理。
文献标志码:A
文章编号:1008-5831(2010)01-0119-05
随着科学技术的迅猛发展和科学事业的不断进步,科技信息量急剧增加,这带来了科技期刊在品种和质量上都有较大增长。科技期刊在传播科技成就,交流学术思想,促进科技成果产业化等过程中发挥了越来越重要的作用。
科技期刊作为传播科技信息和知识的载体,构成了科技事业的重要组成部分,大到一个国家,小到一所学校或个人,其学术水平的高低均可通过期刊的状况
得到体现,因而,对学术期刊的评价也受到越来越多的关注。面对科技期刊数量的迅猛增长,如何识别科技期刊的良莠?如何选择科技期刊,以及如何评价科技期刊的水平,以揭示科研整体水平和效率?这是科研管理部门、科研工作者、情报研究人员以及读者等都十分关心的问题,于是便产生出科技期刊如何评价和遴选的问题。对学术期刊进行科学合理的综合评价,其结果微观上会影响办刊思想以及科研人员的投稿取向,宏观上会对科学文化技术的发展与交流产生重大影响。毫无疑问,对学术期刊进行综合评价不仅具有现实意义,而且十分必要。
一、学术期刊评价的理论基础
大部分科技期刊都属于学术期刊范畴。而学术期刊评价体系主要由引文数据库以及建立在此基础上的期刊组成。其理论基础是“文献离散定律”和“引文集中与分散定律”,评价的主要依据是影响因子。英国文献学家布拉福德于1934年提出“文献离散定律”,他按照引文密度将专业期刊划分为对该专业最有贡献的核心区域(nucleus)和论文数量与之相等的几个相继区域,将密度最大的核心区域的期刊称为“核心期刊”。
1971年,美国文献计量学家加菲尔德提出“引文集中与分散定律”,即:大约75%的被引文献较为集中地来自少数期刊,其余少数被引文献则来自大量较为分散的期刊。他将被引文献来源较为集中的期刊定名为“核心期刊”,从而开了“核心期刊”遴选之先河
。后来,众多学者对以上经验定律提出各种修正方案,从多方面发展了相关的文献计量理论与模型,形成了诸多公认的定律和数学模型。
二、科技期刊评价的目的
文献[1]认为,学术类科技期刊评价的目的有4个:(1)为制定科技政策提供咨询;(2)为科技期刊的宏观管理提供客观依据;(3)有利于营造鼓励科技创新的大环境;(4)为促进编辑学理论研究的发展和推动科技期刊工作的改革提供契机。
文献[2]分别从公共价值学派、理论方法学派、实用主义学派二三个角度分析了科技期刊评价的目的。公共管理学派从公共管理的角度出发,以公共价值为目标研究科技期刊如何促进科学研究工作,如何通过科技期刊评价指标体系引导科技期刊提高学术质量,从而更好地为国家的科技自主创新体系服务;理论方法学派,则从科学计量学、图书情报学理论方法人手,研究科技期刊的学科属性,对公共价值学派提出的指标体系进行批评和提出改进意见,更多地考虑理论上的可行性;实用主义学派,多是从个别学科或某个期刊的角度出发研究如何利用期刊指标,提高自身的影响力或强调单个指标在评价体系中的重要性,研究适用于本学科本期刊的评价指标体系。
文献[3]认为,期刊评价的目的从理论上看有4个方面:一是要把刊登高学术质量论文多的科技期刊评选出来;二是要把包含信息量大的科技期刊评选出来;三是把流通量大也就是看的人多的科技期刊评选出来;四是要把应用、引用、利用其中科技理论及方法多的科技期刊评选出来。
从以上观点看,对科技期刊评价目的的理解都不尽相同,但总体说来,科技期刊的评价是想通过科学、客观与合理的评价方法,评选出办刊水平高,选登论文质量优秀的科技期刊。通过这种评价来促进科技期刊质量的提高,保障期刊的良性发展,同时为各级科技管理部门、广大科研工作者、各类读者和图书馆情报人员等期刊使用者提供具有重要参考价值的信息和参考工具。
三、中国科技期刊评价方法
实际上,科技期刊的评价是一个庞大且复杂的系统工程,需要很多定性和定量的指标。目前评价期刊的因素很多,常见的有引文率、影响因子、被引频次、他引率、即年指标、基金论文比等。随着科技期刊信息化和电子出版物的发展,电子期刊也逐渐增多,于是又出现了Web下载量、Web即年下载率为代表的期刊评价指标。
在众多指标因素中,首先要确定哪些指标的组合最能合理地评价期刊,即怎样将他们组合起来建立合理的指标体系?究竟其中哪些因素所起的作用比较大,哪些是主要影响因素?在许多评价方法中都没有具体指明。
其次,各类指标权重的确定缺乏科学的方法,多带有主观性。指标的权重对期刊评价的影响很大,加权法中各因素权重的确定主要靠专家意见,专家咨询法得到的权重因子具有不确定性和模糊性。层次分析法虽然采用了数学方法计算权重,但也是建立在专家的经验基础之上的。因此,有必要采用一种科学的客观综合评价法来对科技期刊进行评价。
中国科学技术信息研究所从1987年开始,就投大量人人、物力对科技期刊和论文的发表情况进行统计分析研究,并年度出版《中国科技期刊引证报告》。该报告是在基于学科分类的基础之上,利用文献计量学指标对不同学科范畴内的期刊进行评价,并依此通过统计计算出单个评价指标的具体数值,但很明显,该报告对评价指标的数值未作进一步综合分析。例如中国科技期刊引证报告2007年版中将同一学科类别期刊的总被引频次、影响因子这两个评价指标作散点分布图进行对比,然而,这种比较仅能描述期刊在单项指标上的差异,并不能全面反映出评价指标间的特征,也不能揭示期刊之间的综合质量和水平。在各领域的科学研究中,为了全面客观地分析问题,往往要考虑从多方面观察所研究的对象,要收集多个观察指标数据,如果一个一个地分析这些指标,容易造成对研究对象片面的认识,也不容易得出综合的、一致性很好的结论,而主成分分析法可以综合考虑多方面的因素和各指标间的关系,因此,本文试图利用主成分分析法,对科技期刊进行综合评价。
四、综合评价实例分析
(一)数据来源和说明
科技期刊评价的原始数据源自中国科学技术信息研究所发布的2007年版《中国科技期刊引证报告》,并以‘计算机科学技术类’期刊为实例,采用该报告中的9个期刊引用计量指标:总被引频次、影响因子、扩散因子、学科扩散指标、学科影响指标、引用期刊数、即年指标、他引率和被引半衰期。该报告共给出25种计算机科学技术类期刊,如微型计算机 应用、计算机工程、软件学报等,如表1。
由于篇幅所限,表1仅列出五种期刊,显然该评价体系给出的仅是单个指标得分值,无法得出期刊的总体评价分布信息。
(二)科技期刊主成分分析法应用
在实际研究和应用中,由于指标较多,再加上指标之间有一定的相关性,容易造成信息重叠,而一旦随意减少变量又会损失很多信息,可能产生错误结论。而主成分分析法(Principal Component Analysis)可以将多个指标简化成少数几个不相关的综合指标,达到降低数据空间维度、简化系统结构的目的。表2为利用SPSS对表1中的9个原始评价指标、25个评价对象(期刊)数据计算出来的相关系数矩阵的特征值及其贡献率。
表2中,Extraction Sums 0f Squared Loadings为因子提取结果,是未经旋转的因子载荷的平方和。它给出了特征值大于1的前三个因子,可以看出前三个成分所解释的方差占总方差的85.50%,具有较好的代表性,因此我们确定提取前三个主成分,这在一定程度上减少了原始数据的复杂性,而且其仅仅丢失14.5%的信息。
由旋转后的因子得出的碎石图可以看出,因子1与因子2,以及因子2与因子3之间的特征值之差值比较大,而因子4以后的特征值之间的差值都比较小,因此可以进一步得出:保留3个因子将能够概括
从旋转后的因子可以看出,因子F1主要与学科扩散指标、学科影响指标、总被引频次和引用刊数相关,该因子主要反映期刊的学科对外扩散程度;因子F2主要与影响因子、即年指标和扩散因子相关,影响因子和即年指标反映的都是期刊的自身影响力,而扩散因子也是显示总被引频次扩散的范围,所以因子F2主要反映期刊对其他期刊或学科的影响力;而因子F3主要与被引半衰期、他引率和影响因子相关,期刊被引半衰期主要反映期刊收录的较新论文是在多长一段时间内发表的,期刊被引半衰期越高,该期刊被其他期刊引用的次数越多,从而与他引率关系越紧密,结合与影响因子关系,该因子反映的是期刊影响力的持久性。
图2分别以因子(F2)为横坐标,因子(F1)为纵坐标,给出了前两个因子的坐标分布图,可以看出,分布于右上角的期刊,如:17(软件学报)在期刊的学科对外扩散和期刊的影响力方面都比较高;而分布于右下角的期刊,如:15(计算机与应用化学)的期刊影响力比较高,但其学科对外扩散程度比较低,这说明该期刊可能在化学这一学科的应用领域影响力比较大,但对别的学科影响则比较小;分布于左上角的期刊,如:7(计算机工程与应用)的期刊影响力比较小,但其跨学科的程度比较高。
为了对期刊进行综合评价,我们利用表三中旋转后的因子(主成分),将三个主成分分别表示成:
F1=0.210X1+0.065 X2-0.068 X3+0.172X4+0.239X5-0.103 X6+0.233 X7+0.239 X8-0.031 X9
F2=0.030X1+0.296 X2+0.430 X3-0.378 X4-0.083)(5-0.222 X6-0.099 X7-0.083 X8+0.050 x9
F3=0.040X1+0.397 X2+0.047 X3+0.400 X4-0.071)(5-0.016X6+0.010 X7-0.071 X8+0.735 X9
以三个主成分的方差贡献率为系数可以构建期刊评价指数w如下,即:
W=A l×F1+A 2×F2+A 3×F3
分别将方差贡献率代入上式,即:W=52.097%×F1+20.751%×F2+12.650%×F3
由于9个原始指标的量纲不同,为便于计算,消除不同指标所带来的不同量纲之间的影响,我们利用均值法来计算最终评价得分。分别将原始值利用均值标准化后代入上式,就可以得出上述25个计算机科学技术类期刊的综合评价得分值以及其排名,如表4。
为便于比较,我们对得分进行了标准化处理。可以看出“软件学报”的综合评价得分最高,远远高于其余计算机技术类期刊,这表明软件学报的期刊质量和水平最好。相对而言“计算机学报”、“计算机工程与应用”紧接在后面两位,应该说前三种期刊在计算机类期刊中具有较高的办刊质量,应该算是优秀类期刊。而从得分来看,60分以上的期刊有六种,占25中期刊中的24%,基本符合2:8分布规律定律,这在一定程度上揭示了主成分方法的合理性。而绝大多数期刊的得分都分布在20~60分之间,而计算机辅助工程、微计算机应用的得分都是很低的,与优秀类期刊有较大差距。
五、结论
笔者提出的基于主成分分析法的期刊综合评价方法,可以有效规避期刊评价指标权重设置中主观因素的影响,同时可以通过主成因子的构成,分析不同指标之间的相关关联性。从方法的运用和结果来看,利用主成分分析法可以比较准确地评价期刊质量和水平的高低,具有较好的实用性,但在主成分分析法的应用中必须注意如下几个方面:(1)主成分分析法赋权的结果可能与客观实际有些偏差,也有可能无法客观地反映指标的实际重要程度;(2)主成分分析法中的样本彼此间是独立的,它们应该是一个简单的随机样本,否则用主成分分析法得出的结论是不妥当的;(3)评价指标之间如果有多重相关性,那么主成分分析可能会歪曲真实的数据信息,一些主成分将会过分地夸大某些因素的作用,而无法客观反映样本的统计特征;(4)原始数据列中,某些数据是越大越好的正向分布,而有些数据是越小越好的逆向分布,对于逆向数据可以用取倒数的方法,将其变为正向分布,以利于原始数据的转化处理。