论文部分内容阅读
摘 要:运用统计软件SPSS对两广地区的大学网站三大特征(流量特征、链接特征和速度特征)指标的数据分布规律进行比较研究,结果表明:两地区的大学网站所有的特征指标的数据分布全部呈现右偏、尖峰分布;所有数据分布全部符合对数正态分布;总体来说,无论是建设的速度,受欢迎的程度,还是利用效率或者影响力,广东地区大学网站的都要高于广西地区大学网站;相对广西地区,广东地区各个大学网站的发展不是那么均衡,不同的大学,其网站的建设速度,利用效率以及影响力差异较大。
关键词:流量特征;链接特征;速度特征;数据分布;大学网站;两广地区
描述和评价一个网站通常应使用流量特征指标、链接特征指标和速度特征指标等三大特征指标,其中流量特征指标包括访问量、点击率;链接特征指标包括总网页数、总链接数、外部链接数、外部网络影响因子和链接到网站的站点数;而速度特征指标则包括网站建设速度、网站利用效率和网站平均显示时间。通过特征指标的比较,可以判断不同网站品质的高低。本文将运用统计软件SPSS对两广地区(广东与广西)的大学网站三大特征指标的数据分布规律进行比较研究,确定两地区大学网站的异同,以此为网站建设战略的选择、制定和实施提供参考。
一、研究对象与指标
研究对象:本文将网站——中国精彩网址(www.5566.net)所发布的广东地区的大学和广西地区的大学的网站作为研究对象,广东地区用1表示,广西地区用2表示。
研究指标:基于可行性的考虑,本文将访问量、点击率、总网页数、总链接数、外部链接数、外部网络影响因子、网站建设速度、网站利用效率作为研究指标,共8项。访问量:此值是测度网站受欢迎程度的有效指标;点击率:网站的信息内容及服务对用户的吸引力越大,此值愈大,总网页数值越大,说明网站的规模和信息量越大;总链接数:包括内部链接量和外部链接量,内部链接量反映网站的自组织能力,外部链接量则反映网站的影响力;外部链接数:此值反映的是网站利用程度的高低和影响力的大小;外部网络影响因子:是测度网站影响力的最佳指标之一;网站建设速度:反映网站的建设速度;网站利用效率:量度网站利用效率和发展态势的重要指标。
二、指标数据获取工具和方法
访问量、点击率的数据是通过国务院新闻办发起,中国互联网协会主办,中搜提供技术支持的国家级互联网网站排名项目“中国网站排名网(www.chinarank.org.cn)”的“三月平均访问量”和“三月平均点击率”来获取。
总网页数、总链接数、外部链接数的数据通过搜索引擎AltaVista获取,以中山大学为例,检索式分别为:
Host: www.sysu.edu.cn
Link: www.sysu.edu.cn
Link: www.sysu.edu.cn -Host: www.sysu.edu.cn
外部网络影响因子的数据由检索得到的外部链接数与总网页数相除得到。
网站建设速度、网站利用效率的数据则是通过使用“互联网档案馆(www.arhive.org) ”的“Way Back Machine(时光倒流机器) ”获取其相对年龄,然后用总网页数和总链接量分别与之相除得到。
各个特征指标的统计特征值通过统计分析工具SPSS16.0获取。
网络具有很强的动态性和不稳定性,为了减小由此带来的数据误差,我们争取在两天内完成了数据的搜集
三、研究思路
本研究依照下面思路进行:
⒈获取特征指标的数据(限于篇幅,文中不显示这些数据)。方法和工具如上所述。
⒉填充缺失值:使用SPSS的菜单“Transform→Replace Missing Values……”进行。基于很多的原因,通常我们在研究中收集到的数据并不能完整,部分记录存在缺失数据的情况,即存在空白数据,为了方便进行统计分析,需要将这些缺失值填充替代,以便形成完整的数据序列。SPSS提供了很多种填充缺失值的方法,本研究选用Series mean法,即采用变量所有的非缺失值的均值对缺失值进行填充。
3.获取特征指标的统计特征值:使用统计分析工具SPSS的菜单“Analyze→Descriptive Statistics→Explore……”进行。在统计学中,对数据分布的规律,要从三个方面进行描述和测度:一是分布的集中趋势,即反映各数据集中在什么水平上;二是分布的离散程度,即反映各数离开中心值的趋势;三是分布的偏态和峰度,即反应数据分布的形态特征。集中趋势是指一组数据向某一点集中的情况,测度集中趋势也就是寻找数据一般水平的代表值或中心值,常用的度量集中趋势的特征值有数值平均数(算术平均数、调和平均数、几何平均数)和位置平均数(中位数)。离散程度是指一组数据差异程度的情况,常用的度量离散程度的特征值有全距、平均差、标准差和离散系数。偏态和峰态是指一组数据分布的形状是否对称,偏斜的程度以及分布的扁平程度,常用的度量偏态和峰态的特征值有偏度和峰度。本文选取了算术平均数、最小值、中位数、最大值、全距、标准差、离散系数、峰度和偏度等9项统计特征值用于对特征指标的数据分布规律的描述,SPSS的输出结果见下表。
⒋绘制特征指标的数据分布的频率直方图:使用SPSS的菜单“Graphs→Histogram……”进行。在统计学中,为了直观和形象地显示某个变量的数据分布规律性,通常会使用图形。统计学中使用的图形类型很多,本研究选择使用频率直方图 (限于篇幅,图略去),其中横轴表示所考察的特征指标,并标出各区间上、下限,纵轴表示频率,以每一组区间为底,以该区间上的频率为高画一个长方形。
5.绘制P-P概率图,确定特征指标的分布函数:使用SPSS的菜单“Analyze→Descriptive Statistics→P-P…[2] [3]”进行。在统计学里,通常会利用P-P概率图来确定一个变量的分布函数。所谓P-P概率图,是以变量的累计概率为横轴,以指定理论分布的理论累计概率为纵轴描出的散点图。如果待确定变量来自于指定理论分布总体,则所有的点分布在一条直线附近。本研究分别以13种的概率分布,即Beta(贝塔分布)、Chi-square(卡方分布)、Exponential(指数分布)、Gamma(伽玛分布)、Half-normal(半正态分布)、Laplace(拉普拉斯分布)、Logistic(逻辑斯谛分布)、Lognormal(对数分布)、Pareto(帕雷托分布)、Student t(t分布)、Weibull(威布尔分布)、Uniform(均匀分布)对两地区大学网站的各个特征指标进行拟合,确定其数据分布函数。(限于篇幅,图略去) 6.分析数据,对比研究。
7.得出结论。
四、数据分析及对比研究
⒈从表和频率直方图我们发现两地区的大学网站八个特征指标的数据分布都不符合正态分布规律。无论是广东地区还是广西地区,其大学网站的八个特征指标的数据算术平均数均大于中位数,峰度全大于0。除点击率外,所有特征指标的数据的分布偏度均大于1。
⒉从图P-P概率图发现,只有用对数正态分布对所有特征指标的数据进行拟合,P=P概率图上所有的点才呈现分布在一条直线附近。
⒊流量特征指标的对比研究。广东地区的大学网站平均访问量为24.24人/百万人、平均点击率为4.89页/人,而广西地区的大学网站两指标的平均值分别为13.24/百万人和4.51页/人,根据两地区的大学网站的两项指标之间的差距,我们能很确切地指出,广东地区的大学网站的受欢迎程度和信息内容及服务对用户的吸引力要高于广西地区的大学网站。不过,广东地区的大学网站访问量的离散系数要远高于广西地区的大学网站的。从这一点看,广东地区不同的大学网站的受欢迎程度差异要远大于广西地区的。
⒋链接特征指标的对比研究。①广东地区的大学网站总网页数的平均值为5353.53,离散系数为1.67,而广西地区的大学网站同样指标的平均值为5589.35,其离散系数是1.29,说明广东地区的大学网站平均规模和信息量相对要小一点,但是广东地区不同的大学网站的规模的差异较之广西地区的要大。②广东地区的大学网站总链接数、外部链接数、外部网络影响因子平均值分别为3465.04、2478.20与3.35,广西地区的大学网站上述特征指标的平均值为2180.18、1352.78与0.63,在绝对量上,前者分别是后者的1.6倍、1.8倍与2.2倍,两者具有明显差异,这些差异表明广西地区的大学网站在自组能力以及影响力方面较之广东地区的要逊色许多。广东地区的大学网站总链接数的离散系数要小于广西地区的大学网站的,而另外两个指标的离散系数就要高于广西地区的大学网站的,这样的差异说明广东地区不同的大学网站自组能力差异要小于广西地区不同的大学网站,但就影响力而言,广东地区不同的大学网站的差异相对广西地区的要大,
⒌速度特征指标的对比研究。广东地区的大学网站网站建设速度、网站利用效率平均值分别是112.13与42.33,广西地区的大学网站同样的特征指标平均值为77.30与25.88,两者具有显著差异,这些差异说明广东地区的大学网站建设速度较之广西地区的大学网站的要快,利用效率相对也高。两指标的离散系数也都是广东地区的大,相对广西地区,广东地区不同的大学网站的建设速度和利用效率差异要大一些。
五、结论
通过对两广地区的大学网站三大特征(流量特征、链接特征和速度特征)指标的数据分布规律的比较研究,我们可以得出以下结论:
⒈两地区的大学网站各个特征指标的数据分布形状相似,全为右偏、尖峰分布,而且,除点击率外所有指标的数据分布都是高偏分布。
⒉两地区大学网站所有的特征指标的数据均大致符合对数正态分布。
⒊广东地区的大学网站八个特征指标除总网页数外,其算术平均数均大于广西地区的大学网站的,算术平均数反映了一组数据的平均水平。也就是说,广东地区的大学网站总体来说,无论是建设的速度,受欢迎的程度,还是网站利用效率或者影响力都要高于广西地区的大学网站的。
⒋广东地区的大学网站八个特征指标除总链接数外,其离散系数均高于广西地区的大学网站的,离散系数显示了一组数据差异程度的情况。因此,可以说,相对广西地区,广东地区大学网站的发展不是那么均衡,不同大学的网站建设速度、利用效率以及其影响力存在着较大的差异。
参考文献:
[1]李长玲,王效岳,付鑫金.网站定量评价指标体系构建与权值分配[J].图书情报工作,2008(7).
[2]余建英,何旭宏.数据统计析与SPSS应用[M].北京:民邮电出
版社,2003.
[3]章文波,陈红艳.实用数据统计分析与SPSS 12.0应用[M].北京:人民邮电出版社,2006.
[4]茆诗松.统计手册[M].北京:科学出版社,2003.
[5]符启勋,方晶晶. 实用统计学[M].北京:国防工业出版,2005.
注:本文系广东石油化工学院科学研究基金资助项目,项目编号:203308。
作者简介:姚红(1963— ),女,广东人,副研究馆员,学士学位,主要研究领域:科学计量学与科学评价。
关键词:流量特征;链接特征;速度特征;数据分布;大学网站;两广地区
描述和评价一个网站通常应使用流量特征指标、链接特征指标和速度特征指标等三大特征指标,其中流量特征指标包括访问量、点击率;链接特征指标包括总网页数、总链接数、外部链接数、外部网络影响因子和链接到网站的站点数;而速度特征指标则包括网站建设速度、网站利用效率和网站平均显示时间。通过特征指标的比较,可以判断不同网站品质的高低。本文将运用统计软件SPSS对两广地区(广东与广西)的大学网站三大特征指标的数据分布规律进行比较研究,确定两地区大学网站的异同,以此为网站建设战略的选择、制定和实施提供参考。
一、研究对象与指标
研究对象:本文将网站——中国精彩网址(www.5566.net)所发布的广东地区的大学和广西地区的大学的网站作为研究对象,广东地区用1表示,广西地区用2表示。
研究指标:基于可行性的考虑,本文将访问量、点击率、总网页数、总链接数、外部链接数、外部网络影响因子、网站建设速度、网站利用效率作为研究指标,共8项。访问量:此值是测度网站受欢迎程度的有效指标;点击率:网站的信息内容及服务对用户的吸引力越大,此值愈大,总网页数值越大,说明网站的规模和信息量越大;总链接数:包括内部链接量和外部链接量,内部链接量反映网站的自组织能力,外部链接量则反映网站的影响力;外部链接数:此值反映的是网站利用程度的高低和影响力的大小;外部网络影响因子:是测度网站影响力的最佳指标之一;网站建设速度:反映网站的建设速度;网站利用效率:量度网站利用效率和发展态势的重要指标。
二、指标数据获取工具和方法
访问量、点击率的数据是通过国务院新闻办发起,中国互联网协会主办,中搜提供技术支持的国家级互联网网站排名项目“中国网站排名网(www.chinarank.org.cn)”的“三月平均访问量”和“三月平均点击率”来获取。
总网页数、总链接数、外部链接数的数据通过搜索引擎AltaVista获取,以中山大学为例,检索式分别为:
Host: www.sysu.edu.cn
Link: www.sysu.edu.cn
Link: www.sysu.edu.cn -Host: www.sysu.edu.cn
外部网络影响因子的数据由检索得到的外部链接数与总网页数相除得到。
网站建设速度、网站利用效率的数据则是通过使用“互联网档案馆(www.arhive.org) ”的“Way Back Machine(时光倒流机器) ”获取其相对年龄,然后用总网页数和总链接量分别与之相除得到。
各个特征指标的统计特征值通过统计分析工具SPSS16.0获取。
网络具有很强的动态性和不稳定性,为了减小由此带来的数据误差,我们争取在两天内完成了数据的搜集
三、研究思路
本研究依照下面思路进行:
⒈获取特征指标的数据(限于篇幅,文中不显示这些数据)。方法和工具如上所述。
⒉填充缺失值:使用SPSS的菜单“Transform→Replace Missing Values……”进行。基于很多的原因,通常我们在研究中收集到的数据并不能完整,部分记录存在缺失数据的情况,即存在空白数据,为了方便进行统计分析,需要将这些缺失值填充替代,以便形成完整的数据序列。SPSS提供了很多种填充缺失值的方法,本研究选用Series mean法,即采用变量所有的非缺失值的均值对缺失值进行填充。
3.获取特征指标的统计特征值:使用统计分析工具SPSS的菜单“Analyze→Descriptive Statistics→Explore……”进行。在统计学中,对数据分布的规律,要从三个方面进行描述和测度:一是分布的集中趋势,即反映各数据集中在什么水平上;二是分布的离散程度,即反映各数离开中心值的趋势;三是分布的偏态和峰度,即反应数据分布的形态特征。集中趋势是指一组数据向某一点集中的情况,测度集中趋势也就是寻找数据一般水平的代表值或中心值,常用的度量集中趋势的特征值有数值平均数(算术平均数、调和平均数、几何平均数)和位置平均数(中位数)。离散程度是指一组数据差异程度的情况,常用的度量离散程度的特征值有全距、平均差、标准差和离散系数。偏态和峰态是指一组数据分布的形状是否对称,偏斜的程度以及分布的扁平程度,常用的度量偏态和峰态的特征值有偏度和峰度。本文选取了算术平均数、最小值、中位数、最大值、全距、标准差、离散系数、峰度和偏度等9项统计特征值用于对特征指标的数据分布规律的描述,SPSS的输出结果见下表。
⒋绘制特征指标的数据分布的频率直方图:使用SPSS的菜单“Graphs→Histogram……”进行。在统计学中,为了直观和形象地显示某个变量的数据分布规律性,通常会使用图形。统计学中使用的图形类型很多,本研究选择使用频率直方图 (限于篇幅,图略去),其中横轴表示所考察的特征指标,并标出各区间上、下限,纵轴表示频率,以每一组区间为底,以该区间上的频率为高画一个长方形。
5.绘制P-P概率图,确定特征指标的分布函数:使用SPSS的菜单“Analyze→Descriptive Statistics→P-P…[2] [3]”进行。在统计学里,通常会利用P-P概率图来确定一个变量的分布函数。所谓P-P概率图,是以变量的累计概率为横轴,以指定理论分布的理论累计概率为纵轴描出的散点图。如果待确定变量来自于指定理论分布总体,则所有的点分布在一条直线附近。本研究分别以13种的概率分布,即Beta(贝塔分布)、Chi-square(卡方分布)、Exponential(指数分布)、Gamma(伽玛分布)、Half-normal(半正态分布)、Laplace(拉普拉斯分布)、Logistic(逻辑斯谛分布)、Lognormal(对数分布)、Pareto(帕雷托分布)、Student t(t分布)、Weibull(威布尔分布)、Uniform(均匀分布)对两地区大学网站的各个特征指标进行拟合,确定其数据分布函数。(限于篇幅,图略去) 6.分析数据,对比研究。
7.得出结论。
四、数据分析及对比研究
⒈从表和频率直方图我们发现两地区的大学网站八个特征指标的数据分布都不符合正态分布规律。无论是广东地区还是广西地区,其大学网站的八个特征指标的数据算术平均数均大于中位数,峰度全大于0。除点击率外,所有特征指标的数据的分布偏度均大于1。
⒉从图P-P概率图发现,只有用对数正态分布对所有特征指标的数据进行拟合,P=P概率图上所有的点才呈现分布在一条直线附近。
⒊流量特征指标的对比研究。广东地区的大学网站平均访问量为24.24人/百万人、平均点击率为4.89页/人,而广西地区的大学网站两指标的平均值分别为13.24/百万人和4.51页/人,根据两地区的大学网站的两项指标之间的差距,我们能很确切地指出,广东地区的大学网站的受欢迎程度和信息内容及服务对用户的吸引力要高于广西地区的大学网站。不过,广东地区的大学网站访问量的离散系数要远高于广西地区的大学网站的。从这一点看,广东地区不同的大学网站的受欢迎程度差异要远大于广西地区的。
⒋链接特征指标的对比研究。①广东地区的大学网站总网页数的平均值为5353.53,离散系数为1.67,而广西地区的大学网站同样指标的平均值为5589.35,其离散系数是1.29,说明广东地区的大学网站平均规模和信息量相对要小一点,但是广东地区不同的大学网站的规模的差异较之广西地区的要大。②广东地区的大学网站总链接数、外部链接数、外部网络影响因子平均值分别为3465.04、2478.20与3.35,广西地区的大学网站上述特征指标的平均值为2180.18、1352.78与0.63,在绝对量上,前者分别是后者的1.6倍、1.8倍与2.2倍,两者具有明显差异,这些差异表明广西地区的大学网站在自组能力以及影响力方面较之广东地区的要逊色许多。广东地区的大学网站总链接数的离散系数要小于广西地区的大学网站的,而另外两个指标的离散系数就要高于广西地区的大学网站的,这样的差异说明广东地区不同的大学网站自组能力差异要小于广西地区不同的大学网站,但就影响力而言,广东地区不同的大学网站的差异相对广西地区的要大,
⒌速度特征指标的对比研究。广东地区的大学网站网站建设速度、网站利用效率平均值分别是112.13与42.33,广西地区的大学网站同样的特征指标平均值为77.30与25.88,两者具有显著差异,这些差异说明广东地区的大学网站建设速度较之广西地区的大学网站的要快,利用效率相对也高。两指标的离散系数也都是广东地区的大,相对广西地区,广东地区不同的大学网站的建设速度和利用效率差异要大一些。
五、结论
通过对两广地区的大学网站三大特征(流量特征、链接特征和速度特征)指标的数据分布规律的比较研究,我们可以得出以下结论:
⒈两地区的大学网站各个特征指标的数据分布形状相似,全为右偏、尖峰分布,而且,除点击率外所有指标的数据分布都是高偏分布。
⒉两地区大学网站所有的特征指标的数据均大致符合对数正态分布。
⒊广东地区的大学网站八个特征指标除总网页数外,其算术平均数均大于广西地区的大学网站的,算术平均数反映了一组数据的平均水平。也就是说,广东地区的大学网站总体来说,无论是建设的速度,受欢迎的程度,还是网站利用效率或者影响力都要高于广西地区的大学网站的。
⒋广东地区的大学网站八个特征指标除总链接数外,其离散系数均高于广西地区的大学网站的,离散系数显示了一组数据差异程度的情况。因此,可以说,相对广西地区,广东地区大学网站的发展不是那么均衡,不同大学的网站建设速度、利用效率以及其影响力存在着较大的差异。
参考文献:
[1]李长玲,王效岳,付鑫金.网站定量评价指标体系构建与权值分配[J].图书情报工作,2008(7).
[2]余建英,何旭宏.数据统计析与SPSS应用[M].北京:民邮电出
版社,2003.
[3]章文波,陈红艳.实用数据统计分析与SPSS 12.0应用[M].北京:人民邮电出版社,2006.
[4]茆诗松.统计手册[M].北京:科学出版社,2003.
[5]符启勋,方晶晶. 实用统计学[M].北京:国防工业出版,2005.
注:本文系广东石油化工学院科学研究基金资助项目,项目编号:203308。
作者简介:姚红(1963— ),女,广东人,副研究馆员,学士学位,主要研究领域:科学计量学与科学评价。