论文部分内容阅读
[摘 要]我国高等院校生物统计学课程多使用SPSS统计软件作为课堂配合软件使用。由于该软件是商业软件,功能繁多,远超入门生物统计课程所需的基本数据分析功能。对SPSS统计软件进行安装配置并使用其作为入门生物统计课程教学软件增加了教学复杂程度及成本。相较而言GNU PSPP基本上满足入门生物统计课程教学软件的要求,可作为教学软件使用。
[关键词]描述性统计 t检验 单因素方差分析 多因素方差分析 线性回归
[中图分类号] G40-057 [文献标识码] A [文章编号] 2095-3437(2015)08-0110-04
现今高等院校非统计专业开设生物统计学基础课程时多使用IBM SPSS Statistics(以下简称SPSS)配合课程上机实习。SPSS因其可以完全使用菜单操作无需学习编程以进行数据分析而得到广泛使用。然而对于大学本科二、三年级学生学习生物统计学基础课程而言,通常仅涉及基本的统计方法,仅需使用SPSS的一小部分功能。SPSS是一个功能完善的商业软件,将其安装配置于学校机房作为入门统计课程的配套软件,无疑会增加学校的管理设置难度及学生学习的复杂程度。笔者自从事生物统计学课程教学以来,一直致力于寻找及尝试使用免费、易用的统计软件进行数据统计分析以降低学习复杂程度,一款完全免费的名为GNU PSPP的自由软件包,界面与SPSS的基本相同,但包含基本的统计方法,且无需像SAS统计软件或另一免费的R统计语言那样涉及大量编程以进行数据分析,简单易用且具有图形使用界面,完全可以满足一般入门生物统计学课程的需要。笔者对GNU PSPP的软件界面语言进行了汉化以便用于教学。以下介绍GNU PSPP的特点及功能并与SPSS作比较以供广大师生参考。
一、GNU PSPP简介
GNU PSPP(以下简称PSPP)是一款以代替SPSS为目的用于数据分析的完全免费的自由软件。该软件具有与SPSS类似的图形操作界面、输出界面及语法输入界面,可与SPSS一样通过图形界面操作或编写语法文件进行数据分析。PSPP是一个多平台运行软件,在类Linux及Windows视窗操作系统上均可安装运行。目前其版本为0.8.5,可从其主页(https://www.gnu.org / software / pspp)获取相应版本进行安装。在PSPP的各项菜单中,文件、编辑、视图、窗口及帮助等与常见的视窗软件菜单及功能类似。其核心的数据分析操作集中于数据、变换、工具及分析菜单中。前三项菜单下为各项数据相关的操作,如汇总、加权、变换等。而分析菜单是数据分析的核心功能所在,该菜单结构如下(表1):
表1 GNU PSPP的分析菜单结构
分析—描述性统计—频率
| |-描述统计
| |-数据探索
| |-交叉表
|-比较均值—均值
| |-单样本T检验
| |-独立样本T检验
| |-成对样本T检验
| |-单因素方差分析
|-单变量分析
|-二元相关性
|-K均值聚类分析
|-因子分析
|-信度分析
|-回归—线性回归
| |-二元Logistic回归分析
|-非参数统计—卡方
| |-二项分布检验
| |-游程检验
| |-单样本Kolmogorov?鄄Smirnov检验
| |-两个样本相关性检验
| |-K个样本相关性检验
|-ROC曲线
由该列表可知,PSPP的分析功能基本涵盖了生物统计学入门课程(以教育部“十二五”国家级规划教材中的两本生物统计教材[1] [2]为例)所需的基础统计分析方法:描述性统计、t检验、单因素方差分析、多因素方差分析、交叉表、卡方检验、二元相关、线性回归等。
二、GNU PSPP与SPSS基础数据分析方法比较
(一)比较的分析方法及数据源
笔者以数据实例对PSPP与SPSS数据分析进行直观平行比较以探索PSPP替代SPSS的可行性。比较过程使用PSPP 0.8.5版和SPSS 22.0版(IBM SPSS网站获取的14天试用版本)进行。对如下常用的数据分析方法进行比较:描述性统计(此项选择“频率”操作以绘制直方图)、独立样本t检验、单因素方差分析、多因素方差分析和线性回归。使用的数据源自The Data and Story Library(http://lib.stat.cmu.edu / DASL,详见表2)。软件使用方法参考PSPP使用手册[3]及SPSS使用手册。[4]截取二者的操作对话框屏幕展现分析过程,而分析结果的呈现方式为屏幕截图,若SPSS的输出结果为格式化的文本,则拷贝粘贴并调整大小及字号等以能适合显示。
表2 分析方法及数据来源
■
*:链接前缀均为:http://lib.stat.cmu.edu / DASL / Datafiles /
(二)比较结果
1.描述性统计
该操作在PSPP和SPSS下均位于菜单“分析→描述统计→频率”下,均使用默认设置,结果见图1。二者均可绘制直方图、饼状图及条形图并可选择输出均值、方差等描述性统计量(PSPP须使用语法子命令: / BAR?鄄CHART以绘制条形图);SPSS支持Bootstrap。PSPP绘制直方图时,按照Freedman?鄄Diaconis规则(2*IQR(x)*n-1 / 3)对数据进行分组绘制。SPSS默认的分组数量较少,但可以通过双击输出窗口中的直方图,激活直方图后,在直方图柱条属性窗口的“分箱化”选项卡中调整。 ■ ■
图1 直方图的操作界面及结果输出
(a、c为PSPP操作对话框和结果;b、d为SPSS的操作对话框和结果)
2.独立样本t检验
独立样本t检验在PSPP和SPSS两个软件下的界面可见图2,结果可见图3及表3。此项分析功能两个软件从操作到结果几乎完全相同。
■
图2 独立样本t检验操作界面
(a为PSPP操作对话框;b为SPSS的操作对话框) ■
图3 PSPP独立样本t检验结果
表3 SPSS独立样本t检验结果
■
3.单因素方差分析
二者的单因素方差分析功能均位于菜单“分析→比较平均值→单因素方差分析”下,操作对话框见图4。分析结果见图5(PSPP结果)及表4、表5(SPSS结果)。操作过程相似,不同之处在于:PSPP的图形界面单因素方差分析对话框中,没有可以设置方差分析后进行多重比较的可视化设置界面,在图4a中设置好变量及分组后运行只得到图5上半部分的方差分析表。图5下半部分的多重比较结果通过运行语法命令(ONEWAY Length BY Type / POSTHOC=TUKEY)获得(命令中ONEWAY为单因素方差分析命令,Length为所用数据中的测试变量:长度,Type为分组变量:种类, / POSTHOC=TUKEY指定TUKEY HSD法;该命令与SPSS语法完全兼容)。除此之外,过程到结果基本相同。
■
图4 单因素方差分析操作界面
(a为PSPP操作对话框;b为SPSS的操作对话框)
■
图5 PSPP单因素方差分析结果(多重比较只截取了第一组结果)
表4 SPSS单因素方差分析结果
■
表5 SPSS单因素方差分析多重比较
■
4.多因素方差分析
PSPP的多因素方差分析功能位于分析菜单“单变量分析”子菜单下,而SPSS的多因素方差分析功能为菜单:分析→一般线性模型→单变量。操作对话框见图6。分析结果见图7(PSPP结果)及表6(SPSS结果)。与单因素方差分析类似,PSPP图形界面下无法指定多因素方差分析采用的模型,须在语法窗口下运行如下指令:
GLM HR BY Block Height Frequency
/ DESIGN Block Height Frequency Height*Frequency
PSPP当前版本中多因素方差分析功能处于测试阶段,未包含方差分析后的多重比较功能,只能通过手动或其他手段计算来进行多重比较。而SPSS可通过图形界面设置模型、对比、绘图及事后多重比较等。但单就方差分析结果而言,两者的结果基本相同。
■ 图6 多因素方差分析操作界面(a为PSPP操作对话框;b为SPSS的操作对话框)
■
图7 PSPP多因素方差分析结果
表6 SPSS多因素方差分析多重比较
■
a.R平方=.929(调整后的R平方=.891)
5.线性回归(一元线性回归)
二者的线性回归界面见图8,分析结果见图9 (PSPP)和表7 (SPSS)。与多因素方差分析类似,PSPP回归分析的可设置选项不如SPSS的丰富,而分析结果基本相同。
■ 图8 一元线性回归操作界面(a为PSPP操作对话框;b为SPSS的操作对话框)
■
图9 PSPP一元线性回归分析结果
表7 SPSS一元线性回归分析结果
■
6.小结
在进行对比的PSPP的分析功能中,其操作过程和设置与SPSS极为相似,只是可选设置及输出的细调不如SPSS灵活多样,PSPP的图形输出功能不足,但可通过编写语法语句使用EXAMINE及GRAPH命令来绘制更多图形,如箱形图、正态概率图、散点图等。而二者的分析结果高度一致(注:PSPP结果输出为默认只保留两位小数的设置,这点可以通过语法命令,如SET FORMAT F22.6来设置为具6位小数点的宽度为22的浮点数,本文所显示的输出均为此格式)。
三、结语
GNU PSPP作为一款模仿并致力于替代SPSS的免费自由软件,虽然在实现功能及完善程度上与后者尚有差距,但PSPP分析结果精确度及可靠性完全不亚于SPSS,已有不少科学研究采用PSPP作为分析软件使用,如Walter等。[5]而且PSPP所实现的功能已基本涵盖一门生物统计学入门课程所需涉及的统计分析方法。GNU PSPP完全可以作为生物统计学入门课程上机实习软件使用,越来越多的统计学教师正在考虑将PSPP作为统计学入门课程的作业软件配合使用。
至于PSPP几个分析中的一些不足之处,如输出小数点位数、单因素方差分析中设定事后多重比较及多因素方差分析中指定模型等均可通过输入一到两行语法命令进行。其图形输出功能也可通过编写数行简单语法指令使用EXAMINE及GRAPH命令或与其他软件配合使用来弥补。而且PSPP完全免费,安装设置简便,无需设置授权,图形界面简单易用,与SPSS极为相似且具有基本相同的语法命令,在学生的后续深入学习中必要使用SPSS时,其PSPP经验可与SPSS使用操作无缝结合。
笔者在使用PSPP作为生物统计学课程教学软件的经验已证明使用该软件切实可行,值得推广。笔者在进一步查阅更多其他类专业的统计教材后认为PSPP也可作为其他基础统计课程的教学软件。在教育部印发第一批和第二批“十二五”普通高等教育本科国家级规划教材书目中,共收列各类专业相关50余本统计教材(不含学习指导、习题集及SPSS软件分析教材)。除三本多元统计分析教材外,PSPP的统计分析功能几乎涵盖了所有统计教材的基本分析功能,包括在部分专业中使用较多的方法,如教育学、心理学、体育学等常用的因子分析和聚类分析(表1)。虽然PSPP没有实现一些分析方法,如经济及金融类专业常用的时间序列分析、医药卫生相关专业的元(Meta)分析等,但这些分析一般使用专业软件或另一个自由软件R统计语言编程进行分析。有些方法如结构方程模型等涉及多元统计分析,已超出基础统计课程重点内容。就基础统计学课程而言,GNU PSPP完全可以胜任该类课程的教学软件这一角色。
[ 注 释 ]
[1] 李春喜,姜丽娜,邵云,张黛静.生物统计学(第五版)[M].北京:科学出版社,2013.
[2] 刘来福,程书肖,李仲来.生物统计(第二版)[M].北京:北京师范大学出版社,2007.
[3] GNU PSPP Statistical Analysis Software.PSPP Users’guide[EB / OL].2014[2015-2-8].http://www.gnu.org / software / pspp / manual / pspp.html.
[4] International Business Machines Corporation. IBM SPSS Statistics Base 22[EB / OL].2015[2015-2-8].ftp://public.dhe.ibm.com / software / analytics / spss / documentation / statistics / 22.0 / zh_CN / client / Manuals / IBM_SPSS_Statistics_Base.pdf.
[5] Walter,C., Bell, L., Parsons,S., Jackson, C., Borley,N.,and Wheeler,J.Prevalence and significance of anaemia in patients receiving long-course neoadjuvant chemoradiotherapy for rectal carcinoma[J].Colorectal Disease,2013(1).
[责任编辑:覃侣冰]
[关键词]描述性统计 t检验 单因素方差分析 多因素方差分析 线性回归
[中图分类号] G40-057 [文献标识码] A [文章编号] 2095-3437(2015)08-0110-04
现今高等院校非统计专业开设生物统计学基础课程时多使用IBM SPSS Statistics(以下简称SPSS)配合课程上机实习。SPSS因其可以完全使用菜单操作无需学习编程以进行数据分析而得到广泛使用。然而对于大学本科二、三年级学生学习生物统计学基础课程而言,通常仅涉及基本的统计方法,仅需使用SPSS的一小部分功能。SPSS是一个功能完善的商业软件,将其安装配置于学校机房作为入门统计课程的配套软件,无疑会增加学校的管理设置难度及学生学习的复杂程度。笔者自从事生物统计学课程教学以来,一直致力于寻找及尝试使用免费、易用的统计软件进行数据统计分析以降低学习复杂程度,一款完全免费的名为GNU PSPP的自由软件包,界面与SPSS的基本相同,但包含基本的统计方法,且无需像SAS统计软件或另一免费的R统计语言那样涉及大量编程以进行数据分析,简单易用且具有图形使用界面,完全可以满足一般入门生物统计学课程的需要。笔者对GNU PSPP的软件界面语言进行了汉化以便用于教学。以下介绍GNU PSPP的特点及功能并与SPSS作比较以供广大师生参考。
一、GNU PSPP简介
GNU PSPP(以下简称PSPP)是一款以代替SPSS为目的用于数据分析的完全免费的自由软件。该软件具有与SPSS类似的图形操作界面、输出界面及语法输入界面,可与SPSS一样通过图形界面操作或编写语法文件进行数据分析。PSPP是一个多平台运行软件,在类Linux及Windows视窗操作系统上均可安装运行。目前其版本为0.8.5,可从其主页(https://www.gnu.org / software / pspp)获取相应版本进行安装。在PSPP的各项菜单中,文件、编辑、视图、窗口及帮助等与常见的视窗软件菜单及功能类似。其核心的数据分析操作集中于数据、变换、工具及分析菜单中。前三项菜单下为各项数据相关的操作,如汇总、加权、变换等。而分析菜单是数据分析的核心功能所在,该菜单结构如下(表1):
表1 GNU PSPP的分析菜单结构
分析—描述性统计—频率
| |-描述统计
| |-数据探索
| |-交叉表
|-比较均值—均值
| |-单样本T检验
| |-独立样本T检验
| |-成对样本T检验
| |-单因素方差分析
|-单变量分析
|-二元相关性
|-K均值聚类分析
|-因子分析
|-信度分析
|-回归—线性回归
| |-二元Logistic回归分析
|-非参数统计—卡方
| |-二项分布检验
| |-游程检验
| |-单样本Kolmogorov?鄄Smirnov检验
| |-两个样本相关性检验
| |-K个样本相关性检验
|-ROC曲线
由该列表可知,PSPP的分析功能基本涵盖了生物统计学入门课程(以教育部“十二五”国家级规划教材中的两本生物统计教材[1] [2]为例)所需的基础统计分析方法:描述性统计、t检验、单因素方差分析、多因素方差分析、交叉表、卡方检验、二元相关、线性回归等。
二、GNU PSPP与SPSS基础数据分析方法比较
(一)比较的分析方法及数据源
笔者以数据实例对PSPP与SPSS数据分析进行直观平行比较以探索PSPP替代SPSS的可行性。比较过程使用PSPP 0.8.5版和SPSS 22.0版(IBM SPSS网站获取的14天试用版本)进行。对如下常用的数据分析方法进行比较:描述性统计(此项选择“频率”操作以绘制直方图)、独立样本t检验、单因素方差分析、多因素方差分析和线性回归。使用的数据源自The Data and Story Library(http://lib.stat.cmu.edu / DASL,详见表2)。软件使用方法参考PSPP使用手册[3]及SPSS使用手册。[4]截取二者的操作对话框屏幕展现分析过程,而分析结果的呈现方式为屏幕截图,若SPSS的输出结果为格式化的文本,则拷贝粘贴并调整大小及字号等以能适合显示。
表2 分析方法及数据来源
■
*:链接前缀均为:http://lib.stat.cmu.edu / DASL / Datafiles /
(二)比较结果
1.描述性统计
该操作在PSPP和SPSS下均位于菜单“分析→描述统计→频率”下,均使用默认设置,结果见图1。二者均可绘制直方图、饼状图及条形图并可选择输出均值、方差等描述性统计量(PSPP须使用语法子命令: / BAR?鄄CHART以绘制条形图);SPSS支持Bootstrap。PSPP绘制直方图时,按照Freedman?鄄Diaconis规则(2*IQR(x)*n-1 / 3)对数据进行分组绘制。SPSS默认的分组数量较少,但可以通过双击输出窗口中的直方图,激活直方图后,在直方图柱条属性窗口的“分箱化”选项卡中调整。 ■ ■
图1 直方图的操作界面及结果输出
(a、c为PSPP操作对话框和结果;b、d为SPSS的操作对话框和结果)
2.独立样本t检验
独立样本t检验在PSPP和SPSS两个软件下的界面可见图2,结果可见图3及表3。此项分析功能两个软件从操作到结果几乎完全相同。
■
图2 独立样本t检验操作界面
(a为PSPP操作对话框;b为SPSS的操作对话框) ■
图3 PSPP独立样本t检验结果
表3 SPSS独立样本t检验结果
■
3.单因素方差分析
二者的单因素方差分析功能均位于菜单“分析→比较平均值→单因素方差分析”下,操作对话框见图4。分析结果见图5(PSPP结果)及表4、表5(SPSS结果)。操作过程相似,不同之处在于:PSPP的图形界面单因素方差分析对话框中,没有可以设置方差分析后进行多重比较的可视化设置界面,在图4a中设置好变量及分组后运行只得到图5上半部分的方差分析表。图5下半部分的多重比较结果通过运行语法命令(ONEWAY Length BY Type / POSTHOC=TUKEY)获得(命令中ONEWAY为单因素方差分析命令,Length为所用数据中的测试变量:长度,Type为分组变量:种类, / POSTHOC=TUKEY指定TUKEY HSD法;该命令与SPSS语法完全兼容)。除此之外,过程到结果基本相同。
■
图4 单因素方差分析操作界面
(a为PSPP操作对话框;b为SPSS的操作对话框)
■
图5 PSPP单因素方差分析结果(多重比较只截取了第一组结果)
表4 SPSS单因素方差分析结果
■
表5 SPSS单因素方差分析多重比较
■
4.多因素方差分析
PSPP的多因素方差分析功能位于分析菜单“单变量分析”子菜单下,而SPSS的多因素方差分析功能为菜单:分析→一般线性模型→单变量。操作对话框见图6。分析结果见图7(PSPP结果)及表6(SPSS结果)。与单因素方差分析类似,PSPP图形界面下无法指定多因素方差分析采用的模型,须在语法窗口下运行如下指令:
GLM HR BY Block Height Frequency
/ DESIGN Block Height Frequency Height*Frequency
PSPP当前版本中多因素方差分析功能处于测试阶段,未包含方差分析后的多重比较功能,只能通过手动或其他手段计算来进行多重比较。而SPSS可通过图形界面设置模型、对比、绘图及事后多重比较等。但单就方差分析结果而言,两者的结果基本相同。
■ 图6 多因素方差分析操作界面(a为PSPP操作对话框;b为SPSS的操作对话框)
■
图7 PSPP多因素方差分析结果
表6 SPSS多因素方差分析多重比较
■
a.R平方=.929(调整后的R平方=.891)
5.线性回归(一元线性回归)
二者的线性回归界面见图8,分析结果见图9 (PSPP)和表7 (SPSS)。与多因素方差分析类似,PSPP回归分析的可设置选项不如SPSS的丰富,而分析结果基本相同。
■ 图8 一元线性回归操作界面(a为PSPP操作对话框;b为SPSS的操作对话框)
■
图9 PSPP一元线性回归分析结果
表7 SPSS一元线性回归分析结果
■
6.小结
在进行对比的PSPP的分析功能中,其操作过程和设置与SPSS极为相似,只是可选设置及输出的细调不如SPSS灵活多样,PSPP的图形输出功能不足,但可通过编写语法语句使用EXAMINE及GRAPH命令来绘制更多图形,如箱形图、正态概率图、散点图等。而二者的分析结果高度一致(注:PSPP结果输出为默认只保留两位小数的设置,这点可以通过语法命令,如SET FORMAT F22.6来设置为具6位小数点的宽度为22的浮点数,本文所显示的输出均为此格式)。
三、结语
GNU PSPP作为一款模仿并致力于替代SPSS的免费自由软件,虽然在实现功能及完善程度上与后者尚有差距,但PSPP分析结果精确度及可靠性完全不亚于SPSS,已有不少科学研究采用PSPP作为分析软件使用,如Walter等。[5]而且PSPP所实现的功能已基本涵盖一门生物统计学入门课程所需涉及的统计分析方法。GNU PSPP完全可以作为生物统计学入门课程上机实习软件使用,越来越多的统计学教师正在考虑将PSPP作为统计学入门课程的作业软件配合使用。
至于PSPP几个分析中的一些不足之处,如输出小数点位数、单因素方差分析中设定事后多重比较及多因素方差分析中指定模型等均可通过输入一到两行语法命令进行。其图形输出功能也可通过编写数行简单语法指令使用EXAMINE及GRAPH命令或与其他软件配合使用来弥补。而且PSPP完全免费,安装设置简便,无需设置授权,图形界面简单易用,与SPSS极为相似且具有基本相同的语法命令,在学生的后续深入学习中必要使用SPSS时,其PSPP经验可与SPSS使用操作无缝结合。
笔者在使用PSPP作为生物统计学课程教学软件的经验已证明使用该软件切实可行,值得推广。笔者在进一步查阅更多其他类专业的统计教材后认为PSPP也可作为其他基础统计课程的教学软件。在教育部印发第一批和第二批“十二五”普通高等教育本科国家级规划教材书目中,共收列各类专业相关50余本统计教材(不含学习指导、习题集及SPSS软件分析教材)。除三本多元统计分析教材外,PSPP的统计分析功能几乎涵盖了所有统计教材的基本分析功能,包括在部分专业中使用较多的方法,如教育学、心理学、体育学等常用的因子分析和聚类分析(表1)。虽然PSPP没有实现一些分析方法,如经济及金融类专业常用的时间序列分析、医药卫生相关专业的元(Meta)分析等,但这些分析一般使用专业软件或另一个自由软件R统计语言编程进行分析。有些方法如结构方程模型等涉及多元统计分析,已超出基础统计课程重点内容。就基础统计学课程而言,GNU PSPP完全可以胜任该类课程的教学软件这一角色。
[ 注 释 ]
[1] 李春喜,姜丽娜,邵云,张黛静.生物统计学(第五版)[M].北京:科学出版社,2013.
[2] 刘来福,程书肖,李仲来.生物统计(第二版)[M].北京:北京师范大学出版社,2007.
[3] GNU PSPP Statistical Analysis Software.PSPP Users’guide[EB / OL].2014[2015-2-8].http://www.gnu.org / software / pspp / manual / pspp.html.
[4] International Business Machines Corporation. IBM SPSS Statistics Base 22[EB / OL].2015[2015-2-8].ftp://public.dhe.ibm.com / software / analytics / spss / documentation / statistics / 22.0 / zh_CN / client / Manuals / IBM_SPSS_Statistics_Base.pdf.
[5] Walter,C., Bell, L., Parsons,S., Jackson, C., Borley,N.,and Wheeler,J.Prevalence and significance of anaemia in patients receiving long-course neoadjuvant chemoradiotherapy for rectal carcinoma[J].Colorectal Disease,2013(1).
[责任编辑:覃侣冰]