论文部分内容阅读
[摘要] 本文介绍了在应用SPSS软件中的两个技术问题,一个是具有重叠组限数据分组时,如何保证“上组限不在内”原则;另一个是二手列联表数据如何组织更为简便。
[关键词] SPSS软件 重编码 列联表
SPSS软件原名为Statistical Package for the Social Science,译为社会科学统计软件包。2000年SPSS公司为适应市场发展的需要,将其名称改为Statistical Product and Service Solutions,译为统计产品与服务解决方案。SPSS软件具有较强的数据管理、数据分析、结果展示的功能,是世界著名的统计分析软件之一。SPSS软件的窗口菜单操作方式更是给用户的使用带来了极大的方便。用户只要掌握一定的Windows操作基础和统计分析的原理,就可以使用该软件进行特定的数据分析工作。并且统计数据的管理、统计结果的展示比较直观、清晰,图形的输出美观大方,受到统计专业人员以及大部分非统计专业人员的青睐。
尽管SPSS软件中仍然保留了程序运行的管理方式,但是大部分的使用者很少涉足。窗口菜单的运行方式的确给我们带来了极大的操作方便,但有时寻找一个好的方法来进行数据处理并不是一件非常容易的事情。笔者根据自己在教学过程中的实践,为读者提供两个在SPSS软件数据处理过程中的应用,希望对读者在应用软件过程中有一定的帮助。本文所用软件版本为10.0。
一、具有重叠组限数据分组
数据重编码的功能有两个:一是对大批量的相同数据进行数值修改,二是可以对数据进行统计分组。利用重编码对数据进行分组要分两种情况来对待:一种是将数据重编码进行分组后,各组的组限不重叠;第二种是将数据重编码进行分组后,各组的组限重叠。对于前一种情况来说,读者只需要参考各种教材中的操作步骤完成操作即可。而对于后一种情况来说,就必须要考虑到统计分组原理中的一个重要原则“上组限不在内”。如何满足组限重叠情况下的上组限不在内原则呢?软件中并没有相应的选项,需要进行专门的设计,才能达到上组限不在内的目的。这里以一个案例说明其操作方法:以山东工商学院2005级统计1班16名同学的数理统计学期末考试成绩为例,见图1。
现在对这16个原始成绩作分类分析,即划分优(90~100分)、良(80~90分)、中(70~80分)、及格(60~70分)、不及格(60分以下)的五档分组。这是一个典型的组限重叠的分组数据,其中出现了60、70、80、90这样的成绩与组限恰好相同。要想在数据的分组时,保证“上组限不在内”,可以:
1.按Transform → Recode → into Different Variables顺序单击菜单项,打开数据重编码对话框,见图2。
2.从变量列表中选择“数理统计”变量,送入Numeric Variable → Output框中。并且在Name框中输入新变量名“成绩等级”,然后点击Change按钮。
3.单击Old and New Values按钮,展开Recode into Different Variables:Old and New Values对话框,见图3。
这一步是输入的关键点,要想满足“上组限不在内”,必须满足以下原则:重编码顺序必须从大数组依次按顺序向小数组进行定义新旧变量间的对应的关系。绝对不可以反过来定义。(1)Old value栏中选择Range_through_,首先输入90和100,在New Value栏的value框中输入5(优秀)。大组对应大数的目的在于作统计分析和图形的时候,可以从小到大显示。(2)Old value栏中选择Range_through_,输入80和90,在New Value栏的value框中输入4(良好)。(3)Old value栏中选择Range_through_,输入70和80,在New Value栏的value框中输入3(中)。(4)Old value栏中选择Range_through_,输入60和70,在New Value栏的value框中输入2(及格)。(5)Old value栏中选择Range lowest through_,输入60,在New Value栏的value框中输入1(不及格)。
4.完成定义,单击Continue,单击OK。结果见图4。
由图4的结果可以看到,分组后的结果已经满足“上组限不在内”原则。若按照卢纹岱老师编写的教材中数据重编码由小组往大组定义的操作,结果正好相反,读者可自己验证。
二、列联表分析中二手数据的组织与处理
列联表分析通常应用于属性数据的关联性研究。通常在进行列联表分析时所运用的数据大部分都是原始数据。有时也会遇到非原始数据的情况,即二手数据如表中给出的情况。
这是一个教育程度、收入水平与有车状况的三个属性变量的频数分布表。像这样的数据如何输入到计算机,并进行更为深入的分析呢?有两种数据组织方式:
1.建立教育程度、收入水平与有车状况三个变量,每个变量的取值都有两个,按照原始搜集数据的方式进行输入。例如:低收入水平中有大学程度的人有车的共有20人,这样一个组合要建立20个观测。则总共要输入的观测数量为1000个。显然,这种数据组织方式的工作量是相當大的。
2.为了能用更简便的方法解决上述问题,只需在建立教育程度、收入水平与有车状况三个变量后,再建立一个新的变量即单元格频数变量(用n表示)。数据组织方式如图5,每一交叉单元格作为一个观测(不包括合计),总共只需要输入8个观测即可,这就大大节省了输入工作量。对如此组织后的数据再进行列联表分析,具体步骤如下:(1)加权。Data → Weight Cases打开加权对话框,将变量n选入Freqency Variable框中完成加权操作。(2)列联表分析。Analyze → Descriptive Statistics → Crosstabs打开列联表分析的对话框,按照一般教科书的方法选择分析变量,进行参数设置,即可完成列联表分析的操作。这里变量n主要起到的是加权作用,不参与分析变量的选择。
对于类似表的二手数据,建立变量、输入观测的原则是:变量个数为属性变量个数加1,1即单元格频数变量;观测个数为属性变量各取值交叉单元格的个数。
三、结语
以上就是笔者在教学工作中总结的SPSS软件的两个技术问题,希望对读者在应用SPSS软件过程中能够有所帮助。
参考文献:
[1]卢纹岱:SPSS for Windows统计分析(第3版)[M].电子工业出版社,2006年
[2]薛薇:统计分析与SPSS的应用[M].中国人民大学出版社,2001年
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。
[关键词] SPSS软件 重编码 列联表
SPSS软件原名为Statistical Package for the Social Science,译为社会科学统计软件包。2000年SPSS公司为适应市场发展的需要,将其名称改为Statistical Product and Service Solutions,译为统计产品与服务解决方案。SPSS软件具有较强的数据管理、数据分析、结果展示的功能,是世界著名的统计分析软件之一。SPSS软件的窗口菜单操作方式更是给用户的使用带来了极大的方便。用户只要掌握一定的Windows操作基础和统计分析的原理,就可以使用该软件进行特定的数据分析工作。并且统计数据的管理、统计结果的展示比较直观、清晰,图形的输出美观大方,受到统计专业人员以及大部分非统计专业人员的青睐。
尽管SPSS软件中仍然保留了程序运行的管理方式,但是大部分的使用者很少涉足。窗口菜单的运行方式的确给我们带来了极大的操作方便,但有时寻找一个好的方法来进行数据处理并不是一件非常容易的事情。笔者根据自己在教学过程中的实践,为读者提供两个在SPSS软件数据处理过程中的应用,希望对读者在应用软件过程中有一定的帮助。本文所用软件版本为10.0。
一、具有重叠组限数据分组
数据重编码的功能有两个:一是对大批量的相同数据进行数值修改,二是可以对数据进行统计分组。利用重编码对数据进行分组要分两种情况来对待:一种是将数据重编码进行分组后,各组的组限不重叠;第二种是将数据重编码进行分组后,各组的组限重叠。对于前一种情况来说,读者只需要参考各种教材中的操作步骤完成操作即可。而对于后一种情况来说,就必须要考虑到统计分组原理中的一个重要原则“上组限不在内”。如何满足组限重叠情况下的上组限不在内原则呢?软件中并没有相应的选项,需要进行专门的设计,才能达到上组限不在内的目的。这里以一个案例说明其操作方法:以山东工商学院2005级统计1班16名同学的数理统计学期末考试成绩为例,见图1。
现在对这16个原始成绩作分类分析,即划分优(90~100分)、良(80~90分)、中(70~80分)、及格(60~70分)、不及格(60分以下)的五档分组。这是一个典型的组限重叠的分组数据,其中出现了60、70、80、90这样的成绩与组限恰好相同。要想在数据的分组时,保证“上组限不在内”,可以:
1.按Transform → Recode → into Different Variables顺序单击菜单项,打开数据重编码对话框,见图2。
2.从变量列表中选择“数理统计”变量,送入Numeric Variable → Output框中。并且在Name框中输入新变量名“成绩等级”,然后点击Change按钮。
3.单击Old and New Values按钮,展开Recode into Different Variables:Old and New Values对话框,见图3。
这一步是输入的关键点,要想满足“上组限不在内”,必须满足以下原则:重编码顺序必须从大数组依次按顺序向小数组进行定义新旧变量间的对应的关系。绝对不可以反过来定义。(1)Old value栏中选择Range_through_,首先输入90和100,在New Value栏的value框中输入5(优秀)。大组对应大数的目的在于作统计分析和图形的时候,可以从小到大显示。(2)Old value栏中选择Range_through_,输入80和90,在New Value栏的value框中输入4(良好)。(3)Old value栏中选择Range_through_,输入70和80,在New Value栏的value框中输入3(中)。(4)Old value栏中选择Range_through_,输入60和70,在New Value栏的value框中输入2(及格)。(5)Old value栏中选择Range lowest through_,输入60,在New Value栏的value框中输入1(不及格)。
4.完成定义,单击Continue,单击OK。结果见图4。
由图4的结果可以看到,分组后的结果已经满足“上组限不在内”原则。若按照卢纹岱老师编写的教材中数据重编码由小组往大组定义的操作,结果正好相反,读者可自己验证。
二、列联表分析中二手数据的组织与处理
列联表分析通常应用于属性数据的关联性研究。通常在进行列联表分析时所运用的数据大部分都是原始数据。有时也会遇到非原始数据的情况,即二手数据如表中给出的情况。
这是一个教育程度、收入水平与有车状况的三个属性变量的频数分布表。像这样的数据如何输入到计算机,并进行更为深入的分析呢?有两种数据组织方式:
1.建立教育程度、收入水平与有车状况三个变量,每个变量的取值都有两个,按照原始搜集数据的方式进行输入。例如:低收入水平中有大学程度的人有车的共有20人,这样一个组合要建立20个观测。则总共要输入的观测数量为1000个。显然,这种数据组织方式的工作量是相當大的。
2.为了能用更简便的方法解决上述问题,只需在建立教育程度、收入水平与有车状况三个变量后,再建立一个新的变量即单元格频数变量(用n表示)。数据组织方式如图5,每一交叉单元格作为一个观测(不包括合计),总共只需要输入8个观测即可,这就大大节省了输入工作量。对如此组织后的数据再进行列联表分析,具体步骤如下:(1)加权。Data → Weight Cases打开加权对话框,将变量n选入Freqency Variable框中完成加权操作。(2)列联表分析。Analyze → Descriptive Statistics → Crosstabs打开列联表分析的对话框,按照一般教科书的方法选择分析变量,进行参数设置,即可完成列联表分析的操作。这里变量n主要起到的是加权作用,不参与分析变量的选择。
对于类似表的二手数据,建立变量、输入观测的原则是:变量个数为属性变量个数加1,1即单元格频数变量;观测个数为属性变量各取值交叉单元格的个数。
三、结语
以上就是笔者在教学工作中总结的SPSS软件的两个技术问题,希望对读者在应用SPSS软件过程中能够有所帮助。
参考文献:
[1]卢纹岱:SPSS for Windows统计分析(第3版)[M].电子工业出版社,2006年
[2]薛薇:统计分析与SPSS的应用[M].中国人民大学出版社,2001年
注:本文中所涉及到的图表、注解、公式等内容请以PDF格式阅读原文。