论文部分内容阅读
[摘要]在地质科学研究中,当得到一个新的样品数据,要确定该样品属于已知类型中哪一类,这种问题就是判别分析法。判别法在使用前要求我们知道需要研究的变量共有几类。判别分析的目的就是从现有已知类别的样本数据中训练出一个判别函数来,以后再有未知类别的数据时,可以利用这个建立的函数来判断其类别。
[关键词]判别分析法 函数 数据
[中图分类号] P5884 [文献码] B [文章编号] 1000-405X(2014)-11-240-3
1在 Spss 数据界面中,输入相关数据据
表1是山西南部不同地区的地幔橄榄岩中的主要氧化物组成。按照岩石学和地球化学的研究成果,我们已经明确的将样品分成了三类。其中第一类样品(采于山西沁水)代表古生代时期的地幔物质组成,第二类样品(采于山西屯留)代表新生代时期的地幔物质组成,第三类样品(采于山西长子)代表新生代时期的地幔物质组成。
我们的目的是利用判别的统计方法,来确定表1中“未知类”样品的种属,判别出的种属是否实际的地质事实吻合。下面我们利用Spss提供的Discriminant过程(逐步回归)来进行判别。
此处采用Bayes判别,在 Spss 数据界面中,输入表1数据,首先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识做修正,得到后验概率分布,再基于后验概率分布做各种统计推断。
2具体的判别过程为
表2为缺失值报告表,显示录入的14组数据中,10组是有效的,因为它们的类别已经知道。另有4 组待判断的数据,需要判断属于哪一种。
表3 为已知类别的10组数据的各个变量的均值、离差等统计数据结果。
Stepwise Statistics
表4 是逐步分析的运行记录。可见第一步纳入了Al2O3,第二步纳入了Na2O,第三步纳入了MgO。右侧给出了Wilks’Lambda检验的具体结果。三步检验的结果都拒绝SIO2,这说明这三步检验中分别纳入 Al2O3、Na2O、MgO对正确判断分类是有作用的。
通过观察表5、表6、表7三个表格,我们可以看出仍然是逐步判别分析的运行记录。
Summary of Canonical Discriminant Functions
下表(Eigenvalues)是说明在分析的过程中一共提取了2个维度的函数,其中第一个函数解释了所 有变异的85.1%,第二个函数解释了剩下的14.9%的变异。
上表为两个判别函数中各个变量的标准化函数,可以用来判断两个函数分别主要受哪些变量的影响 较大。此处我们的两个标准化的函数式如下:
Y1=1.029*Al2O3-0.309*MgO+0.506*Na2O;
Y2=-0.160*Al2O3+1.307*MgO+1.374*Na2O.
变量 SIO2并没有参与判 别分析,就是说它对判别分析的影响是很小的。
表10表示了已经知道的三组数据的各自的重心在空间位置的坐标,如第一类的重心为(-0.7037,4.853)。如果我们计算出各个观测数据的具体坐标位置后就可以计算出它们分别离各个重心的距离, 这样就可以得知它们的分类。
表11即为相应于Fisher判别函数的Bayes判别函数的系数。据上表我们可以写出判别的函数式如下:
Group1=-9.065*Al2O3+145.044*MgO+341.883*Na2O-1580.858; Group2=-4.759*Al2O3+119.534*MgO+260.016*Na2O-1066.785; Group3=75.179*Al2O3+120.569*MgO+369.550*Na2O-1572.040.
Spss在此处判别的基本思路可以理解为:将未知种属的样品数据代入上面的三个函数中去,进行各类的评分,得分最高的一类就是该组数据相应的类别。
我们继续让Spss显示它完成的统计结果。
基于表12我们可以看出,Spss将未知的四组数据分别判给了第3、第2、第1、第2组。
3结论
上表是对本次判别过程的评价。可见,SPSS将四个未知类别的数据中的两个判给了第2组,一个判给了第1组,一个判给了第3组。对于已知类别的数据,误判为0。本次判别中,三类数据的判别准确率都达到了100%。
参考文献
[1]向东进.实用多元统计方法[M].中国地质大学出版社.2004.9.
[2]方茜.SSPS实用基础指导[J].理论与方法.2005.10.
[3]潘淑霞,孙王杰.数据分析与SSPS软件应用[J].吉林医药学院院报.2002.9.
[4]孙激流,沈大庆.概率论与数理统计[M].首都经济贸易大学出版社.2005.10.
[5]石军.多元统计方法在自然资源开发中的应用[J].山东理工大学学报.17(1)2003.1.
[关键词]判别分析法 函数 数据
[中图分类号] P5884 [文献码] B [文章编号] 1000-405X(2014)-11-240-3
1在 Spss 数据界面中,输入相关数据据
表1是山西南部不同地区的地幔橄榄岩中的主要氧化物组成。按照岩石学和地球化学的研究成果,我们已经明确的将样品分成了三类。其中第一类样品(采于山西沁水)代表古生代时期的地幔物质组成,第二类样品(采于山西屯留)代表新生代时期的地幔物质组成,第三类样品(采于山西长子)代表新生代时期的地幔物质组成。
我们的目的是利用判别的统计方法,来确定表1中“未知类”样品的种属,判别出的种属是否实际的地质事实吻合。下面我们利用Spss提供的Discriminant过程(逐步回归)来进行判别。
此处采用Bayes判别,在 Spss 数据界面中,输入表1数据,首先验概率分布来描述这种认识,然后基于抽取的样本再对先验认识做修正,得到后验概率分布,再基于后验概率分布做各种统计推断。
2具体的判别过程为
表2为缺失值报告表,显示录入的14组数据中,10组是有效的,因为它们的类别已经知道。另有4 组待判断的数据,需要判断属于哪一种。
表3 为已知类别的10组数据的各个变量的均值、离差等统计数据结果。
Stepwise Statistics
表4 是逐步分析的运行记录。可见第一步纳入了Al2O3,第二步纳入了Na2O,第三步纳入了MgO。右侧给出了Wilks’Lambda检验的具体结果。三步检验的结果都拒绝SIO2,这说明这三步检验中分别纳入 Al2O3、Na2O、MgO对正确判断分类是有作用的。
通过观察表5、表6、表7三个表格,我们可以看出仍然是逐步判别分析的运行记录。
Summary of Canonical Discriminant Functions
下表(Eigenvalues)是说明在分析的过程中一共提取了2个维度的函数,其中第一个函数解释了所 有变异的85.1%,第二个函数解释了剩下的14.9%的变异。
上表为两个判别函数中各个变量的标准化函数,可以用来判断两个函数分别主要受哪些变量的影响 较大。此处我们的两个标准化的函数式如下:
Y1=1.029*Al2O3-0.309*MgO+0.506*Na2O;
Y2=-0.160*Al2O3+1.307*MgO+1.374*Na2O.
变量 SIO2并没有参与判 别分析,就是说它对判别分析的影响是很小的。
表10表示了已经知道的三组数据的各自的重心在空间位置的坐标,如第一类的重心为(-0.7037,4.853)。如果我们计算出各个观测数据的具体坐标位置后就可以计算出它们分别离各个重心的距离, 这样就可以得知它们的分类。
表11即为相应于Fisher判别函数的Bayes判别函数的系数。据上表我们可以写出判别的函数式如下:
Group1=-9.065*Al2O3+145.044*MgO+341.883*Na2O-1580.858; Group2=-4.759*Al2O3+119.534*MgO+260.016*Na2O-1066.785; Group3=75.179*Al2O3+120.569*MgO+369.550*Na2O-1572.040.
Spss在此处判别的基本思路可以理解为:将未知种属的样品数据代入上面的三个函数中去,进行各类的评分,得分最高的一类就是该组数据相应的类别。
我们继续让Spss显示它完成的统计结果。
基于表12我们可以看出,Spss将未知的四组数据分别判给了第3、第2、第1、第2组。
3结论
上表是对本次判别过程的评价。可见,SPSS将四个未知类别的数据中的两个判给了第2组,一个判给了第1组,一个判给了第3组。对于已知类别的数据,误判为0。本次判别中,三类数据的判别准确率都达到了100%。
参考文献
[1]向东进.实用多元统计方法[M].中国地质大学出版社.2004.9.
[2]方茜.SSPS实用基础指导[J].理论与方法.2005.10.
[3]潘淑霞,孙王杰.数据分析与SSPS软件应用[J].吉林医药学院院报.2002.9.
[4]孙激流,沈大庆.概率论与数理统计[M].首都经济贸易大学出版社.2005.10.
[5]石军.多元统计方法在自然资源开发中的应用[J].山东理工大学学报.17(1)2003.1.