论文部分内容阅读
摘 要:聚类分析是一种应用性很强的统计方法,它是在未知样品类别的情况下,根据样品自身性质上的亲疏关系以及相似程度对样品进行分类。应用聚类分析的方法并通过SAS软件实现了对我国31省(市、区)的农业总产值进行归类,较为科学地揭示了气候条件和地理环境的差异对农业生产与发展的制约作用,清晰地呈现了我国农业总产值高低的区域性分布特点,从而为各地区制定农业发展战略提供一定的参考依据。
关键词:聚类分析;农业总产值;SAS软件
中图分类号 C81 文献标识码 A 文章编号 1007-7731(2013)15-21-02
1 问题的提出及分析
中国各地区由于气候条件和地理环境的不同,在农业生产和发展上存在很大的差异,表1[1]给出了2007年全国31个地区农业各门类——农林牧渔的总产值。
表1 2007年我国31个地区农林牧渔总产值(亿元)
[地区\&农业总产值\&林业总产值\&牧业总产值\&渔业总产值\&北京\&115.5\&17.8 \&122.4 \&10.2\&天津\&117.6\&2.1\&76.9 \&36.1\&河北\&1 639.1\&52.4\&1 147.0\&85.1\&…\&…\&…\&…\&…\&]
这是一个数据较为庞杂的表格,用描述性统计方法显然过于繁琐。我们尝试着用系统聚类的方法进行归类,这种方法通过定义距离来描述两个样品以及类别之间的亲疏关系,然后根据某种准则来对样品做出分类,所分类别由多到少。
2 问题的解决
2.1 数据的输入
data GAV;
input area$ x1 x2 x3 x4 @@;
label area=“地区” x1=“农业总产值” x2=“林业总产值” x3=“牧业总产值” x4=“渔业总产值”;
cards;
北京 115.5 17.8 122.4 10.2
天津 117.6 2.1 76.9 36.1
河北 1 639.1 52.4 1 147.0 85.1
山西 322.6 17.6 140.2 3.5
内蒙古 620.4 63.7 559.7 10.9
辽宁 837.5 60.3 830.8 326.1
吉林 641.5 48.8 635.3 18.8
黑龙江 971.9 79.0 585.0 25.1
上海 126.7 10.0 58.0 54.2
江苏 1 542.5 58.9 704.4 579.0
浙江 735.9 95.5 367.6 369.9
安徽 1 054.0 100.5 637.4 195.0
福建 685.3 120.7 340.6 473.3
江西 621.3 126.5 435.6 182.2
山东 2 604.1 82.0 1 313.0 580.3
河南 2 254.5 104.8 1 326.1 44.5
湖北 1 152.1 41.9 686.2 310.8
湖南 1 243.2 144.1 1 013.8 154.7
广东 1 328.7 73.4 775.6 541.9
广西 970.5 99.8 710.2 178.3
海南 224.2 80.5 106.1 121.3
重庆 401.5 25.9 264.5 18.4
四川 131.6 87.2 1 827.1 85.8
贵州 392.2 27.8 231.6 9.0
云南 683.8 156.0 438.4 25.4
西藏 39.5 2.7 34.9 0.1
陕西 629.3 33.8 274.0 4.2
甘肃 458.7 19.4 131.2 0.9
青海 49.2 2.0 67.0 0.1
宁夏 111.1 5.7 53.3 5.2
新疆 767.0 20.9 231.5 7.0;
以上程序是SAS中实现数据输入的必要步骤,它先定义了一个数据集GAV,然后定义了5个变量:地区以及农、林、牧、渔的总产值。
2.2 执行聚类的过程
proc cluster data=GAV method=ave outtree=ot standard pseudo ccc;
var x1-x4;
id area;
proc tree data=ot ;
run;
在第一个过程——cluster过程中,proc语句指出对数据集GAV进行系统聚类分析,method=ave outtree=ot分(下转52页)(上接21页)别表示使用类平均法,将数据集输出到ot中以便绘制谱系图,standard pseudo分别表示聚类之前将数据进行标准化处理,输出伪统计量、伪统计量,ccc表示输出统计量、半偏统计量以及ccc统计量。
在第二个过程步——TREE过程[2]中,PROC语句支出根据数据集ot绘制聚类过程的谱系图,若加上选项HORIZONTAL表示绘制的是横向的谱系图,这里默认为绘制纵向的谱系图。
2.3 输出结果分析 在SAS软件中运行上述程序之后得到结果,以下进行结果分析:
图1 系统聚类的过程
从图1可以看出,系统聚类进行了30步,在每一步都是合并了两类。在图1显示的第一列(NCL)显示的是当前类的个数从表中可以看出来,第一步合并之后又30个类,最后一步只剩下一个类。因为用类平均法计算得到西藏和青海的距离最小,因此首先将二者合为一个类。从第5列到第10列显示了当前这一步对应的各种统计量,最后一列则给出了两个类在合并之前的平均距离。从谱系图(图2)中可以直观地了解整个系统聚类的过程,并且可以清晰地看到对所有国家在不同水平下的分类,但是究竟该采用哪种分类、具体分为几类,则需要分析相应的统计量。
图2 系统聚类的谱系图
图1中统计量随着分类个数的减少而减少,并且在由4类变成3类时减少较快(由0.638减少到0.238)。因此从统计量来看分成4类比较合适。
接下来分析半偏统计量,当NCL=3时半偏统计量最大(值为0.400 4),当NCL=1时半偏统计量次大(值为0.150 1),说明这两步的合并效果都不好,应该采取上一步的分类。因此从半偏统计量来看分成4类或者2类较为合适。
再看伪统计量,发现当NCL=3时伪统计量最大(值为29.9),当NCL=14时伪统计量次大(值为26.3),当NCL=13时伪统计量(值为26.1),由此可以看出这3步的拟合效果并不好,应该采取其上一步的分类。于是,认为分为4类、13类、14类是比较合适的。
综合上述几个统计量反映的结果,可以得出结论,认为分成4类时比较合适的。
查看谱系图可以清楚的知道,分为四类的结果是:第一类:北京、天津、上海、西藏、青海、宁夏、山西、甘肃、重庆、贵州、陕西、新疆、内蒙古、吉林、黑龙江、海南。第二类:河北、河南、辽宁、湖北、江苏、广东、浙江、福建、安徽、广西、江西、湖南、云南。第三类:四川。第四类:山东。
从分类的结果不难看出,第一类中,北京、上海、黑龙江、海南等地区因为重视工业或者地理环境的不适宜导致农业各部门的总产值相对较低,因此归为一类;河北、河南、云南、浙江等地区,总体来讲自然环境稍好于第一类地区,总产值高一些,因此可以分为一类;四川地处中原,降雨较为丰富,总产值又好于前两类;山东地区降雨量大,劳动力充足,气候适宜,因此农业各部门的总产值最高[3]。
3 结语
虽然科技方面的进步会对农业产生很大的影响,但是良好的气候条件和地理环境仍然有着自身的优越性。本文采用系统聚类的方法对我国31个地区按照农业总产值进行了分类,较为科学地揭示了气候条件和地理环境的差异对农业生产与发展的制约作用,清晰地呈现了我国农业总产值高低的区域性分布特点,从而为各地区制定农业发展战略提供了一定的依据。
参考文献
[1]王芳,陈胜可,冯国生,等.SAS统计分析与应用[M].北京:电子工业出版社,2011.
[2]胡良平,高辉.SAS统计分析教程[M].北京:电子出版社,2010.
[3]李庆东,李颖.证券投资分析方法新探索[J].现代情报,2005(11):223-224.
(责编:张宏民)
关键词:聚类分析;农业总产值;SAS软件
中图分类号 C81 文献标识码 A 文章编号 1007-7731(2013)15-21-02
1 问题的提出及分析
中国各地区由于气候条件和地理环境的不同,在农业生产和发展上存在很大的差异,表1[1]给出了2007年全国31个地区农业各门类——农林牧渔的总产值。
表1 2007年我国31个地区农林牧渔总产值(亿元)
[地区\&农业总产值\&林业总产值\&牧业总产值\&渔业总产值\&北京\&115.5\&17.8 \&122.4 \&10.2\&天津\&117.6\&2.1\&76.9 \&36.1\&河北\&1 639.1\&52.4\&1 147.0\&85.1\&…\&…\&…\&…\&…\&]
这是一个数据较为庞杂的表格,用描述性统计方法显然过于繁琐。我们尝试着用系统聚类的方法进行归类,这种方法通过定义距离来描述两个样品以及类别之间的亲疏关系,然后根据某种准则来对样品做出分类,所分类别由多到少。
2 问题的解决
2.1 数据的输入
data GAV;
input area$ x1 x2 x3 x4 @@;
label area=“地区” x1=“农业总产值” x2=“林业总产值” x3=“牧业总产值” x4=“渔业总产值”;
cards;
北京 115.5 17.8 122.4 10.2
天津 117.6 2.1 76.9 36.1
河北 1 639.1 52.4 1 147.0 85.1
山西 322.6 17.6 140.2 3.5
内蒙古 620.4 63.7 559.7 10.9
辽宁 837.5 60.3 830.8 326.1
吉林 641.5 48.8 635.3 18.8
黑龙江 971.9 79.0 585.0 25.1
上海 126.7 10.0 58.0 54.2
江苏 1 542.5 58.9 704.4 579.0
浙江 735.9 95.5 367.6 369.9
安徽 1 054.0 100.5 637.4 195.0
福建 685.3 120.7 340.6 473.3
江西 621.3 126.5 435.6 182.2
山东 2 604.1 82.0 1 313.0 580.3
河南 2 254.5 104.8 1 326.1 44.5
湖北 1 152.1 41.9 686.2 310.8
湖南 1 243.2 144.1 1 013.8 154.7
广东 1 328.7 73.4 775.6 541.9
广西 970.5 99.8 710.2 178.3
海南 224.2 80.5 106.1 121.3
重庆 401.5 25.9 264.5 18.4
四川 131.6 87.2 1 827.1 85.8
贵州 392.2 27.8 231.6 9.0
云南 683.8 156.0 438.4 25.4
西藏 39.5 2.7 34.9 0.1
陕西 629.3 33.8 274.0 4.2
甘肃 458.7 19.4 131.2 0.9
青海 49.2 2.0 67.0 0.1
宁夏 111.1 5.7 53.3 5.2
新疆 767.0 20.9 231.5 7.0;
以上程序是SAS中实现数据输入的必要步骤,它先定义了一个数据集GAV,然后定义了5个变量:地区以及农、林、牧、渔的总产值。
2.2 执行聚类的过程
proc cluster data=GAV method=ave outtree=ot standard pseudo ccc;
var x1-x4;
id area;
proc tree data=ot ;
run;
在第一个过程——cluster过程中,proc语句指出对数据集GAV进行系统聚类分析,method=ave outtree=ot分(下转52页)(上接21页)别表示使用类平均法,将数据集输出到ot中以便绘制谱系图,standard pseudo分别表示聚类之前将数据进行标准化处理,输出伪统计量、伪统计量,ccc表示输出统计量、半偏统计量以及ccc统计量。
在第二个过程步——TREE过程[2]中,PROC语句支出根据数据集ot绘制聚类过程的谱系图,若加上选项HORIZONTAL表示绘制的是横向的谱系图,这里默认为绘制纵向的谱系图。
2.3 输出结果分析 在SAS软件中运行上述程序之后得到结果,以下进行结果分析:
从图1可以看出,系统聚类进行了30步,在每一步都是合并了两类。在图1显示的第一列(NCL)显示的是当前类的个数从表中可以看出来,第一步合并之后又30个类,最后一步只剩下一个类。因为用类平均法计算得到西藏和青海的距离最小,因此首先将二者合为一个类。从第5列到第10列显示了当前这一步对应的各种统计量,最后一列则给出了两个类在合并之前的平均距离。从谱系图(图2)中可以直观地了解整个系统聚类的过程,并且可以清晰地看到对所有国家在不同水平下的分类,但是究竟该采用哪种分类、具体分为几类,则需要分析相应的统计量。
图2 系统聚类的谱系图
图1中统计量随着分类个数的减少而减少,并且在由4类变成3类时减少较快(由0.638减少到0.238)。因此从统计量来看分成4类比较合适。
接下来分析半偏统计量,当NCL=3时半偏统计量最大(值为0.400 4),当NCL=1时半偏统计量次大(值为0.150 1),说明这两步的合并效果都不好,应该采取上一步的分类。因此从半偏统计量来看分成4类或者2类较为合适。
再看伪统计量,发现当NCL=3时伪统计量最大(值为29.9),当NCL=14时伪统计量次大(值为26.3),当NCL=13时伪统计量(值为26.1),由此可以看出这3步的拟合效果并不好,应该采取其上一步的分类。于是,认为分为4类、13类、14类是比较合适的。
综合上述几个统计量反映的结果,可以得出结论,认为分成4类时比较合适的。
查看谱系图可以清楚的知道,分为四类的结果是:第一类:北京、天津、上海、西藏、青海、宁夏、山西、甘肃、重庆、贵州、陕西、新疆、内蒙古、吉林、黑龙江、海南。第二类:河北、河南、辽宁、湖北、江苏、广东、浙江、福建、安徽、广西、江西、湖南、云南。第三类:四川。第四类:山东。
从分类的结果不难看出,第一类中,北京、上海、黑龙江、海南等地区因为重视工业或者地理环境的不适宜导致农业各部门的总产值相对较低,因此归为一类;河北、河南、云南、浙江等地区,总体来讲自然环境稍好于第一类地区,总产值高一些,因此可以分为一类;四川地处中原,降雨较为丰富,总产值又好于前两类;山东地区降雨量大,劳动力充足,气候适宜,因此农业各部门的总产值最高[3]。
3 结语
虽然科技方面的进步会对农业产生很大的影响,但是良好的气候条件和地理环境仍然有着自身的优越性。本文采用系统聚类的方法对我国31个地区按照农业总产值进行了分类,较为科学地揭示了气候条件和地理环境的差异对农业生产与发展的制约作用,清晰地呈现了我国农业总产值高低的区域性分布特点,从而为各地区制定农业发展战略提供了一定的依据。
参考文献
[1]王芳,陈胜可,冯国生,等.SAS统计分析与应用[M].北京:电子工业出版社,2011.
[2]胡良平,高辉.SAS统计分析教程[M].北京:电子出版社,2010.
[3]李庆东,李颖.证券投资分析方法新探索[J].现代情报,2005(11):223-224.
(责编:张宏民)