论文部分内容阅读
摘 要:2017年10月18日,中国特色社会主义进入新时代,为了给不平衡问题提供理论依据和发展方向,以城市发展水平为研究对象,搜集查询了全国31个省份的经济、卫生、通信、交通等数据,通过相关系数矩阵找寻各省份发展因素之间内在的联系;运用主成分分析法,对2016年中国31个省份经济发展基本状况进行综合分析及评价;利用PCA的Q-聚类算法,将全国31个省份划分为5类;发展较好的省份分布在北京以及南方沿海附近,而西藏是发展最差的省份,可看出,研究经济发展不平衡的问题是非常有必要的。
关键词:Q型聚类;主成分分析;相关性矩阵;发展差异性
一、主成分分析
(一)数据来源与指标选取
为了准确合理的把握住各省份经济发展的基本状况,本文选取了居民消费水平、城镇单位就业人均工资、人均GDP、卫生技术人员数、互联网普及率、公交数六项指标来综合反映各城市发展水平。通过上网查询《中国统计年鉴--2016》中的相關数据,获得的六项指标数据。
(二)相关性矩阵
全国31个省份的6项指标存在的某种内在联系,通过相关系数矩阵进行分析如下:
居民消费水平[1]与人均GDP,居民消费水平与互联网普及率,人均GDP与互联网普及率的相关性系数均超过了0.8,GDP反映出在特定时间内,各地区生产的价值,是衡量该地区经济状况的重要指标;GDP高说明该地区经济发展水平好,该地区的居民消费水平自然也会高,通信等信息产业的推广也会非常普及,三者之间关系呈正相关,可得出它们之间存在着较大的内在联系。
主成分分析指把多目标转化为少数几个综合目标,其中每个主成分能够反映原始变量的大部分信息,且所含信息互不重复,如果此处不对数据进行主成分分析,直接进行的聚类分析,结果会在某种程度上受到过大的影响,从而不能够全面的进行反映实际情况, 所以运用主成分分析法,对数据进行降维处理:
一般认为当累积贡献率达到85%的时候,所提取的主成分就可以较好表达原始数据信息。前3个主成分的累计贡献率达到91.87%,因此选前3个主成分已经足够描述经济发展水平。通过计算主成分[3]系数得到三个主成分的表达式,如下:
[Z1=0.953x1+0.757x2+0.934x3+0.816x4+0.878x5+0.779x6Z2=-0.136x1-0.51x2-0.14x3+0.36x4-0.074x5+0.536x6Z3=-0.113x1+0.366x2-0.21x3+0.35x4-0.286x5-0.01x6](1)
二、聚类分析
Q型聚类研究对象是样本,作用在于能利用多个变量对样本进行分类,分类结果直观,聚类谱系图能明确、清楚地表达其数值分类结果,所得结果比传统的定性分类方法更细致、全面、合理。Q聚类[2]简要过程:
1.数据标准化处理,使相差较大的指标变量量纲或数量级的数据能放到一起加以比较。
2.选择距离定义方式,采用聚类分析中用的最广泛的欧式距离,每个样本各自视为一类,计算样本之间的距离。
3.选择聚类方法,此处使用的是实际应用最多的谱系聚类,具体方法采用分类效果较好、应用较广的离差平方和法进行计算。
[JC=(xi--x)2+(yi--y)2+???](2)
通过MATLAB软件,以省份为标注个案,以得到的3个主成分进行Q型聚类分析。
三、结论
从结果看出,第一类西藏,位于青藏高原西南部,平均海拔在4000米以上,其经济发展状况与其他30个省份相比有很大差距,主要表现于居民消费水平低,交通不便利,地理位置偏远;第二类河北、安徽等省份,经济发展水平要好于西藏,所生产的物品主要靠低价格的工人劳动,大部分省份位于国家西部,属于欠发达地区,正好体现出西部大开发的必要性;第三类浙江、山东等省份,它们具有较强的工业实力,并且山东是个人口大省,人多力量大,成就了一系列的大中型企业;第四类天津和江苏,经济水平就稍微落后于北京和上海,它们主要优势为科学研发能力强,吸引了许多具有创新精神的人才;第五类北京和上海,所处地理位置经济发达,北京是我国政治文化中心,上海是我国金融中心,这两座城市都是十分重要的国际化都市,许多有挑战意识的年轻人会选择奔往大都市。
参考文献:
[1]李波,祁浩宇.中国各省经济发展差异性研究及实证分析[J].哈尔滨师范大学社会科学学报,2018,9(03):85-88.
[2]王翠云,胡学平.聚类分析及其在我国各省经济发展水平分类研究中的应用[J].安庆师范学院学报(自然科学版),2014,20(04):36-41.
[3]Milan ?u?i?v. Importance and Impact of Foreign Investment on the Economic Development of Bosnia and Herzegovina[J]. ECONOMICS,2018,6(1).
[4]孟璇.中国各省经济发展类型比较分析[J].重庆科技学院学报(社会科学版),2013(05):69-70+79.
关键词:Q型聚类;主成分分析;相关性矩阵;发展差异性
一、主成分分析
(一)数据来源与指标选取
为了准确合理的把握住各省份经济发展的基本状况,本文选取了居民消费水平、城镇单位就业人均工资、人均GDP、卫生技术人员数、互联网普及率、公交数六项指标来综合反映各城市发展水平。通过上网查询《中国统计年鉴--2016》中的相關数据,获得的六项指标数据。
(二)相关性矩阵
全国31个省份的6项指标存在的某种内在联系,通过相关系数矩阵进行分析如下:
居民消费水平[1]与人均GDP,居民消费水平与互联网普及率,人均GDP与互联网普及率的相关性系数均超过了0.8,GDP反映出在特定时间内,各地区生产的价值,是衡量该地区经济状况的重要指标;GDP高说明该地区经济发展水平好,该地区的居民消费水平自然也会高,通信等信息产业的推广也会非常普及,三者之间关系呈正相关,可得出它们之间存在着较大的内在联系。
主成分分析指把多目标转化为少数几个综合目标,其中每个主成分能够反映原始变量的大部分信息,且所含信息互不重复,如果此处不对数据进行主成分分析,直接进行的聚类分析,结果会在某种程度上受到过大的影响,从而不能够全面的进行反映实际情况, 所以运用主成分分析法,对数据进行降维处理:
一般认为当累积贡献率达到85%的时候,所提取的主成分就可以较好表达原始数据信息。前3个主成分的累计贡献率达到91.87%,因此选前3个主成分已经足够描述经济发展水平。通过计算主成分[3]系数得到三个主成分的表达式,如下:
[Z1=0.953x1+0.757x2+0.934x3+0.816x4+0.878x5+0.779x6Z2=-0.136x1-0.51x2-0.14x3+0.36x4-0.074x5+0.536x6Z3=-0.113x1+0.366x2-0.21x3+0.35x4-0.286x5-0.01x6](1)
二、聚类分析
Q型聚类研究对象是样本,作用在于能利用多个变量对样本进行分类,分类结果直观,聚类谱系图能明确、清楚地表达其数值分类结果,所得结果比传统的定性分类方法更细致、全面、合理。Q聚类[2]简要过程:
1.数据标准化处理,使相差较大的指标变量量纲或数量级的数据能放到一起加以比较。
2.选择距离定义方式,采用聚类分析中用的最广泛的欧式距离,每个样本各自视为一类,计算样本之间的距离。
3.选择聚类方法,此处使用的是实际应用最多的谱系聚类,具体方法采用分类效果较好、应用较广的离差平方和法进行计算。
[JC=(xi--x)2+(yi--y)2+???](2)
通过MATLAB软件,以省份为标注个案,以得到的3个主成分进行Q型聚类分析。
三、结论
从结果看出,第一类西藏,位于青藏高原西南部,平均海拔在4000米以上,其经济发展状况与其他30个省份相比有很大差距,主要表现于居民消费水平低,交通不便利,地理位置偏远;第二类河北、安徽等省份,经济发展水平要好于西藏,所生产的物品主要靠低价格的工人劳动,大部分省份位于国家西部,属于欠发达地区,正好体现出西部大开发的必要性;第三类浙江、山东等省份,它们具有较强的工业实力,并且山东是个人口大省,人多力量大,成就了一系列的大中型企业;第四类天津和江苏,经济水平就稍微落后于北京和上海,它们主要优势为科学研发能力强,吸引了许多具有创新精神的人才;第五类北京和上海,所处地理位置经济发达,北京是我国政治文化中心,上海是我国金融中心,这两座城市都是十分重要的国际化都市,许多有挑战意识的年轻人会选择奔往大都市。
参考文献:
[1]李波,祁浩宇.中国各省经济发展差异性研究及实证分析[J].哈尔滨师范大学社会科学学报,2018,9(03):85-88.
[2]王翠云,胡学平.聚类分析及其在我国各省经济发展水平分类研究中的应用[J].安庆师范学院学报(自然科学版),2014,20(04):36-41.
[3]Milan ?u?i?v. Importance and Impact of Foreign Investment on the Economic Development of Bosnia and Herzegovina[J]. ECONOMICS,2018,6(1).
[4]孟璇.中国各省经济发展类型比较分析[J].重庆科技学院学报(社会科学版),2013(05):69-70+79.