论文部分内容阅读
摘 要:我国正在处于迅速发展阶段,但经济发展中存在区域差异的问题,本文主要应用主成分分析对我国31个省份城镇居民的消费结构进行了比较统计分析,从而得到各地区的城镇居民消费结构的一些特点和规律,并把统计结果表现在二维数据表上,指居民的消费水平,进一步出在哪些指标上有所差异,并提出相应政策建议,以期全面提高我国城镇优化消费结构。
关键词:主成分分析;消费结構;消费支出
一、研究假设
1).因为地域发展水平不一样,处在高水平消费水平的是北京上海浙江天津,几个地方的消费结构相似,,其他区域在一些指标上消费趋势大致相同。
2).地区的食品、居住、家庭设备用品及服务、文教娱乐消费这生存因子占主导地位,衣着和医疗保健方面形象因子是区别主要消费结构的主要指标,也是衡量享受型、发展型结构的区别。
二、文献综述
随着社会的发展,我们城镇居民消费水平和生活质量有了显著提高,消费结构也相应了发生了深刻变化,消费结构通常是从食品、衣着、居住、家庭设备用品及服务、交通通讯、文教娱乐、医疗保健及服务和其他等8个指标去考查,并且各个指标不是独立存在的。以往的研究,例如《中国各地区城镇居民消费结构比较研究》——山西财经大学(统计与信息论坛)为代表,都是从地区的出发点来运用聚类分析对地区消费类型来划分,而没有从地区的消费结构特点和所占的比重来分析,以至于影响消费的因素都没有明确的划分开来,本文从主成分分析的方向开展来,区别了从聚类分析的角度只是从地区的分布和水平上来讨论居民影响消费结构的因素,提出改善农村居民消费结构消费结构、提高农村居民消费水平的对策建议。
三、变量设计及运行过程
主成分分析(principal components analysis)也称主成量分析,是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
进行主成分分析的步骤大致如下:
1、根据具体问题选取初始分析变量;2、根据初始变量特性判断由协方差阵求主成分还是相关阵求主成分;3、求协方差阵或相关阵的特征值与相应标准特征向量;4、判断是否存在明显的 多重共线性,若存在,则回到第1步;5、得到主成分的表达式并确定主成分个数,选取主成分;6、结合主成分对研究问题进行分析并深入研究。
(一)变量设计
数据集是分地区城镇居民人均现金消费支出 (2013年)的数据。利用2013年各地区城镇居民全年消费性支出资料。以因子分析的方法提取影响居民生活的公共因素,从而可以对我国城镇居民生活水平进行综合评价。
在变量的运行过程中,涉及到8个指标:
V1为食品消费;v2衣着消费;v3为家庭设备及用品消费;v4医疗保健消费;v5为交通通信消费;v6文教娱乐消费;v7居住消费;v8为其他消费。在进行spss运行之前先对各个变量进行标准化,然后导入SPSS软件。原始数据为分地区城镇居民人均现金消费支出(国家统计年鉴2013年)。对原始数据进行标准化。
(二)运行过程
对标准化后的变量进行主成分分析,运行结果如下表所示。
其中,又Communalities 表给出的该次分析从每个原始变量中提取的信息,每个变量的信息提取都在百分之八十以上,主成分几乎包含了各个原始变量的至少90%的信息。Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在这里保留了5个主成分,集中了8个原始变量的92.822%的信息。
通过Component Matrix 表可以得到各个所标准化后的变量用主成分表示的表达式,用prin1,prin2,prin3,prin4来表示各个主成分,由表可以得到:
Zv1=0.822*prin1-0.350*prin2+0.180*prin3+0.388*prin4
Zv2=0.598*prin1+0.711*prin2+0.296*prin3-0.028*prin4
Zv3=0.895*prin1-0.103*prin2+0.256*prin3-0.249*prin4
Zv3=0.635*prin1+0.646*prin2-0.304*prin3+0.101*prin4
Zv4=0.921*prin1-0.222*prin2-0.134*prin3-0.085*prin4
Zv5=0.909*prin1-0.241*prin2+0.074*prin3-0.114*prin4
Zv6=0.854*prin1-0.143*prin2-0.411*prin3-0.062*prin4
Zv7=0.929*prin1+0.097*prin2+0.048*prin3+0.098*prin4
这以上得出的是标准化后的变量由主成分所组成的表达式,还不能得出原始变量表示的主成分的表达式,通过主成分系数矩阵得知两个主成分的线性组合:
Prin1=0.350443*zv1+0.254945*zv2+0.381565*zv3+0.27072*zv4+0.39265*zv5+0.387534*zv6+0.364086*zv7+0.396061*zv8.
Prin2=-0.32045*zv1+0.65098*zv2-0.09431*zv3+0.591467*zv4-0.20326*zv5-0.22066*zv6-0.13093*zv7+0.088812*zv8. Prin3=0.261742*zv1+0.43042*zv2+0.372255*zv3-0.44205*zv4-0.19485*zv5+0.107605*zv6-0.59764*zv7+0.069798*zv8.
Prin4=0.765437*zv1-0.05524*zv2-0.49122*zv3+0.19925*zv4-0.16769*zv5
-0.2249*zv6-0.12231*zv7+0.19332*zv8.
zv1、zv2、zv3、zv4、zv5、zv6、zv7、zv8表示对原始变量标准化后的变量。
为了便于能够分析各地区在主成分分析总的经济意义,并在二维数据表上来表示各地区的分布,因为前两个主成分占全部信息的68.781%和14.911%,总占83.691%,所以可以选择前两个主成分对描述地区消费情况。
第一主成分的线性组合中除了衣着消费和医疗保健消费稍微低一些外,其余变量组合的系数相当,所以可以看成是zv1、zv2、zv3、zv4、zv5、zv6、zv7、zv8的综合变量。可以解释为经济水平和生活水平的综合效果,体现的是生活水平提高和生活内容的提高,第一主成分占信息总量的68.781%,可称为生存因子。第二主成分反映在衣着和医疗保健上,可以体现出各地区对生活质量要求比较高,占信息总量的14.911%,可称为形象因子。
四、结果分析
为了能够将标准化的原始数据带入主成分表达式中计算各样品的主成分得分,并且能在二维数据表上表示出来,区别地区的消费情况,并选取占所有消费信息比重较大的前两个主成分(89.691%)对各地区的主成分得分进行划分。如主成分得分表。
把31个地区的两个主成分得分导进EXCEL表格,第一主成分得分和第二主成分得分分别表示在X轴和Y轴上,第一主成分得分主要表现在食品消费、家庭设备、交通通信、教育娱乐、居住和其他消费支出上,第二主成分得分表现在医疗和保健方面消费上。
由图所示,分布在第一象限的是北京、天津、内蒙古、辽宁、山东、重庆这几个地区的消费在全国来说是属于比较好的,是我国的消费水平和生活质量较高的地区,在八个方面消费都很高,代表了消费的高等层次,其中北京的消费是最高的。在第四象限的是上海、浙江、江苏、福建、广东这五个地区,因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,第一主成分是除衣着和医疗保健之外的消费综合变量,反映了食品消费、家庭设备、交通通信、教育娱乐、居住和其他的领域有着明显的消费支出,而在消费的衣着和医疗保健方面消费明显降低,代表着消费水平的中等层次;第二象限的黑龙江、河北、山西、河南、四川、湖南、宁夏这些地区处于第二象限,第二象限的的主要特征是第二主成分,第二主成分的信息大部分都反映在衣着和医疗保健上面,其他的支出水平明显降低,反映了衣着和医疗保健的消费综合变量和城镇居民的消费结构的主流。
据以上分析,经济发展较好的地区居民的消费水平较高,消费结构也很合理。从经济发展的角度来看,生活水平的提高必然意味着居民的消费结构向高级化发展,即从维持基本生活的食品、交通通讯、居住等生活资料向娱乐文教、医疗保健等提高自身素质和生活享受的消费方面发展。
参考文献:
[1]何晓群.现代统计分析方法与应用[M]中国人民大学出版社2015.3
[2]安徽财贸学院统计学系.中国各地区城镇居民消费结构比較研究.[J].经济问题探索.2004年第10期
[3]寇明婷,李录堂.《中国农村居民消费支出分布及消费水平分析》.[J].
农村经济.2008年第5期
[4]时立文.《SPSS 19.0统计分析从入门到精通》.[M].清华大学出版社.
关键词:主成分分析;消费结構;消费支出
一、研究假设
1).因为地域发展水平不一样,处在高水平消费水平的是北京上海浙江天津,几个地方的消费结构相似,,其他区域在一些指标上消费趋势大致相同。
2).地区的食品、居住、家庭设备用品及服务、文教娱乐消费这生存因子占主导地位,衣着和医疗保健方面形象因子是区别主要消费结构的主要指标,也是衡量享受型、发展型结构的区别。
二、文献综述
随着社会的发展,我们城镇居民消费水平和生活质量有了显著提高,消费结构也相应了发生了深刻变化,消费结构通常是从食品、衣着、居住、家庭设备用品及服务、交通通讯、文教娱乐、医疗保健及服务和其他等8个指标去考查,并且各个指标不是独立存在的。以往的研究,例如《中国各地区城镇居民消费结构比较研究》——山西财经大学(统计与信息论坛)为代表,都是从地区的出发点来运用聚类分析对地区消费类型来划分,而没有从地区的消费结构特点和所占的比重来分析,以至于影响消费的因素都没有明确的划分开来,本文从主成分分析的方向开展来,区别了从聚类分析的角度只是从地区的分布和水平上来讨论居民影响消费结构的因素,提出改善农村居民消费结构消费结构、提高农村居民消费水平的对策建议。
三、变量设计及运行过程
主成分分析(principal components analysis)也称主成量分析,是利用降维的思想,在损失很少信息的前提下,把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称为主成分,其中每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能。
进行主成分分析的步骤大致如下:
1、根据具体问题选取初始分析变量;2、根据初始变量特性判断由协方差阵求主成分还是相关阵求主成分;3、求协方差阵或相关阵的特征值与相应标准特征向量;4、判断是否存在明显的 多重共线性,若存在,则回到第1步;5、得到主成分的表达式并确定主成分个数,选取主成分;6、结合主成分对研究问题进行分析并深入研究。
(一)变量设计
数据集是分地区城镇居民人均现金消费支出 (2013年)的数据。利用2013年各地区城镇居民全年消费性支出资料。以因子分析的方法提取影响居民生活的公共因素,从而可以对我国城镇居民生活水平进行综合评价。
在变量的运行过程中,涉及到8个指标:
V1为食品消费;v2衣着消费;v3为家庭设备及用品消费;v4医疗保健消费;v5为交通通信消费;v6文教娱乐消费;v7居住消费;v8为其他消费。在进行spss运行之前先对各个变量进行标准化,然后导入SPSS软件。原始数据为分地区城镇居民人均现金消费支出(国家统计年鉴2013年)。对原始数据进行标准化。
(二)运行过程
对标准化后的变量进行主成分分析,运行结果如下表所示。
其中,又Communalities 表给出的该次分析从每个原始变量中提取的信息,每个变量的信息提取都在百分之八十以上,主成分几乎包含了各个原始变量的至少90%的信息。Total Variance Explained表则显示了各主成分解释原始变量总方差的情况,SPSS默认保留特征根大于1的主成分,在这里保留了5个主成分,集中了8个原始变量的92.822%的信息。
通过Component Matrix 表可以得到各个所标准化后的变量用主成分表示的表达式,用prin1,prin2,prin3,prin4来表示各个主成分,由表可以得到:
Zv1=0.822*prin1-0.350*prin2+0.180*prin3+0.388*prin4
Zv2=0.598*prin1+0.711*prin2+0.296*prin3-0.028*prin4
Zv3=0.895*prin1-0.103*prin2+0.256*prin3-0.249*prin4
Zv3=0.635*prin1+0.646*prin2-0.304*prin3+0.101*prin4
Zv4=0.921*prin1-0.222*prin2-0.134*prin3-0.085*prin4
Zv5=0.909*prin1-0.241*prin2+0.074*prin3-0.114*prin4
Zv6=0.854*prin1-0.143*prin2-0.411*prin3-0.062*prin4
Zv7=0.929*prin1+0.097*prin2+0.048*prin3+0.098*prin4
这以上得出的是标准化后的变量由主成分所组成的表达式,还不能得出原始变量表示的主成分的表达式,通过主成分系数矩阵得知两个主成分的线性组合:
Prin1=0.350443*zv1+0.254945*zv2+0.381565*zv3+0.27072*zv4+0.39265*zv5+0.387534*zv6+0.364086*zv7+0.396061*zv8.
Prin2=-0.32045*zv1+0.65098*zv2-0.09431*zv3+0.591467*zv4-0.20326*zv5-0.22066*zv6-0.13093*zv7+0.088812*zv8. Prin3=0.261742*zv1+0.43042*zv2+0.372255*zv3-0.44205*zv4-0.19485*zv5+0.107605*zv6-0.59764*zv7+0.069798*zv8.
Prin4=0.765437*zv1-0.05524*zv2-0.49122*zv3+0.19925*zv4-0.16769*zv5
-0.2249*zv6-0.12231*zv7+0.19332*zv8.
zv1、zv2、zv3、zv4、zv5、zv6、zv7、zv8表示对原始变量标准化后的变量。
为了便于能够分析各地区在主成分分析总的经济意义,并在二维数据表上来表示各地区的分布,因为前两个主成分占全部信息的68.781%和14.911%,总占83.691%,所以可以选择前两个主成分对描述地区消费情况。
第一主成分的线性组合中除了衣着消费和医疗保健消费稍微低一些外,其余变量组合的系数相当,所以可以看成是zv1、zv2、zv3、zv4、zv5、zv6、zv7、zv8的综合变量。可以解释为经济水平和生活水平的综合效果,体现的是生活水平提高和生活内容的提高,第一主成分占信息总量的68.781%,可称为生存因子。第二主成分反映在衣着和医疗保健上,可以体现出各地区对生活质量要求比较高,占信息总量的14.911%,可称为形象因子。
四、结果分析
为了能够将标准化的原始数据带入主成分表达式中计算各样品的主成分得分,并且能在二维数据表上表示出来,区别地区的消费情况,并选取占所有消费信息比重较大的前两个主成分(89.691%)对各地区的主成分得分进行划分。如主成分得分表。
把31个地区的两个主成分得分导进EXCEL表格,第一主成分得分和第二主成分得分分别表示在X轴和Y轴上,第一主成分得分主要表现在食品消费、家庭设备、交通通信、教育娱乐、居住和其他消费支出上,第二主成分得分表现在医疗和保健方面消费上。
由图所示,分布在第一象限的是北京、天津、内蒙古、辽宁、山东、重庆这几个地区的消费在全国来说是属于比较好的,是我国的消费水平和生活质量较高的地区,在八个方面消费都很高,代表了消费的高等层次,其中北京的消费是最高的。在第四象限的是上海、浙江、江苏、福建、广东这五个地区,因为第四象限的主要特征是第一主成分,第一主成分占信息总量的比重最大,第一主成分是除衣着和医疗保健之外的消费综合变量,反映了食品消费、家庭设备、交通通信、教育娱乐、居住和其他的领域有着明显的消费支出,而在消费的衣着和医疗保健方面消费明显降低,代表着消费水平的中等层次;第二象限的黑龙江、河北、山西、河南、四川、湖南、宁夏这些地区处于第二象限,第二象限的的主要特征是第二主成分,第二主成分的信息大部分都反映在衣着和医疗保健上面,其他的支出水平明显降低,反映了衣着和医疗保健的消费综合变量和城镇居民的消费结构的主流。
据以上分析,经济发展较好的地区居民的消费水平较高,消费结构也很合理。从经济发展的角度来看,生活水平的提高必然意味着居民的消费结构向高级化发展,即从维持基本生活的食品、交通通讯、居住等生活资料向娱乐文教、医疗保健等提高自身素质和生活享受的消费方面发展。
参考文献:
[1]何晓群.现代统计分析方法与应用[M]中国人民大学出版社2015.3
[2]安徽财贸学院统计学系.中国各地区城镇居民消费结构比較研究.[J].经济问题探索.2004年第10期
[3]寇明婷,李录堂.《中国农村居民消费支出分布及消费水平分析》.[J].
农村经济.2008年第5期
[4]时立文.《SPSS 19.0统计分析从入门到精通》.[M].清华大学出版社.