论文部分内容阅读
摘 要:文章运用多元统计方法,对影响农业投入产出的两组变量分别进行了主成分分析、相关分析、聚类分析、回归分析、逐步回归分析,建立了农业投入产出模型,分析了农业产出受主要投入因素的影响,然后对模型进行了综合比较与评价。运用聚类分析,选择具有代表性的省市,再根据这些省市的农产品投入产出特点,分析了我国2005年的农业投入产出情况。
关键词:聚类分析 典型相关分析 主成分回归分析 回归分析 逐步回归分析
中图分类号:F320 文献标识码:A
文章编号:1004-4914(2009)02-265-02
首先运用主成分分析,确定主要农作物在总产量中的比重,以此确定总产量,然后运用两组变量之间的典型相关分析确立了9个典型相关变量,分别选出投入、产出两组变量中起主要作用的变量(自变量即农村用电量、化肥合计、农用塑料膜、农用柴油、农药使用量、有效灌溉、旱涝保收、机电排灌;因变量即总产量)。在此基础之上,以投入组中的变量为自变量,总产量为因变量用SPSS做回归分析,然后再做逐步回归分析,得出了最佳的回归模型,而且基本消除了多重共线性的影响。从而客观、合理地透析了我国农业生产的现状。通过此模型,可以在一定程度上得出我国农产品产量主要受哪几种因素影响,从而对我国农业具有一定的指导性作用。
一、问题背景
我国是一个农业大国,稻谷、小麦、肉类、棉花、花生、油菜籽、水果的产量现均居世界第一位,玉米、大豆的产量分别为世界第二位和第四位,是名副其实的农业大国。因此,处理好农产品投入产出之间的关系对推动现代农业发展、“三农”问题的有效解决具有非常重大的意义。
在已知2005年全国各地区农村在乡村办水电站数、装机容量、用电量、各种化肥用量、各种塑料薄膜用量、覆盖面积、农用柴油、农药使用量等主要能源及物质消耗,以及全国各地区粮食、豆类、薯类、棉花、油料等主要农产品产量统计数据的情况下,对变量进行分析筛选,建立合理的模型,分析我国农业投入产出的关系。
投入产出分析是研究经济系统中表现为投入与产出的各个现象相互依存关系的经济数量方法。农业投入产出则是在既定的工程技术和技术水平条件下,农业生产部门在生产过程中通过在一定实践内消耗一定量的商品或劳务,从而生产出一定量的农业生产总值。本文中,我们采用多元统计分析方法,通过SPSS对主成分、有效因素进行确定与分析,从而描述农业中投入与产出的关系。
结合实际我们对投入和产出的因素进行了分析,从而有针对性地选取所需的主要影响因素并加以分析。根据国家统计局的数据,我们得到2005年各地区农业主要能源及物质消耗统计数据和2005年主要农产品产量的数据。
农业投入因素分为:(1)农业能源消耗,主要包括农村用电量、农用柴油等;(2)农业物质消耗,主要包括:各种化肥用量、塑料薄膜用量、农药使用量、有效灌溉面积等。
农业产出因素为:农产品产出,主要包括粮食、棉花、油料、麻类、甘蔗、甜菜、烟叶、蚕茧、茶叶、水果等。
二、模型假设
基本假设如下:
1.忽略各种自然灾害对当年农产品产量的影响。
2.对于各地区固定资产投资差异,即第一产业基本建设折旧与更新改造,不算入农产品消耗的范围。
3.忽略各地区农产品在质量上存在的一些微小差异。
4.假设所给的数据反映实际情况。
5.假设地域间农业的技术水平处于一个相当的层次。
三、符号说明
i代表省或直辖市编号,j代表不同农产品的编号,xi代表主要能源或物质消耗的种类编号,zij表示i地区j产品的产量,αj表示农产品j在总产出zij中的系数,yi表示i地区的总产量,βb表能回归模型中的常数项,Bi表示xi的回归系数,ε表示误差项,z表示总产量。
四、模型建立
基于上述的模型假设和符号说明,模型建立过程如下。
我们分析宏观的农业的投入产出问题,考虑我国的主要农产品产量受哪几种主要因素的影响,而得出农产品产量与影响因素之间的回归方程,从而为我国的农作物生产提供一定的指导作用。
首先对各种农作物进行主成分分析,确定各种重要农作物的权重,然后根据上面的权重系数计算总产量,表达式如下:
设由主要投入和产出因素产生的两组变量分别为x=(x1,x2...xn)和yi,那么各个省市投入产出表达式如下:
然后进行聚类分析,取出具有代表性的省市作为样本。再对产生的样本进行回归分析,从而确定回归方程中的系数,从而确定全国投入产出的回归方程的表达式如下:
五、模型求解
1.主成分分析。经过对数据的观察我们发现,麻类、甘蔗、甜菜、烟叶、蚕茧、茶叶这些农产品很具有地域特征,只在一部分省市有生产,且它们的产量占总产量的比例非常小,所以我们选择了粮食(Zi1)、棉花(Zi2)、油料(Zi3)、水果(Zi4)四种农产品的产量来计算总产量,对四种农产品进行主成分分析,确定各种农作物的权重,然后根据上面的权重系数计算总产量。
对粮食、棉花、油料、水果进行主成分分析后可以得出它们的相关系数,从表中可以看出,一个主元素的代表性已接近70%,在经济分析中,基本达到要求。
此时可以确定这四种主要农副产品的权重α1=0.906,α2=0.537,α3=0.925,α4=0.894,即:
zi=α1xi1+α2xi2+α3xi3+α4xi4
2.相关性分析。首先,化肥合计已经包括了氮肥、磷肥、钾肥、复合肥,农用塑料膜已经包括了地膜用量与地膜覆盖面积,所以我们选择化肥合计与农用塑料膜这两个大的因素,而不考虑其中包含的因素。然后我们进行了剩下因素对总产量的相关性分析。
可以得出,乡村水电站数、装机容量、发电量与总产量的相关性不显著,而农村用电量、化肥合计、农用塑料膜、农用柴油、农药使用量、有效灌溉、旱涝保收、机电排灌与总产量的相关性显著。所以我们去除了乡村水电站数、装机容量、发电量三个因素对农作物总产量的影响。所以,我们选择了农村用电量(X1)、化肥合计(X2)、农用塑料膜(X3)、农用柴油(X4)、农药使用量(X5)、有效灌溉(X6)、旱涝保收(X7)、机电排灌(X8)这八个因变量。
3.聚类分析。根据各个省的投入及总产出,进行聚类分析,分为三组,其中第二组和第三组的个数非常少。于是就保留下第一组的数据,比较具有代表性,基本上能代表全国农作物的投入与产出情况。然后我们对剩下的省按总产量进行排序,结合四分位数的思想,均匀地取出三个省份(甘肃、陕西、河南)留作模型的最后检验的样本。
然后对最后剩余的省区(西藏,青海,北京,天津,上海,海南,宁夏,福建,山西,贵州,重庆,新疆,云南,内蒙,江西,辽宁,广西,吉林,湖北,湖南,黑龙江,安徽,四川)进行回归分析。
4.回归分析。化肥合计、有效灌溉、旱涝保收的P值均小于0.05,符合要求。而其他因素不符合要求,所以需要再进一步做逐步回归分析。
5.逐步回归分析。得出影响总产量的最重要的三个因素:化肥合计、有效灌溉、旱涝保收。但是我们考虑到旱涝保收之前的系数为负数(-0.992),与实际经济含义不符,所以去除这个因素,再对化肥合计和有效灌溉两个因素做一次回归分析。
6.回归分析。
最后得出总产量对化肥合计(X2)和有效灌溉(X6)的回归系数。从而确定回归方程:y=63.628+8.860*X2+0.332*X6
六、模型分析与检验
最后,我们得到回归方程,即:y=63.628+8.860*X2+0.332*X6
(其中X2代表化肥合计,X6代表有效灌溉)
下面我们分别做F检验,t检验和代入样本检验。
(1)用F统计量检验回归方程的显著性步骤如下:
先提出假设
H0::β1 = β2=…=βp=0
H1::β( jj=1,2,L,p)不全为0。
根据事先给定的显著性水平α=0.05,确定临界值Fα=Fα(P,N-P-1)或者计算F值对应的相伴概率值p。若F>Fα或p<α,就拒绝原假设H0,接受H1,认为回归方程显著,自变量与因变量之间存在显著的线性关系。若Fα,则接受H0,回归方程不显著。经过SPSS的计算,我们得到我们所建立回归方程的F值为66.222,P值为0,小于给定的α,所以显著。
(2)回归系数的显著性检验(t-检验)。
t-检验的步骤如下:
提出假设
H0:βi=0.(i=1,2,Lp)
H1::βi≠0.(i=1,2,Lp)
若假设成立说明Xi对y没有显著的影响,反之,Xi对y有显著的影响,在H0的条件下,由样本数据计算式(3.2.18)的回归系数的t-统计量的值。
在给定的显著性水平α=0.05,确定临界值α,或者计算t值所对应的相伴概率值p.如果t>t(n-p-1),或者p<α,就拒绝原假设H0,接受备择假设H1,认为该回归系数与零有显著差异,该回归系数对应的自变量与因变量之间存在显著的线性关系。如果或者p>α,则接受原假设H0,可以认为该回归系数与零无显著差异,与其对应的自变量与因变量之间不存在显著的线性关系。经过SPSS的计算,我们建立的回归方程化肥合计(X2)的t值为4.879,P值为0,有效灌溉的t值为2.228,p值为0.038,p值均小于给定的α,所以显著。
(3)最后我们把留作检验的甘肃、陕西、河南三个省的数据样本,代入回归方程y=63.628+8.860*X2+0.332*X6进行检验。
得到总产量分别为1086.588(万吨),1816.369(万吨),6237.237(万吨),而我们进行主成分分析得到的总产量分别为1061.67(万吨),1801.20(万吨),6250.45(万吨),经过对比,得相对误差分别为24.9221、15.1735、76.7828,绝对误差分别为:2.35%、0.84%和1.23%误差很小,回归方程代表性好。
七、结论
从上述得到的回归方程可以很清楚地看出,因变量与两个自变量之间的相关程度、拟合程度均达到了很高的水平。从回归方程可以看出:我国的农产品产量主要受化肥合计和有效灌溉的影响,说明化肥的使用量和有效灌溉已经成为制约我国农业发展的重要因素,虽然现代机械的不断投入大大提高了生产力,但现阶段我国农业还是属于高耗、低效型农业,农田灌溉水的有效利用率只有30%~40%(发达国家已达50%~70%),化肥当年利用率仅30%,因此,发展节水、节肥的精准农业将是今后我国农业发展的重要方向。尤其在我国农业面临着水资源短缺和用水浪费的双重危机的情况下,发展节水型农业产业结构,建立节水型农村经济体系显得尤其重要。政府的财政投入对农业的影响作用是微乎其微的,资金的利用效率不高.应该予以适时调整,以适应新世纪我国农业现代化的发展趋势,即把传统农业转变成为市场化、知识化、生态化、集约化和社会化的现代农业。
八、模型评价和推广
1.通过对粮食、棉花、油料、水果四种主要农产品的产量进行主成分分析得出了农作物总产量,具有一定典型性,可以在各个省市地区进行模型的推广。
2.通过聚类分析得到地区间的农产品投入产出差异,剔除个别投入产出差异较大的地域,增强模型的有效性。
3.未对产量较少、地域性较强的农作物如烟草、茶叶等进行统计,优化了模型。
4.本文建立的模型,依次运用了主成分分析、初步分析、回归分析,对变量进行筛选、分析以及权重的确定,具有一定的典型性,可以推广用于高等教育、企业发展等其他方面的投入产出分析。
5.但这个模型也不是十全十美的,用主成分分析确定总产量虽有其合理性,但也并不完全合理,如果知道每种农作物的价格,用农作物的总产值可能会更好。
6.如果进行聚类后,各个组的样本个数比较平均,可以分别对各个组进行回归分析,得出几个回归方程。
参考文献:
1.孔朝莉.中国优秀硕士学位论文全文数据库.农业投入产出统计模型建模方法的研究
2.孔朝莉,杨启昌.中国期刊全文数据库.农业投入产出变量的主成分回归分析模型
(作者简介:王学超,中南财经政法大学信息与计算科学专业本科生,研究方向:数量经济学 湖北武汉 430074)(责编:若佳)
关键词:聚类分析 典型相关分析 主成分回归分析 回归分析 逐步回归分析
中图分类号:F320 文献标识码:A
文章编号:1004-4914(2009)02-265-02
首先运用主成分分析,确定主要农作物在总产量中的比重,以此确定总产量,然后运用两组变量之间的典型相关分析确立了9个典型相关变量,分别选出投入、产出两组变量中起主要作用的变量(自变量即农村用电量、化肥合计、农用塑料膜、农用柴油、农药使用量、有效灌溉、旱涝保收、机电排灌;因变量即总产量)。在此基础之上,以投入组中的变量为自变量,总产量为因变量用SPSS做回归分析,然后再做逐步回归分析,得出了最佳的回归模型,而且基本消除了多重共线性的影响。从而客观、合理地透析了我国农业生产的现状。通过此模型,可以在一定程度上得出我国农产品产量主要受哪几种因素影响,从而对我国农业具有一定的指导性作用。
一、问题背景
我国是一个农业大国,稻谷、小麦、肉类、棉花、花生、油菜籽、水果的产量现均居世界第一位,玉米、大豆的产量分别为世界第二位和第四位,是名副其实的农业大国。因此,处理好农产品投入产出之间的关系对推动现代农业发展、“三农”问题的有效解决具有非常重大的意义。
在已知2005年全国各地区农村在乡村办水电站数、装机容量、用电量、各种化肥用量、各种塑料薄膜用量、覆盖面积、农用柴油、农药使用量等主要能源及物质消耗,以及全国各地区粮食、豆类、薯类、棉花、油料等主要农产品产量统计数据的情况下,对变量进行分析筛选,建立合理的模型,分析我国农业投入产出的关系。
投入产出分析是研究经济系统中表现为投入与产出的各个现象相互依存关系的经济数量方法。农业投入产出则是在既定的工程技术和技术水平条件下,农业生产部门在生产过程中通过在一定实践内消耗一定量的商品或劳务,从而生产出一定量的农业生产总值。本文中,我们采用多元统计分析方法,通过SPSS对主成分、有效因素进行确定与分析,从而描述农业中投入与产出的关系。
结合实际我们对投入和产出的因素进行了分析,从而有针对性地选取所需的主要影响因素并加以分析。根据国家统计局的数据,我们得到2005年各地区农业主要能源及物质消耗统计数据和2005年主要农产品产量的数据。
农业投入因素分为:(1)农业能源消耗,主要包括农村用电量、农用柴油等;(2)农业物质消耗,主要包括:各种化肥用量、塑料薄膜用量、农药使用量、有效灌溉面积等。
农业产出因素为:农产品产出,主要包括粮食、棉花、油料、麻类、甘蔗、甜菜、烟叶、蚕茧、茶叶、水果等。
二、模型假设
基本假设如下:
1.忽略各种自然灾害对当年农产品产量的影响。
2.对于各地区固定资产投资差异,即第一产业基本建设折旧与更新改造,不算入农产品消耗的范围。
3.忽略各地区农产品在质量上存在的一些微小差异。
4.假设所给的数据反映实际情况。
5.假设地域间农业的技术水平处于一个相当的层次。
三、符号说明
i代表省或直辖市编号,j代表不同农产品的编号,xi代表主要能源或物质消耗的种类编号,zij表示i地区j产品的产量,αj表示农产品j在总产出zij中的系数,yi表示i地区的总产量,βb表能回归模型中的常数项,Bi表示xi的回归系数,ε表示误差项,z表示总产量。
四、模型建立
基于上述的模型假设和符号说明,模型建立过程如下。
我们分析宏观的农业的投入产出问题,考虑我国的主要农产品产量受哪几种主要因素的影响,而得出农产品产量与影响因素之间的回归方程,从而为我国的农作物生产提供一定的指导作用。
首先对各种农作物进行主成分分析,确定各种重要农作物的权重,然后根据上面的权重系数计算总产量,表达式如下:
设由主要投入和产出因素产生的两组变量分别为x=(x1,x2...xn)和yi,那么各个省市投入产出表达式如下:
然后进行聚类分析,取出具有代表性的省市作为样本。再对产生的样本进行回归分析,从而确定回归方程中的系数,从而确定全国投入产出的回归方程的表达式如下:
五、模型求解
1.主成分分析。经过对数据的观察我们发现,麻类、甘蔗、甜菜、烟叶、蚕茧、茶叶这些农产品很具有地域特征,只在一部分省市有生产,且它们的产量占总产量的比例非常小,所以我们选择了粮食(Zi1)、棉花(Zi2)、油料(Zi3)、水果(Zi4)四种农产品的产量来计算总产量,对四种农产品进行主成分分析,确定各种农作物的权重,然后根据上面的权重系数计算总产量。
对粮食、棉花、油料、水果进行主成分分析后可以得出它们的相关系数,从表中可以看出,一个主元素的代表性已接近70%,在经济分析中,基本达到要求。
此时可以确定这四种主要农副产品的权重α1=0.906,α2=0.537,α3=0.925,α4=0.894,即:
zi=α1xi1+α2xi2+α3xi3+α4xi4
2.相关性分析。首先,化肥合计已经包括了氮肥、磷肥、钾肥、复合肥,农用塑料膜已经包括了地膜用量与地膜覆盖面积,所以我们选择化肥合计与农用塑料膜这两个大的因素,而不考虑其中包含的因素。然后我们进行了剩下因素对总产量的相关性分析。
可以得出,乡村水电站数、装机容量、发电量与总产量的相关性不显著,而农村用电量、化肥合计、农用塑料膜、农用柴油、农药使用量、有效灌溉、旱涝保收、机电排灌与总产量的相关性显著。所以我们去除了乡村水电站数、装机容量、发电量三个因素对农作物总产量的影响。所以,我们选择了农村用电量(X1)、化肥合计(X2)、农用塑料膜(X3)、农用柴油(X4)、农药使用量(X5)、有效灌溉(X6)、旱涝保收(X7)、机电排灌(X8)这八个因变量。
3.聚类分析。根据各个省的投入及总产出,进行聚类分析,分为三组,其中第二组和第三组的个数非常少。于是就保留下第一组的数据,比较具有代表性,基本上能代表全国农作物的投入与产出情况。然后我们对剩下的省按总产量进行排序,结合四分位数的思想,均匀地取出三个省份(甘肃、陕西、河南)留作模型的最后检验的样本。
然后对最后剩余的省区(西藏,青海,北京,天津,上海,海南,宁夏,福建,山西,贵州,重庆,新疆,云南,内蒙,江西,辽宁,广西,吉林,湖北,湖南,黑龙江,安徽,四川)进行回归分析。
4.回归分析。化肥合计、有效灌溉、旱涝保收的P值均小于0.05,符合要求。而其他因素不符合要求,所以需要再进一步做逐步回归分析。
5.逐步回归分析。得出影响总产量的最重要的三个因素:化肥合计、有效灌溉、旱涝保收。但是我们考虑到旱涝保收之前的系数为负数(-0.992),与实际经济含义不符,所以去除这个因素,再对化肥合计和有效灌溉两个因素做一次回归分析。
6.回归分析。
最后得出总产量对化肥合计(X2)和有效灌溉(X6)的回归系数。从而确定回归方程:y=63.628+8.860*X2+0.332*X6
六、模型分析与检验
最后,我们得到回归方程,即:y=63.628+8.860*X2+0.332*X6
(其中X2代表化肥合计,X6代表有效灌溉)
下面我们分别做F检验,t检验和代入样本检验。
(1)用F统计量检验回归方程的显著性步骤如下:
先提出假设
H0::β1 = β2=…=βp=0
H1::β( jj=1,2,L,p)不全为0。
根据事先给定的显著性水平α=0.05,确定临界值Fα=Fα(P,N-P-1)或者计算F值对应的相伴概率值p。若F>Fα或p<α,就拒绝原假设H0,接受H1,认为回归方程显著,自变量与因变量之间存在显著的线性关系。若F
(2)回归系数的显著性检验(t-检验)。
t-检验的步骤如下:
提出假设
H0:βi=0.(i=1,2,Lp)
H1::βi≠0.(i=1,2,Lp)
若假设成立说明Xi对y没有显著的影响,反之,Xi对y有显著的影响,在H0的条件下,由样本数据计算式(3.2.18)的回归系数的t-统计量的值。
在给定的显著性水平α=0.05,确定临界值α,或者计算t值所对应的相伴概率值p.如果t>t(n-p-1),或者p<α,就拒绝原假设H0,接受备择假设H1,认为该回归系数与零有显著差异,该回归系数对应的自变量与因变量之间存在显著的线性关系。如果或者p>α,则接受原假设H0,可以认为该回归系数与零无显著差异,与其对应的自变量与因变量之间不存在显著的线性关系。经过SPSS的计算,我们建立的回归方程化肥合计(X2)的t值为4.879,P值为0,有效灌溉的t值为2.228,p值为0.038,p值均小于给定的α,所以显著。
(3)最后我们把留作检验的甘肃、陕西、河南三个省的数据样本,代入回归方程y=63.628+8.860*X2+0.332*X6进行检验。
得到总产量分别为1086.588(万吨),1816.369(万吨),6237.237(万吨),而我们进行主成分分析得到的总产量分别为1061.67(万吨),1801.20(万吨),6250.45(万吨),经过对比,得相对误差分别为24.9221、15.1735、76.7828,绝对误差分别为:2.35%、0.84%和1.23%误差很小,回归方程代表性好。
七、结论
从上述得到的回归方程可以很清楚地看出,因变量与两个自变量之间的相关程度、拟合程度均达到了很高的水平。从回归方程可以看出:我国的农产品产量主要受化肥合计和有效灌溉的影响,说明化肥的使用量和有效灌溉已经成为制约我国农业发展的重要因素,虽然现代机械的不断投入大大提高了生产力,但现阶段我国农业还是属于高耗、低效型农业,农田灌溉水的有效利用率只有30%~40%(发达国家已达50%~70%),化肥当年利用率仅30%,因此,发展节水、节肥的精准农业将是今后我国农业发展的重要方向。尤其在我国农业面临着水资源短缺和用水浪费的双重危机的情况下,发展节水型农业产业结构,建立节水型农村经济体系显得尤其重要。政府的财政投入对农业的影响作用是微乎其微的,资金的利用效率不高.应该予以适时调整,以适应新世纪我国农业现代化的发展趋势,即把传统农业转变成为市场化、知识化、生态化、集约化和社会化的现代农业。
八、模型评价和推广
1.通过对粮食、棉花、油料、水果四种主要农产品的产量进行主成分分析得出了农作物总产量,具有一定典型性,可以在各个省市地区进行模型的推广。
2.通过聚类分析得到地区间的农产品投入产出差异,剔除个别投入产出差异较大的地域,增强模型的有效性。
3.未对产量较少、地域性较强的农作物如烟草、茶叶等进行统计,优化了模型。
4.本文建立的模型,依次运用了主成分分析、初步分析、回归分析,对变量进行筛选、分析以及权重的确定,具有一定的典型性,可以推广用于高等教育、企业发展等其他方面的投入产出分析。
5.但这个模型也不是十全十美的,用主成分分析确定总产量虽有其合理性,但也并不完全合理,如果知道每种农作物的价格,用农作物的总产值可能会更好。
6.如果进行聚类后,各个组的样本个数比较平均,可以分别对各个组进行回归分析,得出几个回归方程。
参考文献:
1.孔朝莉.中国优秀硕士学位论文全文数据库.农业投入产出统计模型建模方法的研究
2.孔朝莉,杨启昌.中国期刊全文数据库.农业投入产出变量的主成分回归分析模型
(作者简介:王学超,中南财经政法大学信息与计算科学专业本科生,研究方向:数量经济学 湖北武汉 430074)(责编:若佳)