论文部分内容阅读
摘要:本文基于2010年云南红河哈尼族彝族自治州农村3000户数据库,比较研究了压缩系数法(岭回归、LASSO、SCAD和适应性LASSO)在农户明瑟收入函数模型中的变量选择问题。结果发现:SCAD方法优于其他压缩系数法,对相关应用研究具有借鉴意义。
关键词:岭回归;LASSO SCAD;适应性LASSO;变量选择
中图分类号:F320.2;O212 文献标识码:A DOI:10.3969/j.issn.1003-8256.2016.01.010
1 引言
农户收入一直是农村经济研究的热点问题,学者从不同视角开展了丰富的理论和实证研究。如农村贫困问题、农户生产行为及消费行为、某些政策效应评价等。然而,查阅近十年的中文文献不难发现:(1)从研究内容上看这些文献大多是仅侧重于某一个因素对农户收入的影响。冯继红基于河南省农村住户问卷调查资料,分析了农村劳动力进城务工选择与农户家庭收入的关系[1];李旻等利用辽宁省2001- 2004 年农村面板调查数据,实证分析了农村女性劳动力外出打工对农户家庭收入的影响[2];肖富群利用广西农户问卷调查资料,探讨人力资本对农户收入的影响问题[3];周波等以江西省 5 年面板数据为例,研究农业技术应用对农户家庭收入的影响[4]。(2)从估计方法上看各学者根据各自数据的特征建立不同模型。例高梦滔采用固定效应模型对中国8个省份 1354 个农户、跨度 15 年的微观面板数据进行估计,以测算劳动力性别比例失调对于农户长期收入的影响[5];颜景辰等采用普通最小二乘(OLS)估计的多元线性回归估计了陕西省志丹县90户农户畜牧业行为对其收入的影响[6];朱建军等以2006 年中国社会综合调查数据为对象,分别采用分位回归和OLS回归实证分析了农地经营权的集中程度对农户收入的影响[7]。(3)从确定收入影响因素的过程上看几乎是靠经验来确定的[8]-[10]。虽然OLS估计有很好的统计性质(线性性、无偏性和有效性),但其却有着严格的模型假定,一般实际数据很难严格满足那些模型假定,这样基于变量显著性来确定农户收入函数可能会使估计结果有偏;另外,在建立农户收入函数模型的过程中,靠经验来确定不能保证会遗漏一些重要变量或添加了某些多余变量,所以有必要采用更有效的方法来克服上述收入函数中变量的选择问题。本文即在这样的一个研究背景下,采用统计建模中更有效的变量选择方法对农户收入函数变量进行选择。
经典的收入函数模型是明瑟收入模型[11],该模型以人力资本理论为基础,在建模时认为人力资本是决定个人收入的关键因素,模型中仅包含个体受教育年限和工作年限两个解释变量。早期国内外学者基于该模型进行了大量关于教育回报率的研究,后来该模型逐渐被扩展修改以用于不同对象收入的确定。本文中讨论的农户收入也将建立在明瑟收入函数框架下并采用目前能较有效解决变量选择问题的压缩系数(Shrinkage methods)类方法对农户收入函数的变量进行选择,并以云南省少数民族自治州红河哈尼族彝族自治州2010年3000户农户为例进行分析。
2 模型变量选择方法
目前的研究已经发展了很多方法能较有效的解决变量选择问题。例如早期的子集选择方法(subset selection methods),包括所有组合回归法(all possible regressions)、向前选择法(forward selection)、向后剔除法(backward elimination)和逐步回归法(stepwise regression)。这一类方法原理简单较易理解,但在早期智能计算较落后的背景下,这一类方法在改进变量选择方法的同时也出现了一些弊端,例如计算量太大,假定有个解释变量,则在所有组合回归法、向前选择法和向后剔除法下需要被估计的模型分别为、和个[12][13];模型缺乏稳定性,当变量变动时将导致结果发生较大差异;不能有效解决解释变量间的共线性问题。
为了克服这些弊端,压缩系数法孕育而生。这类方法通过一个罚函数(penalty function)对模型中的变量进行惩罚,它给予那些相对重要或有较大回归系数的变量较小的惩罚,对那些相对不太重要或较小回归系数的变量较大的惩罚。通常记罚函数为,其中是实数范围内的调整参数(tuning parameter),以决定变量被惩罚的程度。Fan和Li给出了一个好的罚函数应具备以下性质[14]:
(1)无偏性:估计的参数是无偏的,尤其对于系数较大的变量;
(2)稀疏性:对一些不太重要的变量其系数可以被压缩为0;
(3)连续性:参数估计对数据是连续的,以避免模型的不稳定性;并对满足这三条性质的函数形式及条件提出了一定的要求。根据罚函数的具体形式,压缩系数法可以细分为岭回归、LASSO、SCAD和适应性LASSO等。
2.1 岭回归(Ridge regression)
假定由解释变量数据构成的矩阵,通常的OLS方法是寻找那些使得残差平方和最小的系数,即:
式中,自适应权重,是系数的最小二乘估计或岭回归估计,是一个调整参数。
本文将采用上述四种方法分别对农户收入函数模型变量选择进行比较分析,并估计其回归系数。
3 数据来源及变量描述
本文使用的数据来自“云南省红河州农村住户调查”2010年数据库。调查样本抽样采用两阶段随机抽样方法确定,调查数据覆盖了红河州的13个县市、136个乡镇的298个行政村,农户3000户。样本数据主要涵盖了农村居民收入支出情况以及所在村的发展情况、家庭基本情况、居住情况、住户成员与劳动力从业情况、农业生产结构调整与技术应用情况等信息。
本文中的因变量是人均纯收入取对数,这样处理的原因是就纯收入数据本身而言,其分布呈非对称的右偏态,而取对数的人均收入其分布近似于正态分布,明瑟收入函数半对数模型框架下我们采用人均纯收入的对数形式。图1对比了人均纯收入与对数人均纯收入分布情况。 对于可能的自变量,笔者归纳总结了近十年来在关于农户收入文献中出现频次较高的一些变量,这些变量大体来说可以分为五类:农户家庭特征、人力资本、生产资本、政策因素和村庄环境因素,变量的分类整理及定义见表1。为便于比较,在建模前我们对变量进行标准化处理。
4 实证分析
首先我们把岭回归、LASSO、SCAD和适应性LASSO几种方法下回归系数随相应调整参数变化的轨迹图进行对比,见图2至图5。对比发现,图2的岭回归中所有回归系数随值的增大被一定程度的统一压缩,但没有出现零系数。正如理论分析的一样,岭回归会导致非稀疏性仅把系数缩小,而不能剔除相对不太重要的变量,而其余方法则能把某些个别系数压缩为零。
从表2中可以看出,OLS方法下共有17个变量显著不为零,压缩系数法中的岭回归保留了全部变量,正如图2显示的那样,没有出现零系数,而其余方法均对变量进行了一定程度的筛选。由于各罚函数具体形式不同,对系数的惩罚程度不尽相同,所以不同方法下选择的变量会有所差异。其中变量1,6,7,8,9,10,11,12,13,14,15和20这12个变量是所有方法都选择的变量,即家庭特征中的常住人口、农户从业类型、是否干部户和是否党员、团员户;代表人力资本的教育程度变量;生产资本因素中的人均耕地面积、是否有土地转包行为、固定资产投资额、粮食播种面积比重和经济作物播种面积比重;政策因素中只有是否参加专业性合作经济组织一个变量被选;而村庄环境因素中只有地势这一变量被选择。为了衡量被所有方法保留的这12个变量对农户收入的解释程度,我们采用OLS仅对这12个变量进行回归,结果调整可决系数为0.266,而在21个全变量的模型下,OLS回归的调整可决系数仅只增加到0.2756。可见,本文采用的压缩系数法能一定程度上有效选择解释变量。另外,2,18和19这三个变量无一被任何模型选中,分别是劳动力人数、是否是民族村和距离最近县城距离。
表3中模型评价结果显示,在MSE、AIC和BIC三个指标下,均是SCAD方法的值最小,所以我们有理由更倾向于SCAD方法下变量选择的结果。该方法在12个共同被所有方法选择的变量的基础上多选择了变量17,即人均退耕还林还草补贴收入,而这个变量仅在适应性LASSO方法下没有被选择,其余的OLS和LASSO也选择了这个变量。
最后,我们把所有方法对变量估计的结果汇总在表4中。对比发现,各方法对不同变量估计的系数大小不同,但方向基本一致。
5 主要结论
本文通过采用压缩系数法,在明瑟收入函数模型下对农户收入函数变量进行选择,并以云南省红河哈尼族彝族自治州2010年3000户农户为对象进行实证分析。压缩系数法下岭回归、LASSO、SCAD和适应性LASSO方法的罚函数不同,各方法对系数的惩罚程度也各不相同。岭回归不具备无偏性和稀疏性,该方法对变量进行选择时,其对系数进行整体压缩约束,无法有效剔除相对不重要的变量。如表2汇总的结果所示,岭回归保留了所有初次放入模型的21个变量。LASSO、SCAD和适应性LASSO对变量进行了不同程度的选择,21个全变量中有12个被所有方法同时选择。此外,SCAD和适应性LASSO从理论上说同时具备无偏性、稀疏性和连续性,本例中SCAD的MSE、AIC和BIC均最小,我们有理由更倾向于SCAD方法选择的变量。该方法在12个共同变量的基础上多选择了变量17人均退耕还林还草补贴收入,而这个变量在除适应性LASSO方法外的其余方法中也被选择了。综上,我们有理由认为通过压缩系数法的变量选择,最终家庭特征中的常住人口、男性劳动力人数、劳动力负担系数、农户从业类型、转移劳动力人数、是否干部户和是否党员、团员户;代表人力资本的教育程度变量;生产资本因素中的人均耕地面积、是否有土地转包行为和固定资产投资额变量;政策因素中的是否参加专业性合作经济组织和人均退耕还林还草补贴收入以及村庄环境因素中的地势这些变量综合决定了农户收入。
参考文献:
[1] 冯继红.农村劳动力进城务工对农户家庭收入影响的实证分析—基于河南省的农户家庭模型分析[J].农业技术经济,2007(6).
[2] 李旻,赵连阁.农村女性劳动力外出打工对农户收入的影响--基于辽宁省的实证分析[J].农业经济问题,2008(5).
[3] 肖富群.人力资本要素对农户收入影响的次序性[J].软科学,2010(6).
[4] 周波,于冷.农业技术应用对农户收入的影响--以江西跟踪观察农户为例[J].中国农村经济[J],2011(1).
[5] 高梦滔.劳动力性别比例与农户长期收入:中国的经验证据[J].中国农村经济,2005(9).
[6] 颜景辰,雷海章.“一退两还”背景下黄土高原地区农户畜牧业行为与收入关系的实证分析—以山西省志丹县为例[J].农业技术经济,2007(2).
[7] 朱建军,舒帮荣.农地经营权配置对农户收人影响的实证分[J]. 南京农业大学学报(社会科学版) ,2012,12(2).
[8] 卢启程, 李怡佳. 农户收入增长影响因素及其关系研究--来自云南省的调查数据[J].经济问题探索,2007(12).
[9] 徐翠萍,史清华,Holly Wang.税费改革对农户收入增长的影响:实证与解释--以长三角15村跟踪观察农户为例[J].中国农村经济,2009(2).
[10] 周波,于冷,史清华.农业技术应用与农户收入增长:以江西农户为例[J].商业研究, 2011(2).
[11] Mincer, Jacob. Schooling, Experience and Earnings [M]. New York, National Bureau of Economic Research, 1974. [12] Mantel N.. Why Stepdown Procedures in Variable Selection [J]. Technometrics, 1970(12) :621-625.
[13] Hocking R. R..A Biometrics Invited Paper. The Analysis and Selection of Variables in Linear Regression [J].Biometrics, 1976(32) :1-49.
[14] Fan J.
关键词:岭回归;LASSO SCAD;适应性LASSO;变量选择
中图分类号:F320.2;O212 文献标识码:A DOI:10.3969/j.issn.1003-8256.2016.01.010
1 引言
农户收入一直是农村经济研究的热点问题,学者从不同视角开展了丰富的理论和实证研究。如农村贫困问题、农户生产行为及消费行为、某些政策效应评价等。然而,查阅近十年的中文文献不难发现:(1)从研究内容上看这些文献大多是仅侧重于某一个因素对农户收入的影响。冯继红基于河南省农村住户问卷调查资料,分析了农村劳动力进城务工选择与农户家庭收入的关系[1];李旻等利用辽宁省2001- 2004 年农村面板调查数据,实证分析了农村女性劳动力外出打工对农户家庭收入的影响[2];肖富群利用广西农户问卷调查资料,探讨人力资本对农户收入的影响问题[3];周波等以江西省 5 年面板数据为例,研究农业技术应用对农户家庭收入的影响[4]。(2)从估计方法上看各学者根据各自数据的特征建立不同模型。例高梦滔采用固定效应模型对中国8个省份 1354 个农户、跨度 15 年的微观面板数据进行估计,以测算劳动力性别比例失调对于农户长期收入的影响[5];颜景辰等采用普通最小二乘(OLS)估计的多元线性回归估计了陕西省志丹县90户农户畜牧业行为对其收入的影响[6];朱建军等以2006 年中国社会综合调查数据为对象,分别采用分位回归和OLS回归实证分析了农地经营权的集中程度对农户收入的影响[7]。(3)从确定收入影响因素的过程上看几乎是靠经验来确定的[8]-[10]。虽然OLS估计有很好的统计性质(线性性、无偏性和有效性),但其却有着严格的模型假定,一般实际数据很难严格满足那些模型假定,这样基于变量显著性来确定农户收入函数可能会使估计结果有偏;另外,在建立农户收入函数模型的过程中,靠经验来确定不能保证会遗漏一些重要变量或添加了某些多余变量,所以有必要采用更有效的方法来克服上述收入函数中变量的选择问题。本文即在这样的一个研究背景下,采用统计建模中更有效的变量选择方法对农户收入函数变量进行选择。
经典的收入函数模型是明瑟收入模型[11],该模型以人力资本理论为基础,在建模时认为人力资本是决定个人收入的关键因素,模型中仅包含个体受教育年限和工作年限两个解释变量。早期国内外学者基于该模型进行了大量关于教育回报率的研究,后来该模型逐渐被扩展修改以用于不同对象收入的确定。本文中讨论的农户收入也将建立在明瑟收入函数框架下并采用目前能较有效解决变量选择问题的压缩系数(Shrinkage methods)类方法对农户收入函数的变量进行选择,并以云南省少数民族自治州红河哈尼族彝族自治州2010年3000户农户为例进行分析。
2 模型变量选择方法
目前的研究已经发展了很多方法能较有效的解决变量选择问题。例如早期的子集选择方法(subset selection methods),包括所有组合回归法(all possible regressions)、向前选择法(forward selection)、向后剔除法(backward elimination)和逐步回归法(stepwise regression)。这一类方法原理简单较易理解,但在早期智能计算较落后的背景下,这一类方法在改进变量选择方法的同时也出现了一些弊端,例如计算量太大,假定有个解释变量,则在所有组合回归法、向前选择法和向后剔除法下需要被估计的模型分别为、和个[12][13];模型缺乏稳定性,当变量变动时将导致结果发生较大差异;不能有效解决解释变量间的共线性问题。
为了克服这些弊端,压缩系数法孕育而生。这类方法通过一个罚函数(penalty function)对模型中的变量进行惩罚,它给予那些相对重要或有较大回归系数的变量较小的惩罚,对那些相对不太重要或较小回归系数的变量较大的惩罚。通常记罚函数为,其中是实数范围内的调整参数(tuning parameter),以决定变量被惩罚的程度。Fan和Li给出了一个好的罚函数应具备以下性质[14]:
(1)无偏性:估计的参数是无偏的,尤其对于系数较大的变量;
(2)稀疏性:对一些不太重要的变量其系数可以被压缩为0;
(3)连续性:参数估计对数据是连续的,以避免模型的不稳定性;并对满足这三条性质的函数形式及条件提出了一定的要求。根据罚函数的具体形式,压缩系数法可以细分为岭回归、LASSO、SCAD和适应性LASSO等。
2.1 岭回归(Ridge regression)
假定由解释变量数据构成的矩阵,通常的OLS方法是寻找那些使得残差平方和最小的系数,即:
式中,自适应权重,是系数的最小二乘估计或岭回归估计,是一个调整参数。
本文将采用上述四种方法分别对农户收入函数模型变量选择进行比较分析,并估计其回归系数。
3 数据来源及变量描述
本文使用的数据来自“云南省红河州农村住户调查”2010年数据库。调查样本抽样采用两阶段随机抽样方法确定,调查数据覆盖了红河州的13个县市、136个乡镇的298个行政村,农户3000户。样本数据主要涵盖了农村居民收入支出情况以及所在村的发展情况、家庭基本情况、居住情况、住户成员与劳动力从业情况、农业生产结构调整与技术应用情况等信息。
本文中的因变量是人均纯收入取对数,这样处理的原因是就纯收入数据本身而言,其分布呈非对称的右偏态,而取对数的人均收入其分布近似于正态分布,明瑟收入函数半对数模型框架下我们采用人均纯收入的对数形式。图1对比了人均纯收入与对数人均纯收入分布情况。 对于可能的自变量,笔者归纳总结了近十年来在关于农户收入文献中出现频次较高的一些变量,这些变量大体来说可以分为五类:农户家庭特征、人力资本、生产资本、政策因素和村庄环境因素,变量的分类整理及定义见表1。为便于比较,在建模前我们对变量进行标准化处理。
4 实证分析
首先我们把岭回归、LASSO、SCAD和适应性LASSO几种方法下回归系数随相应调整参数变化的轨迹图进行对比,见图2至图5。对比发现,图2的岭回归中所有回归系数随值的增大被一定程度的统一压缩,但没有出现零系数。正如理论分析的一样,岭回归会导致非稀疏性仅把系数缩小,而不能剔除相对不太重要的变量,而其余方法则能把某些个别系数压缩为零。
从表2中可以看出,OLS方法下共有17个变量显著不为零,压缩系数法中的岭回归保留了全部变量,正如图2显示的那样,没有出现零系数,而其余方法均对变量进行了一定程度的筛选。由于各罚函数具体形式不同,对系数的惩罚程度不尽相同,所以不同方法下选择的变量会有所差异。其中变量1,6,7,8,9,10,11,12,13,14,15和20这12个变量是所有方法都选择的变量,即家庭特征中的常住人口、农户从业类型、是否干部户和是否党员、团员户;代表人力资本的教育程度变量;生产资本因素中的人均耕地面积、是否有土地转包行为、固定资产投资额、粮食播种面积比重和经济作物播种面积比重;政策因素中只有是否参加专业性合作经济组织一个变量被选;而村庄环境因素中只有地势这一变量被选择。为了衡量被所有方法保留的这12个变量对农户收入的解释程度,我们采用OLS仅对这12个变量进行回归,结果调整可决系数为0.266,而在21个全变量的模型下,OLS回归的调整可决系数仅只增加到0.2756。可见,本文采用的压缩系数法能一定程度上有效选择解释变量。另外,2,18和19这三个变量无一被任何模型选中,分别是劳动力人数、是否是民族村和距离最近县城距离。
表3中模型评价结果显示,在MSE、AIC和BIC三个指标下,均是SCAD方法的值最小,所以我们有理由更倾向于SCAD方法下变量选择的结果。该方法在12个共同被所有方法选择的变量的基础上多选择了变量17,即人均退耕还林还草补贴收入,而这个变量仅在适应性LASSO方法下没有被选择,其余的OLS和LASSO也选择了这个变量。
最后,我们把所有方法对变量估计的结果汇总在表4中。对比发现,各方法对不同变量估计的系数大小不同,但方向基本一致。
5 主要结论
本文通过采用压缩系数法,在明瑟收入函数模型下对农户收入函数变量进行选择,并以云南省红河哈尼族彝族自治州2010年3000户农户为对象进行实证分析。压缩系数法下岭回归、LASSO、SCAD和适应性LASSO方法的罚函数不同,各方法对系数的惩罚程度也各不相同。岭回归不具备无偏性和稀疏性,该方法对变量进行选择时,其对系数进行整体压缩约束,无法有效剔除相对不重要的变量。如表2汇总的结果所示,岭回归保留了所有初次放入模型的21个变量。LASSO、SCAD和适应性LASSO对变量进行了不同程度的选择,21个全变量中有12个被所有方法同时选择。此外,SCAD和适应性LASSO从理论上说同时具备无偏性、稀疏性和连续性,本例中SCAD的MSE、AIC和BIC均最小,我们有理由更倾向于SCAD方法选择的变量。该方法在12个共同变量的基础上多选择了变量17人均退耕还林还草补贴收入,而这个变量在除适应性LASSO方法外的其余方法中也被选择了。综上,我们有理由认为通过压缩系数法的变量选择,最终家庭特征中的常住人口、男性劳动力人数、劳动力负担系数、农户从业类型、转移劳动力人数、是否干部户和是否党员、团员户;代表人力资本的教育程度变量;生产资本因素中的人均耕地面积、是否有土地转包行为和固定资产投资额变量;政策因素中的是否参加专业性合作经济组织和人均退耕还林还草补贴收入以及村庄环境因素中的地势这些变量综合决定了农户收入。
参考文献:
[1] 冯继红.农村劳动力进城务工对农户家庭收入影响的实证分析—基于河南省的农户家庭模型分析[J].农业技术经济,2007(6).
[2] 李旻,赵连阁.农村女性劳动力外出打工对农户收入的影响--基于辽宁省的实证分析[J].农业经济问题,2008(5).
[3] 肖富群.人力资本要素对农户收入影响的次序性[J].软科学,2010(6).
[4] 周波,于冷.农业技术应用对农户收入的影响--以江西跟踪观察农户为例[J].中国农村经济[J],2011(1).
[5] 高梦滔.劳动力性别比例与农户长期收入:中国的经验证据[J].中国农村经济,2005(9).
[6] 颜景辰,雷海章.“一退两还”背景下黄土高原地区农户畜牧业行为与收入关系的实证分析—以山西省志丹县为例[J].农业技术经济,2007(2).
[7] 朱建军,舒帮荣.农地经营权配置对农户收人影响的实证分[J]. 南京农业大学学报(社会科学版) ,2012,12(2).
[8] 卢启程, 李怡佳. 农户收入增长影响因素及其关系研究--来自云南省的调查数据[J].经济问题探索,2007(12).
[9] 徐翠萍,史清华,Holly Wang.税费改革对农户收入增长的影响:实证与解释--以长三角15村跟踪观察农户为例[J].中国农村经济,2009(2).
[10] 周波,于冷,史清华.农业技术应用与农户收入增长:以江西农户为例[J].商业研究, 2011(2).
[11] Mincer, Jacob. Schooling, Experience and Earnings [M]. New York, National Bureau of Economic Research, 1974. [12] Mantel N.. Why Stepdown Procedures in Variable Selection [J]. Technometrics, 1970(12) :621-625.
[13] Hocking R. R..A Biometrics Invited Paper. The Analysis and Selection of Variables in Linear Regression [J].Biometrics, 1976(32) :1-49.
[14] Fan J.