明瑟收入函数模型变量选择方法比较研究

来源 :科学与管理 | 被引量 : 0次 | 上传用户:willingqiu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:本文基于2010年云南红河哈尼族彝族自治州农村3000户数据库,比较研究了压缩系数法(岭回归、LASSO、SCAD和适应性LASSO)在农户明瑟收入函数模型中的变量选择问题。结果发现:SCAD方法优于其他压缩系数法,对相关应用研究具有借鉴意义。
  关键词:岭回归;LASSO SCAD;适应性LASSO;变量选择
  中图分类号:F320.2;O212 文献标识码:A DOI:10.3969/j.issn.1003-8256.2016.01.010
  1 引言
  农户收入一直是农村经济研究的热点问题,学者从不同视角开展了丰富的理论和实证研究。如农村贫困问题、农户生产行为及消费行为、某些政策效应评价等。然而,查阅近十年的中文文献不难发现:(1)从研究内容上看这些文献大多是仅侧重于某一个因素对农户收入的影响。冯继红基于河南省农村住户问卷调查资料,分析了农村劳动力进城务工选择与农户家庭收入的关系[1];李旻等利用辽宁省2001- 2004 年农村面板调查数据,实证分析了农村女性劳动力外出打工对农户家庭收入的影响[2];肖富群利用广西农户问卷调查资料,探讨人力资本对农户收入的影响问题[3];周波等以江西省 5 年面板数据为例,研究农业技术应用对农户家庭收入的影响[4]。(2)从估计方法上看各学者根据各自数据的特征建立不同模型。例高梦滔采用固定效应模型对中国8个省份 1354 个农户、跨度 15 年的微观面板数据进行估计,以测算劳动力性别比例失调对于农户长期收入的影响[5];颜景辰等采用普通最小二乘(OLS)估计的多元线性回归估计了陕西省志丹县90户农户畜牧业行为对其收入的影响[6];朱建军等以2006 年中国社会综合调查数据为对象,分别采用分位回归和OLS回归实证分析了农地经营权的集中程度对农户收入的影响[7]。(3)从确定收入影响因素的过程上看几乎是靠经验来确定的[8]-[10]。虽然OLS估计有很好的统计性质(线性性、无偏性和有效性),但其却有着严格的模型假定,一般实际数据很难严格满足那些模型假定,这样基于变量显著性来确定农户收入函数可能会使估计结果有偏;另外,在建立农户收入函数模型的过程中,靠经验来确定不能保证会遗漏一些重要变量或添加了某些多余变量,所以有必要采用更有效的方法来克服上述收入函数中变量的选择问题。本文即在这样的一个研究背景下,采用统计建模中更有效的变量选择方法对农户收入函数变量进行选择。
  经典的收入函数模型是明瑟收入模型[11],该模型以人力资本理论为基础,在建模时认为人力资本是决定个人收入的关键因素,模型中仅包含个体受教育年限和工作年限两个解释变量。早期国内外学者基于该模型进行了大量关于教育回报率的研究,后来该模型逐渐被扩展修改以用于不同对象收入的确定。本文中讨论的农户收入也将建立在明瑟收入函数框架下并采用目前能较有效解决变量选择问题的压缩系数(Shrinkage methods)类方法对农户收入函数的变量进行选择,并以云南省少数民族自治州红河哈尼族彝族自治州2010年3000户农户为例进行分析。
  2 模型变量选择方法
  目前的研究已经发展了很多方法能较有效的解决变量选择问题。例如早期的子集选择方法(subset selection methods),包括所有组合回归法(all possible regressions)、向前选择法(forward selection)、向后剔除法(backward elimination)和逐步回归法(stepwise regression)。这一类方法原理简单较易理解,但在早期智能计算较落后的背景下,这一类方法在改进变量选择方法的同时也出现了一些弊端,例如计算量太大,假定有个解释变量,则在所有组合回归法、向前选择法和向后剔除法下需要被估计的模型分别为、和个[12][13];模型缺乏稳定性,当变量变动时将导致结果发生较大差异;不能有效解决解释变量间的共线性问题。
  为了克服这些弊端,压缩系数法孕育而生。这类方法通过一个罚函数(penalty function)对模型中的变量进行惩罚,它给予那些相对重要或有较大回归系数的变量较小的惩罚,对那些相对不太重要或较小回归系数的变量较大的惩罚。通常记罚函数为,其中是实数范围内的调整参数(tuning parameter),以决定变量被惩罚的程度。Fan和Li给出了一个好的罚函数应具备以下性质[14]:
  (1)无偏性:估计的参数是无偏的,尤其对于系数较大的变量;
  (2)稀疏性:对一些不太重要的变量其系数可以被压缩为0;
  (3)连续性:参数估计对数据是连续的,以避免模型的不稳定性;并对满足这三条性质的函数形式及条件提出了一定的要求。根据罚函数的具体形式,压缩系数法可以细分为岭回归、LASSO、SCAD和适应性LASSO等。
  2.1 岭回归(Ridge regression)
  假定由解释变量数据构成的矩阵,通常的OLS方法是寻找那些使得残差平方和最小的系数,即:
  式中,自适应权重,是系数的最小二乘估计或岭回归估计,是一个调整参数。
  本文将采用上述四种方法分别对农户收入函数模型变量选择进行比较分析,并估计其回归系数。
  3 数据来源及变量描述
  本文使用的数据来自“云南省红河州农村住户调查”2010年数据库。调查样本抽样采用两阶段随机抽样方法确定,调查数据覆盖了红河州的13个县市、136个乡镇的298个行政村,农户3000户。样本数据主要涵盖了农村居民收入支出情况以及所在村的发展情况、家庭基本情况、居住情况、住户成员与劳动力从业情况、农业生产结构调整与技术应用情况等信息。
  本文中的因变量是人均纯收入取对数,这样处理的原因是就纯收入数据本身而言,其分布呈非对称的右偏态,而取对数的人均收入其分布近似于正态分布,明瑟收入函数半对数模型框架下我们采用人均纯收入的对数形式。图1对比了人均纯收入与对数人均纯收入分布情况。   对于可能的自变量,笔者归纳总结了近十年来在关于农户收入文献中出现频次较高的一些变量,这些变量大体来说可以分为五类:农户家庭特征、人力资本、生产资本、政策因素和村庄环境因素,变量的分类整理及定义见表1。为便于比较,在建模前我们对变量进行标准化处理。
  4 实证分析
  首先我们把岭回归、LASSO、SCAD和适应性LASSO几种方法下回归系数随相应调整参数变化的轨迹图进行对比,见图2至图5。对比发现,图2的岭回归中所有回归系数随值的增大被一定程度的统一压缩,但没有出现零系数。正如理论分析的一样,岭回归会导致非稀疏性仅把系数缩小,而不能剔除相对不太重要的变量,而其余方法则能把某些个别系数压缩为零。
  从表2中可以看出,OLS方法下共有17个变量显著不为零,压缩系数法中的岭回归保留了全部变量,正如图2显示的那样,没有出现零系数,而其余方法均对变量进行了一定程度的筛选。由于各罚函数具体形式不同,对系数的惩罚程度不尽相同,所以不同方法下选择的变量会有所差异。其中变量1,6,7,8,9,10,11,12,13,14,15和20这12个变量是所有方法都选择的变量,即家庭特征中的常住人口、农户从业类型、是否干部户和是否党员、团员户;代表人力资本的教育程度变量;生产资本因素中的人均耕地面积、是否有土地转包行为、固定资产投资额、粮食播种面积比重和经济作物播种面积比重;政策因素中只有是否参加专业性合作经济组织一个变量被选;而村庄环境因素中只有地势这一变量被选择。为了衡量被所有方法保留的这12个变量对农户收入的解释程度,我们采用OLS仅对这12个变量进行回归,结果调整可决系数为0.266,而在21个全变量的模型下,OLS回归的调整可决系数仅只增加到0.2756。可见,本文采用的压缩系数法能一定程度上有效选择解释变量。另外,2,18和19这三个变量无一被任何模型选中,分别是劳动力人数、是否是民族村和距离最近县城距离。
  表3中模型评价结果显示,在MSE、AIC和BIC三个指标下,均是SCAD方法的值最小,所以我们有理由更倾向于SCAD方法下变量选择的结果。该方法在12个共同被所有方法选择的变量的基础上多选择了变量17,即人均退耕还林还草补贴收入,而这个变量仅在适应性LASSO方法下没有被选择,其余的OLS和LASSO也选择了这个变量。
  最后,我们把所有方法对变量估计的结果汇总在表4中。对比发现,各方法对不同变量估计的系数大小不同,但方向基本一致。
  5 主要结论
  本文通过采用压缩系数法,在明瑟收入函数模型下对农户收入函数变量进行选择,并以云南省红河哈尼族彝族自治州2010年3000户农户为对象进行实证分析。压缩系数法下岭回归、LASSO、SCAD和适应性LASSO方法的罚函数不同,各方法对系数的惩罚程度也各不相同。岭回归不具备无偏性和稀疏性,该方法对变量进行选择时,其对系数进行整体压缩约束,无法有效剔除相对不重要的变量。如表2汇总的结果所示,岭回归保留了所有初次放入模型的21个变量。LASSO、SCAD和适应性LASSO对变量进行了不同程度的选择,21个全变量中有12个被所有方法同时选择。此外,SCAD和适应性LASSO从理论上说同时具备无偏性、稀疏性和连续性,本例中SCAD的MSE、AIC和BIC均最小,我们有理由更倾向于SCAD方法选择的变量。该方法在12个共同变量的基础上多选择了变量17人均退耕还林还草补贴收入,而这个变量在除适应性LASSO方法外的其余方法中也被选择了。综上,我们有理由认为通过压缩系数法的变量选择,最终家庭特征中的常住人口、男性劳动力人数、劳动力负担系数、农户从业类型、转移劳动力人数、是否干部户和是否党员、团员户;代表人力资本的教育程度变量;生产资本因素中的人均耕地面积、是否有土地转包行为和固定资产投资额变量;政策因素中的是否参加专业性合作经济组织和人均退耕还林还草补贴收入以及村庄环境因素中的地势这些变量综合决定了农户收入。
  参考文献:
  [1] 冯继红.农村劳动力进城务工对农户家庭收入影响的实证分析—基于河南省的农户家庭模型分析[J].农业技术经济,2007(6).
  [2] 李旻,赵连阁.农村女性劳动力外出打工对农户收入的影响--基于辽宁省的实证分析[J].农业经济问题,2008(5).
  [3] 肖富群.人力资本要素对农户收入影响的次序性[J].软科学,2010(6).
  [4] 周波,于冷.农业技术应用对农户收入的影响--以江西跟踪观察农户为例[J].中国农村经济[J],2011(1).
  [5] 高梦滔.劳动力性别比例与农户长期收入:中国的经验证据[J].中国农村经济,2005(9).
  [6] 颜景辰,雷海章.“一退两还”背景下黄土高原地区农户畜牧业行为与收入关系的实证分析—以山西省志丹县为例[J].农业技术经济,2007(2).
  [7] 朱建军,舒帮荣.农地经营权配置对农户收人影响的实证分[J]. 南京农业大学学报(社会科学版) ,2012,12(2).
  [8] 卢启程, 李怡佳. 农户收入增长影响因素及其关系研究--来自云南省的调查数据[J].经济问题探索,2007(12).
  [9] 徐翠萍,史清华,Holly Wang.税费改革对农户收入增长的影响:实证与解释--以长三角15村跟踪观察农户为例[J].中国农村经济,2009(2).
  [10] 周波,于冷,史清华.农业技术应用与农户收入增长:以江西农户为例[J].商业研究, 2011(2).
  [11] Mincer, Jacob. Schooling, Experience and Earnings [M]. New York, National Bureau of Economic Research, 1974.   [12] Mantel N.. Why Stepdown Procedures in Variable Selection [J]. Technometrics, 1970(12) :621-625.
  [13] Hocking R. R..A Biometrics Invited Paper. The Analysis and Selection of Variables in Linear Regression [J].Biometrics, 1976(32) :1-49.
  [14] Fan J.
其他文献
环境监测不仅是掌握环境质量状况和发展趋势的重要手段,还是科学管理环境的基础,更是正确处理环境污染事故和污染纠纷的技术依据,对促进我国环境可持续发展具有重要意义。  随着世界各国环境保护的法规对大气质量和各类污染源的监控越来越严格,为了适应这一要求,使用光学技术的监测仪器迅速得到了广泛推广。然而,由于我国在环境自动、在线/现场监测仪器等方面主要依赖进口,这些机器不仅价格昂贵、而且常会出现“水土不服”
煤矿,以支撑我国经济腾飞的重要能源,有效支持了国民经济的持续快速发展,成为国家发展的重要基础之一。然而,一次次令人心碎的矿难带给国家、社会的却是沉重的切肤之痛。因此,如何保障煤矿安全生产,减少事故造成的人员伤亡,成为全社会密切关注的重要问题。为此,我们对北京科技大学矿井避险技术研究中心李芳玮博士进行了专访。  针对国内矿难频发、人员伤亡重大的情况,北京科技大学矿井避险技术中心于2006年宣告成立。
1966年,周恩来总理站在邢台的地震废墟上,发出要搞地震预报的指示。  科技工作者开赴地震预报的疆场,捕捉大地的脉动,数十年如一日,地震预报的中国长征从此开始。  他献身地震科技探索,只为百姓安居乐业;以生命累积希望,百姓安危他永记于心。他就是中国地震局兰州地震研究所副研究员孙军杰。  2012年,科学中国人年度人物颁奖典礼上,孙军杰成为年度人物之一,让我们一起走近他,感受这份荣光。  智慧凝
左禹,北京化工大学材料科学与工程学院教授,博士生导师。1984年以来在北京化工大学从事材料环境失效机理及材料表面保护技术等方面的研究,1989-1991年在美国麻省理工学院做访问研究。主持或参加了国家自然科学基金、973、支撑计划、国防配套等各类科研项目约50项;在国内外学术刊物上发表论文300余篇,主编或参编专著、手册6部,获部级科技进步奖5项、授权发明专利10项;1993年获政府特贴,1997
摘要:创业拼凑是新创企业突破资源约束,实现企业成长的有效途径。基于中国知网数据库(CNKI),运用文献分析法和共词分析法绘制了知识图谱,系统梳理了创业拼凑国内研究现状及未来研究方向。研究发现:国内学者们在对创业拼凑内涵解读的基础上拓展了其类型划分,并集中于探索关于创业拼凑机理作用的前置、结果及情境因素三个方面;近年来研究热点主要集中于創业导向、创业学习、创业者先前经验、商业模式创新等主题,且已经进
多年来,燃气轮机因其应用领域广泛,且功率密度大、效率高、启动快、燃料适应性强、污染排放水平低等诸多优势,在供电调峰和节能减排方面发挥着极其重要的作用,逐步成为国家军用动力和民用能源动力的主力军。而在燃气轮机自主研制的过程中,更有不少领域内工程专家潜心研究、开拓进取。翻开这些专家名单,其中不能不提到的就是中航工业动力所副所长李孝堂和他的燃机团队。  李孝堂是我国自主研制燃机的领军人物,他从1982年
银桦树之恋  而我始终端坐如初  如  怀胎三月的少妇  风华灼灼不能自己  遇你之后其实便已泥泞  只是来往过间行人无一知晓  蒹衣素鞋走过  (袜沾尘薄面被我颜色染)  而我始终端坐如  暗自击筑的彼日午  洒洒人声远近  你扬袖起身  而我始终端坐  而我始终端坐  而我始终  一个老妇在轮椅上紧握她  从前的邮票肖像  如果最后秋天躺在你的掌中死去  我會仍旧看着你  不动声色  继续说话
银桦树之恋  而我始终端坐如初  如  怀胎三月的少妇  风华灼灼不能自己  遇你之后其实便已泥泞  只是来往过间行人无一知晓  蒹衣素鞋走过  (袜沾尘薄面被我颜色染)  而我始终端坐如  暗自击筑的彼日午  洒洒人声远近  你扬袖起身  而我始终端坐  而我始终端坐  而我始终  一个老妇在轮椅上紧握她  从前的邮票肖像  如果最后秋天躺在你的掌中死去  我會仍旧看着你  不动声色  继续说话
德国核电企业是世界上最安全的核电企业群之一。但在2011年8月,德国政府宣布:在2022年前陆续关闭德国境内的17座核电站,彻底放弃核电。一位德国核电发电厂总裁说:“我们谈的不是小数字,而涉及数千亿欧元。”如果政府决定放弃核电,德国的核电企业面临着一个痛苦的选择,德国的电力来源结构面临着重大的转变。总体上看,这些改变只是近期措施,远期的目的是德国期望构造自己的战略优势。  核事故的风险太大,人类无
“设想你正在外地旅游,边通话边对景色摄像,那么跟你通话的对方也可以一同欣赏到你眼前的美景。”尤肖虎教授把我们对4G的畅想变得形象化了。  如果说2G是顺风耳、3G是千里眼的话,那么4G则使手机变成一个掌上电脑,把宽带送到了你的手上;如果说2G、3G通信大力促进了人类信息化发展的话,那么未来的4G通信则给了人们真正的沟通自由,并将彻底改变人们的生活方式甚至社会形态。这就是尤肖虎教授及其领导的东南大学