基于Logistic回归的城镇居民收入高低影响因素分析

来源 :法制与经济·中旬刊 | 被引量 : 0次 | 上传用户:ktzgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]在经济发展和社会转型过程中,居民收入差距的扩大是多种因素共同作用的结果。文章基于广西城镇居民住户抽样调查数据资料,应用Logistic回归模型,分析城镇就业者的收入影响因素,测算出各种人口特征与收入差别之间的关系,揭示不同收入层次就业者的主要特征。结果表明,就业情况、文化程度、工作年限、性别、职业和年龄等因素都对就业者的收入有显著影响。
  [关键词]城镇居民收入;Logistic回归;计量经济
  居民收入状况始终是政府与社会关注的重要热点问题。收入会触及到每个居民的切身利益,会影响社会生产效率,进而影响整个社会的协调、稳定及发展。深入研究居民收入状况有助于了解地区经济、社会发展情况,有助于政府决策以促进和谐社会的构建。本文尝试根据抽样调查数据,应用Logistic回归模型来分析造成居民收入高低不同的主要影响因素。
  收入差异成因的研究方式有很多种,有从宏观角度考察收入差异的,如经济增长、区域发展环境、政府预算、失业水平、自然资源等原因;也有从微观角度考察收入差异的,如个人的劳动能力、就业晋升机会等原因。基于微观数据,通过数理方法和计量分析进行实证研究的方法不多,本文尝试从微观角度分析研究影响个人收入差异的因素,其中本文也不着力于解决居民总的收入差距究竟为多大,而是分析居民收入差距中的结构性问题,对各要素的影响程度致力于给其一个定性的比较,并与其他学者的成果相互印证。
  一、模型描述
  (一)计量方法选择
  线性回归模型(linear regression model)在定量分析的实证研究中是最流行的统计分析方法,然而在许多情况下,线性回归会受到应用上的限制。比如,当因变量是一个分类变量(离散变量)而不是一个连续变量时,线性回归就不适用。实际上,许多实际观察值都只是分类的而不是连续的。分析分类变量时,通常采用的统计方法是对数线性模型(log—linear model),对数线性模型的一种特殊形式就是Logistic(逻辑)回归模型。
  (二)Logistic函数
  假设有一个理论上存在的连续反应变量yi代表事件发生的可能性,其值域为负无穷至正无穷c。当该变量的值跨越一个临界点c,便导致事件发生。于是当yi > c时,y = 1;在其他情况下,y = 0。这里,是实际观察到的反应变量。y = 1表示事件发生,y = 0表示事件未发生,如果假设在反应变量yi和自变量xi之间存在一种线性关系,即
  yi = ?琢 + ?茁x■+ ?着■ (1)
  由公式(1),可以得到
  p(y = 1?誆x■) = p?着■?燮(?琢 + ?茁x■)= 1/(1+e■) (2)
  这一函数称为Logistic函数,它具有S型的分布。注意当?着■趋近于负无穷时,有p(y = 1?誆x■) = 1/(1+e∞) = 0。当?着■趋近于正无穷时,有p(y = 1?誆x■) = 1/(1+e-∞) = 1。
  (三)Logistic回归模型
  将公式(2)重写为p(y = 1?誆x■) = 1/(1+ e■) = 0,记事件发生的条件概率为p(y = 1?誆x■) = pi,则可得Logistic回归模型:
  pi = 1/(1+ e■) = e■/ 1 + e■
  其中,pi 为第i个案例发生事件的概率,它是一个由解释变量x■构成的非线性函数,当然,这个非线性函数可以被转变为线性函数。
  Logit P = ln(pi / 1 - pi) = ?琢 + ?茁x■ (3)
  公式(3)将Logistic函数做了自然对数转换,这称为Logistic回归模型。Logistic回归系数可以被解释为对应自变量一个单位的变化所导致的因变量上的变化,x■每增加一个单位总是导致事件发生的概率相应增加一个固定的量。回归系数?茁代表相应x■一个单位变化时的概率增量,系数如果是正值且统计显著,意味着在控制其他自变量的条件下,对数发生比随对应自变量值增加而增加。相反,一个显著的负系数代表对数发生比随对应自变量的增加而减少。
  二、实证分析
  (一)数据描述
  本文选取了广西调查总队系统提供的城镇住户分户抽样调查资料,调查样本数据可以用来推断总体。样本的筛选上,选择年度总收入大于零的被调查人员,剔除离退休人员、在校学生、家务劳动者、丧失劳动能力者、待分配者、失业人员、待升学者等,共获得样本2080个。在调查数据中可利用的居民个人信息包括个人基本情况(性别、民族、户口状况、年龄、文化程度等)、个人就业情况(工作年限、行业、职业)、个人年度总收入情况等。
  除了年龄、工作年限是连续型变量外,其余影响因素都是离散型变量,因此,考虑采用Logistic回归分析方法来分析居民年收入与各影响因素之间的关系。
  (二)模型因变量、自变量的选择
  因变量采用的是居民个人年收入的取值可能,Y的取值有两种可能,Y = 1表示个人年收入高于当年被调查城镇居民收入均值28370.92元(为了建模需要而取的给定值),Y = 0 表示个人年收入低于当年被调查城镇居民收入均值28370.92元。
  自变量包括就业者性别、民族、年龄、工作年限、文化程度、就业情况、行业、职业等特征因素。构造一个收入函数Y = f ( x1, x2 , x3 ,…)。作如下含义描述:
  ①对性别定义男性为1,女性为0;
  ②对民族定义汉族为1,少数民族为0;
  ③年龄分类原则:1.40岁以下,2.40岁以上;
  ④工作年限分类原则:1.10年以下,2.10——20年,3.20—30年,4.30年以上;   ⑤文化程度,原为9分类变量,现为样本分类平衡考虑,合并变为3分类变量:1.高中以下;2.高中及中专;3.大专以上;
  ⑥就业情况有7种,根据平均收入和就业形式接近程度,合并为3种情况:
  1.国有经济单位职工。
  2.城镇集体经济或其他经济类型单位职工、城镇个体经营者。
  3.其他就业类型(城镇个体被雇者和其他就业者归为一类) 。
  ⑦行业共有20类:
  1.农林牧渔业;2.采矿业;3.制造业;4.电力燃气及水的生产供应业;5.建筑业;6.交通运输仓储邮电业;7.信息传输、计算机服务和软件业;8.批发和零售业;9.住宿餐饮业;10.金融业;11.房地产业;12.租赁商业服务;13.科学研究和综合技术服务业;14.水利管理业;15.居民服务;16.教育;17.卫生;18.文化体育;19.国家机关、党政机关和社会团体;20.国际组织。
  ⑧职业共有8类:
  1.国家机关党群组织、企事业单位负责人;2.各类专业技术人员;3.办事人员和有关管理人员;4.商业、服务业人员;5.农林牧渔生产人员;6.生产运输设备操作人员;7.军人;8.不便分类的其他各职业。
  (三)模型测算及检验
  利用SPSS19.0软件进行两分类变量回归分析,在Logistic回归窗口将因变量(代表居民收入的二分类变量Y)选入Dependent窗口中,将自变量(8个可能影响因素x1 — x8)选入Covariates窗口中,采用Method是Forward:Conditional(向前逐步筛选策略)进行变量选择,自变量进入回归方程的显著性水平为0.05、剔除方程的显著性水平为0.10,计算结果如表一至表三。
  可见表一最终模型(Step 6)中,除了民族、行业影响因素被剔除,共筛选出就业情况、文化程度、工作年限、性别、职业和年龄6个自变量通过Wald检验,有统计学意义(Sig.值即P值<0.05),方程有效性经似然比检验(见表二),x2 = 581.195,P = 0.000,具有高度显著性;Hosmer and Lemshow Test拟合优度检验(表三)结果无统计学意义(Sig.值=0.776>0.05),表示模型预测值与观测值之间的差异无统计学意义,由此建立二元逻辑分布回归模型为:
  Logit(P) = -2.669 - 0.801×就业情况+ 0.959×文化程度+ 0.242×工作年限+ 0.597×性别- 0.126 ×职业+ 0.538 ×年龄
  或者写成:
  p(y = 1)= e(-2.669 - 0.801×就业情况+ 0.959×文化程度+ .242×工作年限+ 0.597×性别-0.126×职业+ 0.538×年龄)/(1+ e(-2.669 - 0.801× 就业情况+ 0.959×文化程度+ 0.242×工作年限+ 0.597×性别- 0.126×职业+0 .538×年龄))
  根据每一步的预测情况汇总,还可见准确率由步骤 0的61.5%逐步上升到73.1%,模型效果不错。对居民收入高于均值时的预测正确率60.0%,对收入低于均值的预测正确率81.3%(见表四)。
  (四)模型结果分析
  根据Logistic模型结果,在研究居民收入是否高于均值的影响因素中,就业情况、文化程度、工作年限、性别、职业和年龄是影响的主要因素,它们与居民收入取值发生比的影响分析为:
  1.文化程度。从回归系数B值等于0.959可以看出,B值为正,P = 0.000(程序省略后面小数位),在0.000的水平上显著,说明文化程度与居民收入取值发生比呈正方向变化。Exp(B)值为2.609(Exp(B)值的含义是指:如果变量是连续变量,则该变量每增加1的时候,因变量为1预测正确率提升比值;如果是二分类变量,则是以0为基准,取值为1的时候预测正确率的比值;如果是多分类变量,则以常数重编码为0,0,0的变量为基准,其他几个分类对于它的比值),在其他变量不变的条件下,即文化程度每增加一单位值时发生比会相应增加,文化程度影响收入的程度很大。因此,通过提高居民的文化程度,对提高居民收入水平有积极的促进作用。
  2.就业情况。就业情况的回归系数B = -0.801,P = 0.000,Exp(B) = 0.449。在0.000的水平上显著,就业情况与居民收入取值发生比呈反方向变化。具体变动情况解释要从建模时对就业情况这个自变量的分类着手。我国的所有制结构经历了从单一的公有制向以公有制为主、多种所有制并存的格局演变的过程,在促进经济发展的同时,也对就业者的收入分配产生了重要影响。相对于国有经济单位而言,就业单位为城镇集体经济或其他经济类型单位职工的居民收入相对较低,个体经营者的收入主要取决于经营者个人的能力和市场状况,城镇个体被雇者的收入状况相对其他几类偏低。
  3.工作年限。工作年限的回归系数B = 0.242,P = 0.002,说明在0.002的水平上显著,在其他变量不变的条件下,工作年限与居民收入取值发生比呈正方向变化,Exp(B)值为1.274,较长的工作年限对居民收入的提高影响重要。
  性别、职业、年龄解释道理均类似。
  根据Logistic回归模型,若某一待考察城镇居民的性别为女,年龄在30—40岁阶段,文化程度为3(大专以上),工作年限是2(10—20年),是从事城镇个体经营的商业人员(就业情况编码为2,职业编码为4),则其收入高于均值的可能概率是
  p(y = 1)= e(-2.669-0.801×2+ 0.959×3 + 0.242×2 + 0.597× 0-0.126×4 + 0.538× 1)/(1+ e(-2.669-0.801×2+0.959×3+0.242×2+0.597×0-0.126×4+0.538×1))= 0.294   这意味着该待考察居民的收入水平高于平均值28370.92元的可能概率为29.4%,获得高收入的概率很低。
  三、结论
  本文应用Logistic回归分析模型,通过实证分析了城镇居民收入高低的影响因素,并预测了结果。研究结果表明,在影响居民收入的诸多人口特征因素中,就业情况、文化程度、工作年限、性别、职业和年龄对居民收入高低影响有显著作用。文化程度越高,居民收入就会越高;就业情况的
  不同影响收入,国有经济单位职工的居民收入相对较高;不同职业类型的就业者收入有显著差异,国家机关党群组织与企事业单位负责人、专业技术人员职工相对较高;收入还会随着工作年限及年龄的增长而增加;甚至性别也对收入差距有显著影响。了解这些情况,将有助于我们提出更有针对性的政策建议。
  同时,分析结果显示,分类正确率达73.1%,对研究城镇居民收入状况具有一定的实践意义。但仍存在不足有:1.由于对城镇住户抽样调查得到的微观数据进行合理筛选和处理的过程存在复杂、艰难和偏差,数据质量也许不高。2.本文未引入地区变量等因素,不能进行地区因素对收入影响的分析,可以作为将来进一步研究的重点。3.由于无法得到更早年份的相同数据结构的城镇住户调查资料,对不同年度的城镇就业者收入影响因素很难分别作回归分析、以研究各种因素的影响程度的变化情况。
  [参考文献]
  [1]王济川,郭志刚.Logistic回归模型——方法与应用[M].高等教育出版社,2001.
  [2]徐璐.浙江省城镇居民收入差距及影响因素分解,浙江:浙江工商大学,2008.
  [3]谢周亮.转型期我国个人收入差异的影响因素研究——基于人力资本和社会资本的分析,天津:南开大学,2009
  [4]薛守刚,周云波.影响我国城镇居民收入差距的主要因素研究——以天津为案例从人口特征的角度所进行的分析.南开经济学报,2005(3):42~47.
  [5]王莉.基于Logistic的农村劳动力流动影响因素分析[A].商业时代(原名《商业经济研究》),2007(20).
  [6]刘嘉.中国城镇居民收入差距影响因素的实证分析,天津:天津财经大学,2008.
  [7]张义祯.厦门居民收入状况及其影响因素研究,中国社会学网.
  [8]和立道.中国居民收入分配差距研究文献综述[A].Journal of Yunnan Finance & Economics University,2009.
  [9]武军定,杨维,周云波.城市居民收入差距中不同因素影响率研究.统计与决策,2007(2):93~95.
  [作者简介]李兰澜(1982—),女,广西百色人,就职于国家统计局广西调查总队,主任科员;广西师范大学数学科学学院在职研究生,研究方向:概率论与数理统计。
其他文献
公路工程项目质量控制与进度管理是相互联系的,能够从强化进度管理工作的基础上,从监理单位的合理设置、统一的质量控制标准建设以及健全的质量监督体系的建立等方面整体上为
以天下为己任rn毛泽东从青少年时代开始,就深受中华民族优秀传统文化和中华民族精神的熏陶,践行“身无分文,心忧天下”的圣贤之道,切身关注灾难深重的民族命运,遵循救国救民
互联网经济时代,互联网与国际旅游服务贸易融合的深度和广度都不断演进,国际旅游服务贸易信息共享合作成为时下各大旅行社在互联网经济时代探寻转型发展的热点.本文基于对互
随着交通运输量的增大,车辆的密度和车辆的承载重量也越来越大,人们对于高速公路的建设要求也越来越高.而高墩施工作为高速公路的重要组成部分桥梁工程的重难点工程,对高速公
4月29日至5月1日,中共中央总书记、国家主席、中央军委主席胡锦涛来到天津进行调查研究。通过实地考察,总书记对天津发展给予了充分肯定,他说,天津各项 From April 29 to Ma
随着改革开放进一步扩大和经济建设的持续快速发展,我国再生资源回收利用事业得到了较快发展.但是,再生资源产业存在着市场混乱、法律政策不完善及综合利用水平低等问题.通过
摘 要 长期以来已被口语化了的“一把手”称谓,是一个很不科学的概念,其实质是封建特权思想的反映,与建设社会主义法治国家不相适应。本文明确主张禁止使用之,并改换为“第一责任人”。提出了称呼“第一责任人”的合理性、必要性及其积极意义。  关键词 “一把手” 特权思想 “第一责任人” 法治思维  作者简介:吴占强,甘肃省平凉市庄浪县委党校副教授,平凉市委讲师团兼职教授。  中图分类号:D922.1 文献
近年来,大数据时代的到来在一定程度上影响到了当前烟草行业营销策略的实施,因而在此背景下,烟草企业在发展的过程中应抓住大数据时代的特征来完善自身营销策略,继而为自身企
有组织犯罪在规律上符合犯罪的基本规律。从个体犯罪角度看,有组织犯罪具有一定的偶然性;从群体犯罪高度看,有组织犯罪有其必然性。有组织犯罪的生成受到社会合力的决定。有
供应链是以企业作为核心,通过对物流、资金流、信息流的控制,把从原材料采购加工到销售客户使用的整个过程连接成为一个整体的功能网链结构,通过不断增加的市场价值或者产品