论文部分内容阅读
经过改革开放以来30多年的经济建设,中国如今已经处在工业化和城镇化加速发展的时期。从产业结构来看,第二产业有着重要的意义,其决定了社会产品的生产能力,在中国三次产业结构中起到了基石和枢纽的作用。第二产业的产业升级状况和就业情况对中国的工业化发展和城镇化发展有着重要的影响,因此将中国第二产业的就业情况作为研究对象,有着重要的现实意义。
同时,从当下对第二产业就业情况的分析成果来看,以往研究都是把影响中国第二产业就业的因素局限在:资本有机构成、投资规模、所有制结构、产业结构、劳动力需求结构,以及影响劳动力在产业之间转移的因素,而且往往归于单一或某几个因素的影响,而不能全面考察这些影响因素的作用。另一方面,建国以后,中国的第二产业就业在不同的发展改革阶段,面临着不同的经济政策环境,因此,对于影响第二产业就业的因素而言,在不同的时期又有着主要影响和次要影响之分。以往的研究对其演进方面关注较弱,时期上出现了误判和不充分的认识。
产生这一问题的原因,在于研究方法上的局限性:经济系统本身十分复杂,系统本身又随着改革发展而演进,经济理论相对抽象和简化,单纯从理论入手,难以全面把握所有因素,而当采用计量模型时,已经是把理论认知和思维局限在了某种关系的设定上。所以数据关系的设定带有主观性。那么,如果避免现有研究的不足,从总体上比较客观的来把握第二产业就业问题呢?随着大数据时代的到来,有关大数据挖掘方法的兴起,启发笔者选择了异常值挖掘算法,来研究中国第二产业就业数据的嬗变和结构特性。
研究中国第二产业就业数据的目的是为了分析具体的就业情况。本文采用了三种研究方法:数据分析、理论分析及比较分析。此处采用的数据分析方法与传统的经济研究中的计量模型的运用有所不同,以往的计量模型在设定时,通常依据现有经济理论对经济现象的分析,已经是把理论认知和思维局限在了某种关系的设定上,某种程度上割裂了计量模型的统计学基础和数学基础。本文则是通过异常值挖掘算法对第二产业就业数据进行异常值挖掘。基于ARIMA模型和传函分析的异常值挖掘,其纯粹属于数据科学范畴。保证了研究的客观性和科学性。
接着,利用得到的异常值信息,寻找到异常值发生背后的经济事实。异常值的位置信息能够告诉第二产业就业情况发生的时间信息;而异常值的类型信息则可以告诉,异常值是受到暂时外界冲击的影响,或者内部原因的短暂作用,抑或是发生了某种结构性的变化。如果是AO点,就考虑存在短暂影响特征的经济事实;如果是LS点,就存在着量变的积累期和质变的发生期。因此在寻找背后的经济事实时,如果是LS点,首先要扩大寻找经济事实的时间范围,同时必然要关注那些对第二产业就业数据有着持续影响的经济事实。
最后,将异常值、经济事实和既有的关于第二产业就业问题的分析成果结合起来,通过比较分析,指出了现有研究的一些不足和局限,探讨了中国第二产业就业数据的嬗变和结构特性,同时加深了对中国第二产业就业问题的认识。总结并归纳第二产业就业数据的异常值对经济研究的启示。
本文收集了1952-2012年中国第二产业的就业数据1,通过对该时间序列进行平稳性检验,发现其为一阶单整序列,利用本文提出的定阶算法,通过AIC、SBIC、ICOMP、CAIC四种信息准则的惩罚度进行阶数识别,建立了ARIMA(1,1,1)模型。在传函分析处理中,基于上述ARIMA模型的参数,挖掘得到中国第二产业就业数据的异常值。然后,结合既有的关于第二产业就业问题的分析成果,对部分异常值的出现进行了讨论,同时利用了中国第二产业就业数据的嬗变和结构特性讨论了中国第二产业的就业情况。文章的最后,对异常值算法在经济研究中的优势和不足进行了探讨,从方法本身来看,将数据挖掘运用在经济研究中,对经济学科的发展创新和与时俱进,有着重要的意义。互联网经济时代,线上的经济活动越来越多,单从电子商务而言,截止到2012年,网商的交易规模就达到了8万亿左右。比去年增长35%,线上经济规模已经占到GDP的19%,逐步变成了经济发展的新引擎。若照这样的发展速度,2022年时,中国线上的经济规模预计能到55万亿元。这些线上的经济活动会产生大量的后台数据,宣告了经济研究的大数据时代到来。因此,与以往依赖于经济理论的研究方法不同,大数据时代的经济研究更加倾向于依赖数据和算法来认识经济问题。从该角度来讲,如何将数据挖掘良好的与经济理论结合,将数据挖掘恰当科学的运用到经济研究中,对于经济学科在大数据时代下的发展具有重要意义。因此,本文基于异常值算法,就1952-2012年中国第二产业的就业数据进行的挖掘,以及推及对大数据时代经济研究的展望,虽然具有探索的性质,但其意义也是显见的。
同时,从当下对第二产业就业情况的分析成果来看,以往研究都是把影响中国第二产业就业的因素局限在:资本有机构成、投资规模、所有制结构、产业结构、劳动力需求结构,以及影响劳动力在产业之间转移的因素,而且往往归于单一或某几个因素的影响,而不能全面考察这些影响因素的作用。另一方面,建国以后,中国的第二产业就业在不同的发展改革阶段,面临着不同的经济政策环境,因此,对于影响第二产业就业的因素而言,在不同的时期又有着主要影响和次要影响之分。以往的研究对其演进方面关注较弱,时期上出现了误判和不充分的认识。
产生这一问题的原因,在于研究方法上的局限性:经济系统本身十分复杂,系统本身又随着改革发展而演进,经济理论相对抽象和简化,单纯从理论入手,难以全面把握所有因素,而当采用计量模型时,已经是把理论认知和思维局限在了某种关系的设定上。所以数据关系的设定带有主观性。那么,如果避免现有研究的不足,从总体上比较客观的来把握第二产业就业问题呢?随着大数据时代的到来,有关大数据挖掘方法的兴起,启发笔者选择了异常值挖掘算法,来研究中国第二产业就业数据的嬗变和结构特性。
研究中国第二产业就业数据的目的是为了分析具体的就业情况。本文采用了三种研究方法:数据分析、理论分析及比较分析。此处采用的数据分析方法与传统的经济研究中的计量模型的运用有所不同,以往的计量模型在设定时,通常依据现有经济理论对经济现象的分析,已经是把理论认知和思维局限在了某种关系的设定上,某种程度上割裂了计量模型的统计学基础和数学基础。本文则是通过异常值挖掘算法对第二产业就业数据进行异常值挖掘。基于ARIMA模型和传函分析的异常值挖掘,其纯粹属于数据科学范畴。保证了研究的客观性和科学性。
接着,利用得到的异常值信息,寻找到异常值发生背后的经济事实。异常值的位置信息能够告诉第二产业就业情况发生的时间信息;而异常值的类型信息则可以告诉,异常值是受到暂时外界冲击的影响,或者内部原因的短暂作用,抑或是发生了某种结构性的变化。如果是AO点,就考虑存在短暂影响特征的经济事实;如果是LS点,就存在着量变的积累期和质变的发生期。因此在寻找背后的经济事实时,如果是LS点,首先要扩大寻找经济事实的时间范围,同时必然要关注那些对第二产业就业数据有着持续影响的经济事实。
最后,将异常值、经济事实和既有的关于第二产业就业问题的分析成果结合起来,通过比较分析,指出了现有研究的一些不足和局限,探讨了中国第二产业就业数据的嬗变和结构特性,同时加深了对中国第二产业就业问题的认识。总结并归纳第二产业就业数据的异常值对经济研究的启示。
本文收集了1952-2012年中国第二产业的就业数据1,通过对该时间序列进行平稳性检验,发现其为一阶单整序列,利用本文提出的定阶算法,通过AIC、SBIC、ICOMP、CAIC四种信息准则的惩罚度进行阶数识别,建立了ARIMA(1,1,1)模型。在传函分析处理中,基于上述ARIMA模型的参数,挖掘得到中国第二产业就业数据的异常值。然后,结合既有的关于第二产业就业问题的分析成果,对部分异常值的出现进行了讨论,同时利用了中国第二产业就业数据的嬗变和结构特性讨论了中国第二产业的就业情况。文章的最后,对异常值算法在经济研究中的优势和不足进行了探讨,从方法本身来看,将数据挖掘运用在经济研究中,对经济学科的发展创新和与时俱进,有着重要的意义。互联网经济时代,线上的经济活动越来越多,单从电子商务而言,截止到2012年,网商的交易规模就达到了8万亿左右。比去年增长35%,线上经济规模已经占到GDP的19%,逐步变成了经济发展的新引擎。若照这样的发展速度,2022年时,中国线上的经济规模预计能到55万亿元。这些线上的经济活动会产生大量的后台数据,宣告了经济研究的大数据时代到来。因此,与以往依赖于经济理论的研究方法不同,大数据时代的经济研究更加倾向于依赖数据和算法来认识经济问题。从该角度来讲,如何将数据挖掘良好的与经济理论结合,将数据挖掘恰当科学的运用到经济研究中,对于经济学科在大数据时代下的发展具有重要意义。因此,本文基于异常值算法,就1952-2012年中国第二产业的就业数据进行的挖掘,以及推及对大数据时代经济研究的展望,虽然具有探索的性质,但其意义也是显见的。