论文部分内容阅读
摘要: :本文采用探索性数据分析方法(EDA),首先对我国R&D人员分布结构进行分析;其次运用三组耐抗线探究R&D人员数量及经费之间的线性趋势及区域分布,得到不受异常值影响的人数与经费的回归模型,并与最小二乘法得到的拟合直线作了比较;最后由探索性数据分析得到的结果给出了关于各省份科研投入结构的建议。
关键词:R&D人员投入; EDA; 三组耐抗线; 投入建议
一、引言
R&D是英文“Research and Development”的缩写,在我国,译为“科学研究与试验发展”,亦称为“研究与发展”,简称“研发”。自主创新是支撑一个国家崛起的筋骨,没有自主创新的科技发展就好比严重缺钙的人一样,缺少可持续的保障基础。加快转变经济发展方式是推动我国科学发展的必由之路,是促进经济发展的新战略选择。而科学发展、节约发展需要技术的革新、发展模式的创新,这都离不开人才和知识的强大支持。在科技创新活动中科技人才资源是最重要的,R&D人员及经费投入是开展R&D活动的基础,基于此本文采用探索性数据分析方法(exploratory data analysis,EDA)研究我国R&D人员及经费投入现状(分布结构、变化趋势等),对提高国家自主创新能力具有特别的现实意义。
由于我国各地区R&D投入状况参差不一,因此有必要将各地数据的特征有效分离。并且,大部分省份的R&D人员数量对投入经费的回归具有较高的杠杆率,然而也存在离群值和异常值,传统的数据分析方法并不能很好地处理分析离群值。为了有效减少异常值的影响进而得到较为满意的数据处理结果,可采用EDA中的“数据变换”找到一个新的尺度对数据进行重新描述,以便简化分析;进一步地,构造三组耐抗线进行R&D人员数量及经费之间的线性趋势分析,其优点在于重视数据的总体特征,对数据的局部不良行为不敏感。最终,对我国各省份科研投入结构提出建设性建议。
二、数据来源及简单变换
我国不同地区的科研投入水平有很大区别,在某一区域内,不同省份之间的投入水平也不一致。为了能够更好地分析数据特征,将全国划分为华北、西北、华东、西南、中南、东北六大地区,每个区域选择5个省份进行分析,具体数据源自《2011年中国统计年鉴》。
由于原始数据的分布效果不佳,难以进行有效的数据分析,针对此需要进行原始数据幂变换,在具体变换前,首先通过构造展布对水平图选择数据变换方式。利用Matlab软件算得中位数对数及四分展布对数,采用最小二乘回归方法对图中直线进行拟合,用Matlab软件得到拟合直线的斜率为,那么把展布稳定的进行幂变换,它的幂指数近似值是:,可以得到。数据变换公式规定为:。
因此对30个省份科研人员数量的数据采用对数变换,得到箱线图如图1所示。
图1 数据变换后的箱线图
从图1可以看到,经过变换后的数据展布更稳定,并且能够更加清晰直观地展示数据特征。
三、最小二乘法(OLS)与三组耐抗线比较
1.最小二乘法
为了探究R&D人员数量及经费之间的线性趋势及区域分布,根据所得数据运用Matlab软件进行最小二乘回归,得到最小二乘法的估计模型为:
(其中,为每个省份R&D投入经费,为R&D人员数量)。
2.三组耐抗线
在探索性数据分析中,使用最小二乘法拟合的直线不提供耐抗性,为了避免部分离群数据支配控制拟合线,选用稳健耐抗的方法——三组耐抗线来对批数据进行更好地探索分析。
首先将30组数据按照R&D人员数量从小到大排序,由于30可以被3整除,且值没有等值结,则三个组每组包含10个数据点,三个组内的总括点是:
中位数提供对于,的离群值的耐抗性,利用三个总括点得到斜率和截距分别为:
;
;
和都基于总括点,都是耐抗的。用斜率和中心值来表示拟合,在处初始直线为:
;
其中中心值为:;
得到拟合直线的斜率的水平,下一步计算每个数据点的初始残差:
;
残差本身能够揭示各种特性和模式,这里只利用它的一个一般性质:用残差代替原来值,即用代替,然后重复拟合过程,得到斜率和水平的调整值和,将其分别与初始斜率和水平累加,继续下去得到零拟合,即得到直线的零斜率和零水平,这一过程称为迭代,为迭代步数。
;
如果迭代步后,当斜率调整值的绝对值与初始斜率的比值小于某个阈值(0.01%)时,则可停止迭代,得到的最终斜率和水平为:
;;
相应的拟合直线为:。
结合本文中实证分析数据,运用Matlab软件进行迭代,可得到R&D人员数量与经费拟合的三组耐抗线结果为:
3.三组耐抗线与最小二乘回归线的比较
拟合一般不能完全地描述数据,因此用残差逐步地改进拟合,对异常数据点进行特别处理。通过上面的计算,可以发现最小二乘法拟合的直线与三组耐抗线拟合的线性关系的斜率符号相同,且没有明显地区别,只是在截距上有所区别。所以下面通过绘制最小二乘法和三组耐抗线的残差图进一步比较两个方法对本文数据拟合的优劣性,残差图如图2所示。
由图2来对比最小二乘法和三组耐抗线的残差,可以发现三组耐抗线的残差布局更靠下,这说明个别异常值对最小二乘回归线有很大影响,而三组耐抗线方法对个别异常值不敏感,能更好地显示数据的主要行为。因此用三组耐抗线方法分析R&D人员数量及经费之间的线性趋势有更明显的优势。
图2 残差比较图
(注:o为最小二乘法残差,、*为三组耐抗线方法残差)
四、结论与建议
(1)本文通过EDA技术得到的三组耐抗线受离群值影响小,由于EDA方法可以检测出与数据总体分布特征差别较大的异常值,因此当数据样本容量较小,易受离群值影响时,用此方法比采用传统的描述统计方法更为可靠。
(2)从箱线图中可以明确看出,我国各地区的科研投入量分布是极不均匀的,大致呈现东高西低的趋势。我国正处在完成新型工业化发展的历史进程中,科技人力资源及科研费用的投入对促进经济和社会发展有着显著的效果,有利于加快科技向现实生产力的转化。通过三组耐抗线拟合的趋势线,也能够大致看出科研人员数量与投入经费之间的关系,有助于建立科学合理的科研投入结构,使得产出效率最大化,这符合当前我国以技术创新为重点的科技发展战略,适合现阶段的基本国情。
参考文献:
[1] David C.Hoaglin,Frederick Mosteller,John W.Turkey.探索性数据分析[M].中国统计出版社.1998.
[2] 朱鈺,张颖.谈探索性数据分析[J].统计教育,1997,(3) .
[3] 徐千惠,付轲. 我国R&D人员投入现状及其国际比较的基模分析[J].教育与科学研究,2012,24(8).
[4] 张汗灵.MATLAB在图像处理中的应用[M].清华大学出版社,2008.
作者简介:任雅楠,女,1992年11月生,河南洛阳人,中南财经政法大学2011级统计与数学学院本科生,研究方向:数理金融统计。
关键词:R&D人员投入; EDA; 三组耐抗线; 投入建议
一、引言
R&D是英文“Research and Development”的缩写,在我国,译为“科学研究与试验发展”,亦称为“研究与发展”,简称“研发”。自主创新是支撑一个国家崛起的筋骨,没有自主创新的科技发展就好比严重缺钙的人一样,缺少可持续的保障基础。加快转变经济发展方式是推动我国科学发展的必由之路,是促进经济发展的新战略选择。而科学发展、节约发展需要技术的革新、发展模式的创新,这都离不开人才和知识的强大支持。在科技创新活动中科技人才资源是最重要的,R&D人员及经费投入是开展R&D活动的基础,基于此本文采用探索性数据分析方法(exploratory data analysis,EDA)研究我国R&D人员及经费投入现状(分布结构、变化趋势等),对提高国家自主创新能力具有特别的现实意义。
由于我国各地区R&D投入状况参差不一,因此有必要将各地数据的特征有效分离。并且,大部分省份的R&D人员数量对投入经费的回归具有较高的杠杆率,然而也存在离群值和异常值,传统的数据分析方法并不能很好地处理分析离群值。为了有效减少异常值的影响进而得到较为满意的数据处理结果,可采用EDA中的“数据变换”找到一个新的尺度对数据进行重新描述,以便简化分析;进一步地,构造三组耐抗线进行R&D人员数量及经费之间的线性趋势分析,其优点在于重视数据的总体特征,对数据的局部不良行为不敏感。最终,对我国各省份科研投入结构提出建设性建议。
二、数据来源及简单变换
我国不同地区的科研投入水平有很大区别,在某一区域内,不同省份之间的投入水平也不一致。为了能够更好地分析数据特征,将全国划分为华北、西北、华东、西南、中南、东北六大地区,每个区域选择5个省份进行分析,具体数据源自《2011年中国统计年鉴》。
由于原始数据的分布效果不佳,难以进行有效的数据分析,针对此需要进行原始数据幂变换,在具体变换前,首先通过构造展布对水平图选择数据变换方式。利用Matlab软件算得中位数对数及四分展布对数,采用最小二乘回归方法对图中直线进行拟合,用Matlab软件得到拟合直线的斜率为,那么把展布稳定的进行幂变换,它的幂指数近似值是:,可以得到。数据变换公式规定为:。
因此对30个省份科研人员数量的数据采用对数变换,得到箱线图如图1所示。
图1 数据变换后的箱线图
从图1可以看到,经过变换后的数据展布更稳定,并且能够更加清晰直观地展示数据特征。
三、最小二乘法(OLS)与三组耐抗线比较
1.最小二乘法
为了探究R&D人员数量及经费之间的线性趋势及区域分布,根据所得数据运用Matlab软件进行最小二乘回归,得到最小二乘法的估计模型为:
(其中,为每个省份R&D投入经费,为R&D人员数量)。
2.三组耐抗线
在探索性数据分析中,使用最小二乘法拟合的直线不提供耐抗性,为了避免部分离群数据支配控制拟合线,选用稳健耐抗的方法——三组耐抗线来对批数据进行更好地探索分析。
首先将30组数据按照R&D人员数量从小到大排序,由于30可以被3整除,且值没有等值结,则三个组每组包含10个数据点,三个组内的总括点是:
中位数提供对于,的离群值的耐抗性,利用三个总括点得到斜率和截距分别为:
;
;
和都基于总括点,都是耐抗的。用斜率和中心值来表示拟合,在处初始直线为:
;
其中中心值为:;
得到拟合直线的斜率的水平,下一步计算每个数据点的初始残差:
;
残差本身能够揭示各种特性和模式,这里只利用它的一个一般性质:用残差代替原来值,即用代替,然后重复拟合过程,得到斜率和水平的调整值和,将其分别与初始斜率和水平累加,继续下去得到零拟合,即得到直线的零斜率和零水平,这一过程称为迭代,为迭代步数。
;
如果迭代步后,当斜率调整值的绝对值与初始斜率的比值小于某个阈值(0.01%)时,则可停止迭代,得到的最终斜率和水平为:
;;
相应的拟合直线为:。
结合本文中实证分析数据,运用Matlab软件进行迭代,可得到R&D人员数量与经费拟合的三组耐抗线结果为:
3.三组耐抗线与最小二乘回归线的比较
拟合一般不能完全地描述数据,因此用残差逐步地改进拟合,对异常数据点进行特别处理。通过上面的计算,可以发现最小二乘法拟合的直线与三组耐抗线拟合的线性关系的斜率符号相同,且没有明显地区别,只是在截距上有所区别。所以下面通过绘制最小二乘法和三组耐抗线的残差图进一步比较两个方法对本文数据拟合的优劣性,残差图如图2所示。
由图2来对比最小二乘法和三组耐抗线的残差,可以发现三组耐抗线的残差布局更靠下,这说明个别异常值对最小二乘回归线有很大影响,而三组耐抗线方法对个别异常值不敏感,能更好地显示数据的主要行为。因此用三组耐抗线方法分析R&D人员数量及经费之间的线性趋势有更明显的优势。
图2 残差比较图
(注:o为最小二乘法残差,、*为三组耐抗线方法残差)
四、结论与建议
(1)本文通过EDA技术得到的三组耐抗线受离群值影响小,由于EDA方法可以检测出与数据总体分布特征差别较大的异常值,因此当数据样本容量较小,易受离群值影响时,用此方法比采用传统的描述统计方法更为可靠。
(2)从箱线图中可以明确看出,我国各地区的科研投入量分布是极不均匀的,大致呈现东高西低的趋势。我国正处在完成新型工业化发展的历史进程中,科技人力资源及科研费用的投入对促进经济和社会发展有着显著的效果,有利于加快科技向现实生产力的转化。通过三组耐抗线拟合的趋势线,也能够大致看出科研人员数量与投入经费之间的关系,有助于建立科学合理的科研投入结构,使得产出效率最大化,这符合当前我国以技术创新为重点的科技发展战略,适合现阶段的基本国情。
参考文献:
[1] David C.Hoaglin,Frederick Mosteller,John W.Turkey.探索性数据分析[M].中国统计出版社.1998.
[2] 朱鈺,张颖.谈探索性数据分析[J].统计教育,1997,(3) .
[3] 徐千惠,付轲. 我国R&D人员投入现状及其国际比较的基模分析[J].教育与科学研究,2012,24(8).
[4] 张汗灵.MATLAB在图像处理中的应用[M].清华大学出版社,2008.
作者简介:任雅楠,女,1992年11月生,河南洛阳人,中南财经政法大学2011级统计与数学学院本科生,研究方向:数理金融统计。