探索性数据分析在我国R&D人员及经费投入现状研究中的应用

来源 :商品与质量·消费视点 | 被引量 : 0次 | 上传用户:PeterWang9898
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要: :本文采用探索性数据分析方法(EDA),首先对我国R&D人员分布结构进行分析;其次运用三组耐抗线探究R&D人员数量及经费之间的线性趋势及区域分布,得到不受异常值影响的人数与经费的回归模型,并与最小二乘法得到的拟合直线作了比较;最后由探索性数据分析得到的结果给出了关于各省份科研投入结构的建议。
  关键词:R&D人员投入; EDA; 三组耐抗线; 投入建议
  一、引言
  R&D是英文“Research and Development”的缩写,在我国,译为“科学研究与试验发展”,亦称为“研究与发展”,简称“研发”。自主创新是支撑一个国家崛起的筋骨,没有自主创新的科技发展就好比严重缺钙的人一样,缺少可持续的保障基础。加快转变经济发展方式是推动我国科学发展的必由之路,是促进经济发展的新战略选择。而科学发展、节约发展需要技术的革新、发展模式的创新,这都离不开人才和知识的强大支持。在科技创新活动中科技人才资源是最重要的,R&D人员及经费投入是开展R&D活动的基础,基于此本文采用探索性数据分析方法(exploratory data analysis,EDA)研究我国R&D人员及经费投入现状(分布结构、变化趋势等),对提高国家自主创新能力具有特别的现实意义。
  由于我国各地区R&D投入状况参差不一,因此有必要将各地数据的特征有效分离。并且,大部分省份的R&D人员数量对投入经费的回归具有较高的杠杆率,然而也存在离群值和异常值,传统的数据分析方法并不能很好地处理分析离群值。为了有效减少异常值的影响进而得到较为满意的数据处理结果,可采用EDA中的“数据变换”找到一个新的尺度对数据进行重新描述,以便简化分析;进一步地,构造三组耐抗线进行R&D人员数量及经费之间的线性趋势分析,其优点在于重视数据的总体特征,对数据的局部不良行为不敏感。最终,对我国各省份科研投入结构提出建设性建议。
  二、数据来源及简单变换
  我国不同地区的科研投入水平有很大区别,在某一区域内,不同省份之间的投入水平也不一致。为了能够更好地分析数据特征,将全国划分为华北、西北、华东、西南、中南、东北六大地区,每个区域选择5个省份进行分析,具体数据源自《2011年中国统计年鉴》。
  由于原始数据的分布效果不佳,难以进行有效的数据分析,针对此需要进行原始数据幂变换,在具体变换前,首先通过构造展布对水平图选择数据变换方式。利用Matlab软件算得中位数对数及四分展布对数,采用最小二乘回归方法对图中直线进行拟合,用Matlab软件得到拟合直线的斜率为,那么把展布稳定的进行幂变换,它的幂指数近似值是:,可以得到。数据变换公式规定为:。
  因此对30个省份科研人员数量的数据采用对数变换,得到箱线图如图1所示。
  图1 数据变换后的箱线图
  从图1可以看到,经过变换后的数据展布更稳定,并且能够更加清晰直观地展示数据特征。
  三、最小二乘法(OLS)与三组耐抗线比较
  1.最小二乘法
  为了探究R&D人员数量及经费之间的线性趋势及区域分布,根据所得数据运用Matlab软件进行最小二乘回归,得到最小二乘法的估计模型为:
  (其中,为每个省份R&D投入经费,为R&D人员数量)。
  2.三组耐抗线
  在探索性数据分析中,使用最小二乘法拟合的直线不提供耐抗性,为了避免部分离群数据支配控制拟合线,选用稳健耐抗的方法——三组耐抗线来对批数据进行更好地探索分析。
  首先将30组数据按照R&D人员数量从小到大排序,由于30可以被3整除,且值没有等值结,则三个组每组包含10个数据点,三个组内的总括点是:
  中位数提供对于,的离群值的耐抗性,利用三个总括点得到斜率和截距分别为:
  ;
  ;
  和都基于总括点,都是耐抗的。用斜率和中心值来表示拟合,在处初始直线为:
  ;
  其中中心值为:;
  得到拟合直线的斜率的水平,下一步计算每个数据点的初始残差:
  ;
  残差本身能够揭示各种特性和模式,这里只利用它的一个一般性质:用残差代替原来值,即用代替,然后重复拟合过程,得到斜率和水平的调整值和,将其分别与初始斜率和水平累加,继续下去得到零拟合,即得到直线的零斜率和零水平,这一过程称为迭代,为迭代步数。
  ;
  如果迭代步后,当斜率调整值的绝对值与初始斜率的比值小于某个阈值(0.01%)时,则可停止迭代,得到的最终斜率和水平为:
  ;;
  相应的拟合直线为:。
  结合本文中实证分析数据,运用Matlab软件进行迭代,可得到R&D人员数量与经费拟合的三组耐抗线结果为:
  3.三组耐抗线与最小二乘回归线的比较
  拟合一般不能完全地描述数据,因此用残差逐步地改进拟合,对异常数据点进行特别处理。通过上面的计算,可以发现最小二乘法拟合的直线与三组耐抗线拟合的线性关系的斜率符号相同,且没有明显地区别,只是在截距上有所区别。所以下面通过绘制最小二乘法和三组耐抗线的残差图进一步比较两个方法对本文数据拟合的优劣性,残差图如图2所示。
  由图2来对比最小二乘法和三组耐抗线的残差,可以发现三组耐抗线的残差布局更靠下,这说明个别异常值对最小二乘回归线有很大影响,而三组耐抗线方法对个别异常值不敏感,能更好地显示数据的主要行为。因此用三组耐抗线方法分析R&D人员数量及经费之间的线性趋势有更明显的优势。
  图2 残差比较图
  (注:o为最小二乘法残差,、*为三组耐抗线方法残差)
  四、结论与建议
  (1)本文通过EDA技术得到的三组耐抗线受离群值影响小,由于EDA方法可以检测出与数据总体分布特征差别较大的异常值,因此当数据样本容量较小,易受离群值影响时,用此方法比采用传统的描述统计方法更为可靠。
  (2)从箱线图中可以明确看出,我国各地区的科研投入量分布是极不均匀的,大致呈现东高西低的趋势。我国正处在完成新型工业化发展的历史进程中,科技人力资源及科研费用的投入对促进经济和社会发展有着显著的效果,有利于加快科技向现实生产力的转化。通过三组耐抗线拟合的趋势线,也能够大致看出科研人员数量与投入经费之间的关系,有助于建立科学合理的科研投入结构,使得产出效率最大化,这符合当前我国以技术创新为重点的科技发展战略,适合现阶段的基本国情。
  参考文献:
  [1] David C.Hoaglin,Frederick Mosteller,John W.Turkey.探索性数据分析[M].中国统计出版社.1998.
  [2] 朱鈺,张颖.谈探索性数据分析[J].统计教育,1997,(3) .
  [3] 徐千惠,付轲. 我国R&D人员投入现状及其国际比较的基模分析[J].教育与科学研究,2012,24(8).
  [4] 张汗灵.MATLAB在图像处理中的应用[M].清华大学出版社,2008.
  作者简介:任雅楠,女,1992年11月生,河南洛阳人,中南财经政法大学2011级统计与数学学院本科生,研究方向:数理金融统计。
其他文献
摘要:从2000年以来,我国的房价就一直处在持续上涨阶段,但是从房价与人民收入的对比上来看,有部分地区的房价已经大大超过了当地居民的购买能力,人们买不起房,房地产公司赚不到钱,然后继续抬高房价,这就出现了房地产危机,即房地产泡沫。本文主要对当今房地产泡沫出现的机制以及房地产泡沫带来的影响进行了简要分析,并针对这种危机提出了一些预防预警措施。  关键字:房地产泡沫;形成机制;影响;策略  前言:房地
期刊
摘要:自改革开放以来,我国的中小企业快速发展;同时,由于近年来国内外经济形势发生了变化,中小企业遭遇融资难题。该文先分析中小企业获得银行信贷的现状,分析信贷环境较差的原因及改善措施。  关键词:中小企业;信贷;现状  一、中小企业信贷现状分析  尽管中小企业的成长性被普遍看好,但在事实上,中小企业融资难的状况一直没有改变。中小企业的融资难,实际上从其诞生起就存在。具体而言,中小企业往往出生就比较弱
期刊
摘要:该文通过分析通货膨胀对当前中国经济发展的危害和形成通货膨胀的原因,来试图理出一些解决通货膨胀问题的策略,从而为缓解由通货膨胀引起的一系列经济压力提供一些参考。  关键词:通货膨胀;国民经济;危害;原因;对策  最近我国受世界经济危机影响严重,国家在通过出台一些救市政策成功应对经济危机的同时也带来了一些新的问题。如经济结构亟需改善,通货膨胀预期陡增,内需增长动力不足等等一系列問题。在这一系列问
期刊
摘要:本文采用上证180指数,计算出各个公司的每股内在价值,来检验现金流贴现模型在目前中国股市中运用是否具有有效性。结论认为:股价与公司每股内在价值的相关性较弱,实际当中的股票价格与每股内在价值相偏離程度较大。  关键词:自由现金流;内在价值;有效性  一、引言  在目前股票市场中,由于各种股票的价格时刻都处于不断变化之中,想要以合理的价格交易就必须知道它们的价值。由于相关文献的可获得性问题,国内
期刊
摘要:当前,通货膨胀已成为中央银行实施货币政策的首要目标。开放经济下, 中国货币供应量受制于外汇储备使货币政策丧失独立性。双顺差积聚起的巨额外汇储备是影响中国货币政策独立性的主要因素,通货膨涨也与货币政策的内生有关。应该改善一直以来实施的强制结售汇制度为意愿结售汇制度,加速利率市场化进程,尽快打通货币市场利率与金融机构存贷款利率的传导渠道,提高货币政策的效率,才能从根本上避免长期使用外汇冲销干预带
期刊
摘要:随着近年来老龄人口不断增加,我国已经进入老龄化社会。随着我国人口老龄、家庭结构小型化、城镇化进程加速、人口红利消失,老龄化进程与经济社会转型期的矛盾相交织,社会养老保障和养老服务的需求急剧增加。未来20年,我国人口老龄化日益加重,老龄事业发展任重道远。而我国的养老保险制度改革,经过二十余年的探索和实践,已经取得了显著的成效,但由于制度的整体安排,改革措施的一致性等原因,使养老保险制度在不断发
期刊
摘要:2009年,我国实现了由“生产型增值税”向“消费型增值税”的转变。然而,以“代理说”为基础的现行增值税会计处理存在众多缺陷,扭曲了收入、成本、费用等会计概念,违背了权责发生制原则及配比原则,破坏了实际成本计价基础,严重影响会计信息质量。这需要我们从增值税的实质及会计目标出发,重新审视增值税会计处理的思路与方法。本文的目的就是希望通过研究我国增值税会计处理方法的现状、分析并提出改进的建议。  
期刊
摘要:本文探讨通货膨胀的内涵、外延,对通货膨胀的类型进行归纳,并详细介绍通货膨胀中货币政策选择的原理。  关键词:通货膨胀;货币政策;选择原理  一、通货膨胀的内涵与外延  通货膨胀是一种相当古老的经济现象。从历史上看,自从有了不足值的货币。通货膨胀就与人类社会的发展相伴而行,只是时而严重,时而不严重罢了。在这大半个世纪里,它已经成为一个世界性的问题。人们对通货膨胀进行了大量的研究,达成了一些共识
期刊
摘要:针对中小型企业的凝结水回收系统的现状,提出凝结水回收的重要性,并根据凝结水回收与否进行了比较和经济分析,由此引起企业重视,降低产品成本,提高企业经济效益。  关键词:热量回收;节约能源;经济效益  蒸汽通过放热,生成凝结水。它是不用去掉硬度和杂质的软化水,是良好的锅炉用水,而且凝结水内一般都会含有相当一部分热量,丢掉不用是恒可惜的。一是会使锅炉用水的处理量增大,增加水处理的设备和运行费用;二
期刊
摘要:财政作为国家治理的基础和重要支柱,其效率低下在一定程度上制约了我国经济的发展和人民生活水平的提高。本文通过对财政职能的探讨,构建了财政效率评价体系。  关键词:财政效率; 财政职能;评价体系  一、引言  建立现代化财政制度,解决好当前财政制度存在的问题是关键。冯兴元(2011)提出,财政支出效率低下是当前中国财政体制存在的主要问题之一[1]。众所周知,财政活动分为财政收入和财政支出两项,因
期刊