论文部分内容阅读
在断点回归设计的理论研究和实际应用中,非参数回归方法受到了人们的青睐,局部线性估计是断点回归设计中估计处置效应的标准方法。然而对于高震荡函数,局部线性估计在均方误差的意义下不一定是最好的。本文基于局部多项式的断点回归设计理论与应用展开,系统回顾了断点回归的发展历程。通过对已有的理论回顾,总结出处置效应估计目前主要存在两个问题:(一)在带宽选择中方差和偏差的估计问题;(二)多项式阶数的选择问题。对于问题(一),通过导数估计得到最优带宽是最基本的理论方法,然而研究表明对于边界点处的高阶导数估计,随着阶数的增加估计方差会急剧增加。在实际应用问题中,对各阶多项式在已有几种带宽选择方法下得到的最优带宽和处置效应估计进行比较是有意义的。对于问题(二),由于在实际场景下回归函数的先验信息和误差分布是未知的,为了得到实际应用的经验结果,我们通过对大样本(n=4000)和小样本(n=200)进行模拟研究,发现如下基本结论:在大样本情况下高震荡设计在阶数(p=4,3,2,1)的情况下估计结果均较好,特别是在msetwo带宽选择方法下二阶局部多项式具有最小标准误差;在小样本情况下,mserd带宽选择方法下的一阶局部多项式具有最小标准误差。统计模拟研究表明:在不同设计下各阶估计都有可能达到最优结果,因此,应用中的稳健做法是结合经验,给出各阶局部多项式下的估计结果。根据模拟研究提供给的经验结果,本文对中国北方城市冬季供暖政策进行了断点回归分析,考虑到空气污染指标较多,仅对空气质量指数(AQI),二氧化硫,PM2.5三项指标进行了分析。不论是使用随意抽样得到的北方城市数据(n=4186)还是仅使用北京市的数据(n=215),结果均显示冬季供暖会使该三项指标上升。北京市AQI的最小标准误差处置效应估计结果为23.064,所有样本的最小标准误差处置效应估计结果为16.92;北京市二氧化硫的最小标准误差处置效应估计结果为4.4273,所有样本的最小标准误差处置效应估计结果为1.9837;北京市PM2.5的最小标准误差处置效应估计结果为48.508,所有样本的最小标准误差处置效应估计结果为18.714。