论文部分内容阅读
在统计学和经济学中,非参数回归理论得到细致的研究,有广泛的应用前景。然而,对于应用的统计学者和经济学者而言,非参数技巧的使用是受限的:精细的理论与实际应用存在一定差距,例如,实际应用中核回归方法的阶数以及窗宽的最优选择问题;需要较强的计算机水平和处理规划问题的经验。差分方法是一种重要非参数技巧,给实际工作者提供了一种简单、方便的替代方法。目前,差分方法在非参数估计中主要存在以下四个问题:(一)缺乏有限样本形式的精确理论结果,从而不能保证应用的有效性;(二)实际应用中应该采用哪一个差分序列?至今仍是一个公开问题;(三)一个方法论上的困惑:传统差分方法与其它非参数光滑方法存在何种联系?缺少必要的理论解释;(四)面对不同类型的污染数据,缺少稳健的差分方法可以应用。本文总结了非参数回归中的差分方法,提出了新的差分方法,在精确理论和实际应用之间建立起一个桥梁,并解决了差分方法中的四个问题。其主体框架分为六个章节。第一章,介绍了传统的差分方法及其存在的主要问题,并给出了文章的框架结构。第二、三、四章,差分方法结合最小二乘回归,提出了两种方差估计方法和一种导数估计方法;解决了问题(一)、(二)和(三)。第五章,差分方法结合最小一乘回归,提出了稳健的导数估计方法;解决了问题(四)。第六章,讨论了差分方法的应用优势和未来工作方向。特别需要指出:在等距设计下,我们提出了有限样本的精确分析方法—解决了问题(一);为非等距和随机设计提供了理论比较和现实应用的一个基准。第二章研究了非参数模型下误差方差的估计问题。传统的方差估计是基于残差的方法:先利用非参数技巧估计出回归函数,再利用残差平方和估计方差。基于残差的方法存在如下问题:依赖于偏差和方差平衡的窗宽选取问题,边界点估计不准确问题。为了解决以上问题,本章提出了一种基于差分的估计方法:首先,构造一列对称差分序列,并利用最小二乘回归估计误差作为回归常数;其次,逐点估计内部点的误差,忽略方差较大的边界点的误差;最后,标准化内部点的误差平方和得到新的方差估计。新的方差估计未用到边界点的误差估计,解决了边界点估计不准确的问题。在三种不同的光滑条件下,得到了三个不同的方差估计。这三个估计都达到渐近最优的收敛速度—其它大部分差分估计没有达到。为了决定实际应用中采用哪个估计,我们通过均方误差分析提出了一个经验法则:并非采用传统的偏差和方差的平衡来选取,而是把偏差影响降低到远低于方差影响之后,通过估计方差的高阶项来选择估计—解决了公开问题(二)。另外,我们证明了差分估计等价于核估计—解决了问题(三)。本章结果发表于《Computational Statistics and Data Analysis》。不管是基于残差还是误差估计构造的方差估计,其本质上都是利用方差期望的定义。第三章提出了一种新的参数化估计方法,即方差作为回归参数的估计方法。首先,利用延迟的差分平方和,够造一列方差估计;其次,利用矩估计方法计算出每个方差估计的近似表达,此时方差正好是常数项;最后,利用最小二乘回归估计方差。得到的方差估计达到渐近最优的收敛速度,同时减少了估计偏差。另外,在非等距设计下提出了一个修正的方法。本章结果发表于《Computational Statistics》。第四章研究了非参数模型下的导数估计问题。非参数回归模型中,人们经常关注回归函数估计,而导数估计经常作为回归函数的“副产品”被间接的估计出来,未受到足够的重视。最近,导数估计的应用变得越来越广泛,亟需新的估计方法。Charnigo et al.[2011b]通过对称差分的线性组合来减小估计方差,提出了一种新的估计—经验导数,并确定了渐近偏差和方差的阶数,提出了一个广义的Cp准则。De Brabanter et al[2013]结合局部多项式回归重新研究了经验导数,建立了相合性。但是,经验导数存在如下问题:估计的准则依据于均值函数而非导数,波峰波谷存在巨大的估计偏差。为了解决以上问题,我们提出了一种新的导数估计方法—局部加权最小二乘回归。首先,构造一列对称的差商序列;其次,对差商序列应用Taylor展开得到一列回归表达,其常数项正好是我们需要估计的导数,从而把导数项放在了重要的位置;最后,采用局部加权最小二乘回归方法估计导数。理论上,我们揭示了采用局部多项式回归估计导数的准则问题—局部多项式主要目的在于估计回归函数,其准则是基于回归函数估计提出的;然而均值和各阶导数之间,估计的收敛速度是不同;当均值估计达到最优收敛速度时,导数估计并未达到最优收敛速度。处理办法之一就是通过差分方法使得导数成为新回归函数的常数部分,即收敛速度最快的部分。另外,把经验导数纳入我们的理论框架中,推导出精确的渐近结果,通过进一步的Taylor展开减少了波峰波谷的偏差—解决了问题(一)。通过模拟研究,理论性质和模拟结果非常匹配;而且我们的估计确实有更小的偏差和MSE。本章结果发表于国际顶级期刊《Journal of Machine Learning Research》。第五章结合差分方法与最小一乘回归,提出了一种导数估计的稳健方法—局部加权最小一乘回归。需要强调的是,传统最小一乘估计只是对于异常值或者厚尾误差是稳健的,但同时需要尖峰才能保证估计效率。这类新的估计具有更稳健的性质:不同于最小一乘依赖于中位数点的密度函数值,而是依赖于密度函数的期望;即使是低峰密度函数甚至中位数点为0,也可以通过差分变成尖峰密度函数。同时我们发现,新的估计跟复合分位数估计有密切的联系。复合分位数估计用到所有分位数的信息,具有更高效率;现实应用中,复合分位数估计只能用到有限个分位数信息一等价于依赖这有限个分位数点的密度函数值,不可能达到所有复合分位数估计的效率;然而,我们估计的效率与理论结果保持一致。该工作是国内第一次系统地介绍差分方法在非参数回归中的应用,揭示了差分方法的本质,提出了几种新的差分方法,解决了理论上和应用中的四个问题。就未来的工作,第六章做了如下展望。一、差分方法和稳健方法结合讨论最优的渐近理论和有限样本结果;二、差分方法应用到不同的模型中:参数模型、半参数模型、多元回归模型甚至高维问题;三、检验问题是一个尚未开发的处女地,需要奠基性的工作;四、差分方法的实际应用,特别是航空、自动化、工程和经济。