论文部分内容阅读
在过去的几十年里,随着计算机的计算速度和存储能力的提高,人们能够收集、存储和分析在金融市场、医学诊断、生命科学、环境调查等各个领域大量涌现的复杂数据集.这些数据集往往有下面的特征:包含异常值,有观测误差,纵向抽样,维数超高(大“p”,小“n”)等等.为了能够处理各个科学领域出现的复杂数据,一方面我们需要拓展传统的统计方法,另一方面我们更加迫切需要提出全新的统计方法。本论文主要考察两类数据集:混杂了同一个协变量的数据集和含有异常值的数据集。我们对前者做了回归分析的研究,对后者做了判别分析和构造稳健拟似然框架的研究。Kaysen et al.(2003)给出了一个“混杂了同一个协变量的数据”的例子——血液透析病人的纤维蛋白原的数据。在该数据中人们感兴趣的是纤维蛋白原水平和铁传递蛋白水平的回归关系。而这两类蛋白水平都依赖于BMI(body mass indexweight/height2),那么BMI必然会对回归关系造成一定的扭曲。为了刻画回归中的这种扭曲并给出相应的调整方法,Sent(?)rk和M(?)ller(2005)建立了协变调整的线性回归模型(covariate-adjusted linear regression,CALR),同时通过将该模型转化成变系数模型得到了模型中参数的估计。在第二章中,我们给出了另一种直接估计参数的方法:第一步,用设计变量和响应变量对协变量做回归,从而得到扭曲函数的核平滑估计,继而得到关于不可观测的设计变量的估计和不可观测的响应变量的估计;第二步,利用估计的设计变量和响应变量可得到参数的最小二乘估计。我们证明了新的估计方法所得估计的n1/2一致性和渐近正态性。同时我们给出了一个我们的方法具有更小的渐近方差的充分必要条件。与第二章所讨论的数据类型相同,在第三章中,我们建立了协变调整的非线性模型(covariate-adjusted nonlinear regression,CANLR)并考察了该模型的性质。同样地,在该模型中,设计变量和响应变量不能够直接观测到,观测到的是被一些乘积因子混淆后的版本。由于非线性性的存在,Sent(?)rk和M(?)ller(2005)的估计方法不能直接用到CANLR模型的参数估计上。为此,我们沿用第二章中的估计方法可得设计变量和响应变量的估计,进而利用非线性最小二乘得到参数的估计。同样地,我们考察了n1/2一致性和渐近正态性.然而由于渐近方差的结构非常复杂并且含有很多未知待估的项,我们如果用“正态近似”的方法去构造参数的置信域,效率会很低。为了避免估计渐近方差,我们采用经验似然的方法来构造置信域。尽管在构造的经验似然比中有无穷维的讨厌参数的估计(扭曲函数的估计)插入,经验似然比的渐近分布仍然是卡方的。这就保证了用经验似然比建立置信域是可行的。异常值很有可能是一些含有重要信息的数据点,像污染区域之于环境数据,或者不规则情形之于病人的在线监护数据。人们希望统计方法做到既能够充分利用这些异常值信息又不要对异常值过于敏感。对于此类数据,我们在第四章中主要研究了稳健的非参判别分析。首先我们定义了推广的投影深度(extended projection depth,EPD),然后给出了判别准则—未来的观测值关于哪个总体具有最大EPD,则认为它来自那个总体。我们讨论了基于EPD的判别准则的稳健性质及其误判概率的渐近性质。进一步地,当所考察总体的分布是椭球对称时,基于EPD的判别准则渐近等价于最优的Bayes判别准则。在最后一章中,对于离散随机过程我们给出了将拟似然推断的理论框架稳健化的一般的做法。主要是基于投影深度函数对异常的正交基降低权重,从而得到稳健的正交基.在由稳健的正交基构造的估计函数空间中,我们仍然能够找到具有某些最优性质的估计方程。所得估计方程和估计量都有良好的稳健性质,崩溃点值接近于1/2(p+1)。同时,所得估计量仍然保持渐近正态性。我们还讨论了该估计方法所带来的效率的变化。模拟实验和实际数据的应用进一步阐释了上述各种方法。