论文部分内容阅读
基于数据建立的统计模型往往由于受到异常值的影响而缺乏稳定性,使得异常值检测与稳健性估计在模型构建中变得尤为重要.异常值一般分为两种,即在响应值Y上的异常和在预测值X上的异常,前者通常称为竖直异常点,后者通常称为高杠杆值点.本文对常用的异常值检测与稳健性估计方法进行研究,着重探讨在线性回归模型中的异常值检测与稳健性估计问题,并对高维(多元)数据下的正态性检验进行了分析.在第一部分,我们利用残差空间超椭球等高面的概念构造了对已有异常值检测方法的改进方法,并得到稳健的回归参数估计.首先,我们分别利用基于边际相关系数的高维数据影响度量指标(HIM)和基于距离相关系数的HDC判别方法对数据中的异常值进行初步筛选,将数据集中的点分为正常点与异常点两类,然后在初始正常点集的基础上利用稳健的最小截断估计(LTS)方法和残差空间超椭球等高面构造了对初始正常点集误判点的纠正方法,并对初始异常点集中各点的异常值概率进行计算,以进一步纠正误判入异常点集的正常点,最终对异常值检测的准确率进行了进一步的提升.通过对两种数据结构下三种类型异常数据的模拟与真实实例的分析,我们证明了所提方法的有效性,在对异常值进行检测的同时得到了相对稳健的回归参数估计.高维数据的复杂性使得计算效率逐渐降低,在第二部分,我们探讨了几个常用的高维数据降维方法,并利用它们探讨了对数据进行降维后的HIM,HDC和多影响点检测方法MIP的异常值检测效果,发现先对高维数据降维后再进行异常值检测不仅提高了计算效率,而且保持了原有的检测精度.基于主成分分析(PCA),我们构造了对高维(多元)数据的正态性检验方法.由于主成分分析(PCA)可以将高维数据投影到数据可解释性最强的几个低维正交空间方向,根据联合概率密度函数是独立边缘概率密度函数的乘积这一统计性质,结合Jarque-Bera(JB)统计量,我们利用求和与求最大值的方式构造了整合各主成分方向上偏度与峰度信息的统计量对高维(多元)数据的正态性进行检验.通过对正态数据与非正态数据的实验模拟,我们得到收敛于给定置信水平的经验错误率与趋近于1的经验势,并将所得正态性检验方法在两个实际数据集上进行验证.最后,我们将第一部分中得到的改进异常值检测算法与稳健性估计的思想在高维进行拓展.首先,在初步去掉所检测出异常值的基础上利用基于边际相关系数的变量选择方法(SIS)对高维(超高维)数据进行特征筛选;其次,在去掉冗余变量的同时根据稳健的高维稀疏估计方法(Sparse LTS)进一步得到初步的变量选择结果与稳健的稀疏系数估计和基于相应残差的尺度参数估计;然后,在更新正常集的基础上利用基于边际相关系数的SIS变量选择方法与平滑剪切绝对偏差(SCAD)稀疏估计方法对筛选后的模型进行进一步选择与稀疏系数估计,在得到相应残差的稳健尺度参数估计的同时,根据降低维度后的残差超椭球等高面与第一部分中提出的误差修正思想,对高维线性回归模型中的异常值检测精度进行提升,并最终在去掉强影响点后的数据集上进行稳健的稀疏回归系数估计.通过对不同降维与变量选择方法的比较,我们找到相对最优的高维异常值检测策略与稳健稀疏估计方法,并利用高维模拟数据和实例进行了验证.