线性回归模型中的异常值检测与稳健性估计

来源 :兰州大学 | 被引量 : 1次 | 上传用户:HillTang00009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数据建立的统计模型往往由于受到异常值的影响而缺乏稳定性,使得异常值检测与稳健性估计在模型构建中变得尤为重要.异常值一般分为两种,即在响应值Y上的异常和在预测值X上的异常,前者通常称为竖直异常点,后者通常称为高杠杆值点.本文对常用的异常值检测与稳健性估计方法进行研究,着重探讨在线性回归模型中的异常值检测与稳健性估计问题,并对高维(多元)数据下的正态性检验进行了分析.在第一部分,我们利用残差空间超椭球等高面的概念构造了对已有异常值检测方法的改进方法,并得到稳健的回归参数估计.首先,我们分别利用基于边际相关系数的高维数据影响度量指标(HIM)和基于距离相关系数的HDC判别方法对数据中的异常值进行初步筛选,将数据集中的点分为正常点与异常点两类,然后在初始正常点集的基础上利用稳健的最小截断估计(LTS)方法和残差空间超椭球等高面构造了对初始正常点集误判点的纠正方法,并对初始异常点集中各点的异常值概率进行计算,以进一步纠正误判入异常点集的正常点,最终对异常值检测的准确率进行了进一步的提升.通过对两种数据结构下三种类型异常数据的模拟与真实实例的分析,我们证明了所提方法的有效性,在对异常值进行检测的同时得到了相对稳健的回归参数估计.高维数据的复杂性使得计算效率逐渐降低,在第二部分,我们探讨了几个常用的高维数据降维方法,并利用它们探讨了对数据进行降维后的HIM,HDC和多影响点检测方法MIP的异常值检测效果,发现先对高维数据降维后再进行异常值检测不仅提高了计算效率,而且保持了原有的检测精度.基于主成分分析(PCA),我们构造了对高维(多元)数据的正态性检验方法.由于主成分分析(PCA)可以将高维数据投影到数据可解释性最强的几个低维正交空间方向,根据联合概率密度函数是独立边缘概率密度函数的乘积这一统计性质,结合Jarque-Bera(JB)统计量,我们利用求和与求最大值的方式构造了整合各主成分方向上偏度与峰度信息的统计量对高维(多元)数据的正态性进行检验.通过对正态数据与非正态数据的实验模拟,我们得到收敛于给定置信水平的经验错误率与趋近于1的经验势,并将所得正态性检验方法在两个实际数据集上进行验证.最后,我们将第一部分中得到的改进异常值检测算法与稳健性估计的思想在高维进行拓展.首先,在初步去掉所检测出异常值的基础上利用基于边际相关系数的变量选择方法(SIS)对高维(超高维)数据进行特征筛选;其次,在去掉冗余变量的同时根据稳健的高维稀疏估计方法(Sparse LTS)进一步得到初步的变量选择结果与稳健的稀疏系数估计和基于相应残差的尺度参数估计;然后,在更新正常集的基础上利用基于边际相关系数的SIS变量选择方法与平滑剪切绝对偏差(SCAD)稀疏估计方法对筛选后的模型进行进一步选择与稀疏系数估计,在得到相应残差的稳健尺度参数估计的同时,根据降低维度后的残差超椭球等高面与第一部分中提出的误差修正思想,对高维线性回归模型中的异常值检测精度进行提升,并最终在去掉强影响点后的数据集上进行稳健的稀疏回归系数估计.通过对不同降维与变量选择方法的比较,我们找到相对最优的高维异常值检测策略与稳健稀疏估计方法,并利用高维模拟数据和实例进行了验证.
其他文献
<正>2017年12月26日,中国联通与北京2022年冬奥会和冬残奥会组织委员会签约,成为北京2022年冬奥会和冬残奥会唯一官方通信服务合作伙伴。作为中国联通品牌策略和业务传播服务
随着社会的发展和科技的进步,人们对生活质量提出了更高的要求。笔者介绍了一款以STM32为核心处理器的新型电饭煲的设计过程。该设计包含电源模块、远程通信模块、家电控制模
简要分析配网防误操作的现状及不足,并针对性地提出一种新的配网防误操作系统设计方案,为防误操作系统在配网的推广普及起到积极作用.
医疗卫生费用过快增长问题是当今世界各国政府进行医疗卫生改革的最主要动因,在我国十九大报告中提出健康中国战略,再次强调全面深化医药卫生体制改革,因此分析我国医疗卫生费用过快增长的影响要素以及相应的控制对策符合我国当前国家战略要求和时代需要的。本文基于改革开放以来我国医疗卫生费用增长情况分析,得出在我国实现经济飞跃增长的同时,医疗卫生费用存在过快增长的现实情况。结合过往学者对于医疗卫生费用过快增长的研
幼师形象直接影响幼儿成长,是幼师本质力量作用于幼儿发展的重要桥梁。探究政策维度上的幼师形象及其演进轨迹,可为我们提供关照幼师形象理想状态的新视窗,找到进一步深入洞悉幼师形象社会性与历史性的钥匙。本研究以马克思人学为理论基础,采用文献分析法、历史研究法和案例分析法,探究我国教育政策中幼师形象演进的历程、特点及其价值旨归。本研究涵盖如下内容:第一章为绪论,介绍选题缘由,对核心关键词进行了概念界定,从“
由于近年来频发的未成年人涉嫌犯罪事件被曝光,涉罪未成年人如何矫治,如何能让其更好的回归社会,成为了社会工作者亟待探索的问题。涉罪未成年人心志不成熟,在情绪认知方面的不足,会导致其出现自卑、易怒、内疚等不良情绪。如何运用社会工作专业的小组工作方法有效介入涉罪未成年人情绪管理问题更是值得探讨。本文研究目的是基于对J机构的帮教对象开展情绪管理小组的实务研究,通过对组员在小组活动开展前后的情绪状态的改变和
目的:技术的进步使得同时监测24小时外周和中心动脉血压及血管功能成为可能。但目前有关24小时中心动脉血压监测的研究数据较少,对其短期重复性和临床意义仍不明确。方法:选择在瑞金医院高血压门诊的未治疗患者参加研究。采用德国Mobil-O-Graph监测仪进行动态血压监测。对一个月内重复测量的24小时血压及血管参数进行短期可重复性分析。应用多元线性回归模型比较24小时中心动脉压、外周血压及其变异与靶器官
阐述了利用喷雾热解技术在硅片衬底上生长锰掺杂铝酸锌光致发光纳米薄膜的方法。该纳米薄膜制备方法简单、经济和环保。通过XRD分析测试结果表明,当三氯化铝在氢氧化锌中的含
现代先进的航空发动机不断追求高推重比,这就要求重要结构件及叶片类关键转动部件既要具有高的综合机械性能又要具备良好的耐高温、抗氧化和耐腐蚀等性能。GH3536高温合金喷
目的:探讨2型糖尿病低血糖症的发生及临床治疗.方法:选取我院2008年5月至2012年5月收治的40例2型糖尿病低血糖症患者的临床资料进行回顾性分析。结果:发生低血糖的患者中,有8