线性回归模型参数估计及异常点检测方法的改进

来源 :山东大学 | 被引量 : 0次 | 上传用户:biuesnow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
线性回归模型作为统计学科中最基础、应用最广泛的数学模型,是探求变量间关系、分析数据有效性的有力工具。本文主要围绕:线性回归模型参数估计方法、线性回归模型异常点检测方法两部分展开研究,针对各自的研究方法给予了理论上的改进与程序上的实现。回归模型建立的目的在于得到变量之间的相关关系,即参数估计。经典的参数估计思想是使估计偏差的平方最小,称为最小二乘估计。在Gauss-Markou假设下,最小二乘估计是无偏估计类中方差最小的估计方法。当自变量之间存在某种近似的线性关系时,会导致最小二乘估计的均方误差很大。前人针对传统方法的不足,提出了主成分估计与岭估计。本文对上述方法进行了综合与改进,提出了K综合主成分估计。该方法将特征值矩阵A按照矩阵XrX特征值的大小划分为人1和人2两部分,并在包含少部分信息的人2中加上K=diag(kq+1,…,kp),其中常数kj≥0,j=q+1,...,p.然后给出了K综合主成分估计在均方误差意义下优于最小二乘估计以及广义岭估计的条件。传统的岭估计只考虑对特征值加同一个常数k的情况,未考虑对不同特征值加不同常数的情况。本文又提出了函数型岭估计,在特征值矩阵人1中加上关于K的函数矩阵F(K)=diag(f1(k1),f2(k2),…,fq(kq)),其中已知函数fi(ki),i=1,...,q满足一定的非负与可微性条件。理论上证明了函数型岭估计在均方误差意义下优于主成分估计和最小二乘估计的条件,以及在广义均方误差意义下优于最小二乘估计的条件。回归模型建立时需要剔除与原定模型偏差大的数据,即异常点检验。本文对异常点检验的常用方法进行了细致的讨论与研究。在数据删除模型中,删除一行或多行样本数据,会遇到设计阵X为非列满秩的情况。而最小二乘估计是基于设计阵列满秩的假设下进行参数估计的。若不满足,则矩阵XTX无法求逆。为了克服这种情况,本文考虑利用广义逆的思想,通过奇异值分解的方法来求矩阵XTX的广义逆;在均值漂移模型中,t统计量是判断异常点的常用统计量。本文利用MATLAB软件编程,随机生成了自变量和误差项的样本数据,根据给定的回归模型计算因变量的值,得到参数的最小二乘估计。并利用对样本点施加“扰动”的思想,对t统计量的灵敏度进行了模拟评估;在异方差模型中,本文将经典的Lagrange乘子法引入异常点检验。将齐方差性假设作为加权最小二乘估计的约束条件,根据Lagrange乘子法的核心思想将此约束最优化问题转化为无约束最优化问题,不再需要构造检验统计量和计算分布函数。最后,本文通过实例进行了方法实现。
其他文献
目的 :观察参芪益髓颗粒对环磷酰胺(CTX)造模小鼠血象及骨髓象的影响。方法 :通过腹腔注射环磷酰胺造模,观察本品对小鼠WBC、RBC、PLT、Hgb及骨髓增生情况的影响。结果 :经参
随着风景园林的建设工程增多和人们对人性化设计的重视,将人性化设计理念应用在风景园林设计中已经成为必然趋势。设计风景园林的主要目的是为了提高人们的生活质量,构建良好
为获得不同运行速度和工况下的高速列车车厢侧墙结构,在拓扑优化结构基础上进行了多目标优化研究.将侧墙夹层板质量、柔度、最大变形作为优化目标,侧墙五段夹层结构的面板和夹
目的:通过检测c-myc和CD-24在结直肠癌、息肉及正常粘膜中的表达情况,分析c-myc和CD-24在结直肠癌发生中的作用以及二者之间的关系。方法:采用免疫组织化学检测技术对60例结直
目的:检测结直肠癌组织中EGFR和HIF-1α的表达水平,探讨二者与结直肠癌临床病理特征间的关系及相关性。方法:选取2012年1月-10月,在青海大学附属医院胃肠肿瘤外科行手术切除,明确
提出一种内嵌碳纤维复合材料(CFRP)的汽车铝合金前纵梁结构,研究了内嵌CFRP对铝合金前纵梁吸能特性的影响。通过仿真验证内嵌CFRP可改善铝合金前纵梁吸能特性,并制备前纵梁试
城市模型模拟是上世纪90年代上半期形成并迅速发展的地学计算理论、方法与应用研究的最重要领域,国外以M.Batty为代表的规划与地理学家们进行了开创性的研究,取得了很多有用
基于国产高分一号卫星数据,建立荒漠化遥感信息产品指标体系,利用风蚀荒漠化影响因子对荒漠化遥感信息进行分级提取。该方法以国产高分一号影像数据为风蚀荒漠化分类特征波段
目的:研究细胞因子诱导的杀伤细胞(cytokine induced killer cells, CIK)联合顺铂对人肺腺癌细胞系A549的细胞毒作用,探讨两者之间是否存在协同作用。方法:取健康人外周血单个核