缺失数据下线性模型回归系数岭估计的大样本性质

来源 :广西师范大学 | 被引量 : 3次 | 上传用户:junemeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在许多实际问题中,由于各种人为或其它不可知因素,都容易导致大量缺失数据的产生,例如,在民意调查、市场调研、医学研究以及社会经济研究等领域中普遍存在数据缺失现象.近年来,缺失数据情形的统计推断已成为当今统计界的一个热门研究领域.在有数据缺失的情况下,通常的统计方法往往不能直接应用,需要对数据进行必要的处理,缺失数据的处理方法常见的有Complete-Case方法和填补法, Complete-Case方法是将有缺失的数据项删除,然后对剩余的项构成的“完全样本”按照通常的统计方法进行统计推断,填补法分为固定填补法和随机填补法,它们都是对缺失值进行必要的补足,继而得到“完全样本”,再按照通常的统计方法进行统计推断.线性模型有很强的实际应用背景,在医学,生物,经济,金融,环境科学及工程技术等领域的数据分析中得到了越来越广泛的应用,在线性模型参数估计理论与方法中,最小二乘法占有中心的基础地位,但当设计矩阵X退化或接近退化时,最小二乘估计变得很不理想,于是一些学者提出了一种新的估计方法――岭估计法,岭估计可以较好地解决设计矩阵接近退化时的统计推断问题.Hoerl和Kennard (Ridge regression biased estimation for non-orthogonal problems[J]. Tech-nometrics, 1970, 12: 55-57.)于1970年提出了岭估计β(k) = (S + kI)?1X Y用来改善最小二乘估计,其中k >; 0, S = X X, X和Y分别为设计变量和响应变量的资料阵, I为单位阵.岭估计的研究和应用一直受到广泛的重视且已经成为目前最有影响的一种有偏估计.岭估计理论研究的早期成果见Hoerl和Kennard (Ridge regression biased estimation fornon-orthogonal problems[J]. Technometrics, 1970, 12: 55-57.)及Farebrothers (Further result onthe mean squared error of ridge regression[J]. J Roy Statist Soc B, 1976, 38: 248-259.)的论文,岭估计理论的系统总结可见王松桂等(线性模型的理论及其应用[M].合肥:安徽教育出版社,1987;线性模型引论[M].北京:高等教育出版社, 2004.)的著作,他们给出了一系列岭估计优于最小二乘估计的充分条件.戴俭华(岭估计优于最小二乘估计的条件[J].数理统计与应用概率, 1994, 9(2): 53-58.)讨论在均方误差意义下岭估计优于最小二乘估计的问题,给出了岭估计优于最小二乘估计的必要条件及较一般的充分条件;王启应(回归系数岭估计的相合性[J].数理统计与应用概率, 1987, 3(1): 42-51.)讨论了岭估计的强相合性、r阶相合性及基于岭回归的误差估计的某些极限性质,获得了同等条件下与通常的最小二乘估计完全同样的大样本性质.大量学者对岭估计做了不同的改进,以期望缩小均方误差来提高估计的精度,对岭估计进一步做改进的文章有很多,都在不同程度上提高了估计的精度.在有约束条件的线性模型中,正如郑昌光(约束条件下的线性估计[J].应用概率统计,1986, 2(1): 5-12.)所言,参数β的约束最小二乘估计β?的均方误差在一定条件下可以变得很大,因此效果也不理想,这就促使人们在β的有偏估计类中寻找一类合理的估计去改进β?.雷庆祝(线性模型中回归系数岭估计的相合性[J].广西师范大学学报, 1999, 10(1): 21-24.)讨论了带齐次等式Rβ= 0约束条件的线性模型中回归系数岭估计的强、弱相合性及均方相合性,得到了弱相合性的充要条件及强相合性的充分条件;史建红(约束线性回归模型回归系数的条件岭型估计[J].山西师范大学学报(自然科学版), 2001, 15(4): 10-16.)在齐次等式Rβ= 0约束条件下提出了线性回归模型的一类新的岭型估计β?(k) = (kW + I)?1β?,证明了β?(k)在一定的正则条件和优良性准则下优于参数β的约束最小二乘估计,并讨论了估计的可容许性.农秀丽,刘万荣,李明辉(非齐次等式约束线性回归模型回归系数的条件岭型估计[J].四川师范大学学报(自然科学版), 2007, 30(6): 721-725.)在非齐次等式Rβ= r约束下提出了约束线性回归模型的一类岭估计,讨论了估计的统计性质,并讨论了其与约束最小二乘估计的关系,在一定的正则条件和优良性准则下证明了参数的岭型估计优于约束最小二乘估计.在现实生活中经常会产生数据缺失现象,但是对缺失数据下线性模型回归系数岭估计的统计推断问题尚未有研究.本文在第二章中研究了固定设计下带线性约束的线性模型,在响应变量有缺失的不完全数据情形,用三种不同的处理方法处理缺失数据,即利用观察到的完全数据对、确定性补足得到的“完全样本”、随机性补足得到的“完全样本”分别给出回归系数岭估计的三种估计,并讨论了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.在第三章中研究了随机设计下带线性约束的线性模型,在响应变量有缺失的不完全数据情形,用三种不同的处理方法处理缺失数据,即利用观察到的完全数据对、确定性补足得到的“完全样本”、随机性补足得到的“完全样本”分别给出回归系数岭估计的三种估计,并讨论了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.本文的特色体现在以下两个方面:1.在MAR缺失机制下,研究了固定设计下带线性约束的线性模型回归系数岭估计的大样本性质,对缺失的响应变量,利用三种不同的缺失数据处理方法给出了回归系数岭估计的三种估计,证明了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.2.在MAR缺失机制下,研究了随机设计下带线性约束的线性模型回归系数岭估计的大样本性质,对缺失的响应变量,利用三种不同的缺失数据处理方法给出了回归系数岭估计的三种估计,证明了估计的强、弱相合性,同时证明了回归系数的任意线性函数的估计的强、弱相合性和渐近正态性.
其他文献
粗糙集理论是波兰学者Pawlak Z.在1982年提出的一种有效处理数据的工具,同一年德国数学家Wille R.提出了分析概念之间层次关系的概念格理论.作为分析数据和发现知识的两种工
期刊
十九世纪的代数学知识体系庞大,它包含置换群、矩阵、代数数论、代数几何等多个分支。到了十九世纪末,数学家开始从众多不同的具体研究对象中抽象出它们的共同特征进行公理化研
“电子商务”这个近来频频曝光的新鲜词,到底所指何物?据信息产业部专家介绍,它主要指企业家利用因特网传递电子数据资料所从事的商务活动,而不仅仅是一些人印象中的个人网
图像作为现实世界信息的重要载体,对它的处理和研究具有重要意义。而图像分割作为图像处理关键的部分,又不容忽视。传统的图像分割方法虽然有很多种,但是,它们或多或少都存在
通过加强瓦斯防治导航系统技术管理,推行数据信息板块管理、优化系统的远程监测功能、及时修改定义准确的系统评价预警参数等,使该系统在郑煤集团公司生产矿井得到了成功应用
课堂是学校教育的主阵地,课堂效果决定教育质量。建设高效课堂,是推进课程改革、实施素质教育的根本途径,也是提升教师教学水平、促进教师专业发展的必然要求。一、转变观念,
求解非线性矩阵方程是科学与工程计算中重要的问题之一.对非线性矩阵方程的研究已经成为数值代数的一个热点课题.本文在已有成果基础上,系统研究了如下五类具有代表性的非线
Finsler几何是在度量上没有二次型限制的黎曼几何([9]).著名数学家黎曼在1854年的就职演说中首次提及这类一般的正则度量几何.但鉴于Finsler几何计算上过于复杂,他将研究限于
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊