缺失数据下的统计估计与变量选择

来源 :云南大学 | 被引量 : 0次 | 上传用户:chenenm0702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文第一部分研究了一类不可忽略缺失数据问题,包括估计方程的统计推断,半参数矩限制模型的有效估计,以及响应变量的分布函数与分位数的估计.它们是统计研究中的热门话题,目前国内外对这一问题的研究大都基于缺失机制为可忽略的假设建立其统计理论和发展新方法.伴随着研究的深入以及数据越来越复杂,越来越多的缺失数据是不可忽略的,现存的处理可忽略缺失数据的方法不能用来处理不可忽略缺失数据.同时,用似然方法处理不可忽略缺失数据会因模型假设错误而产生有严重偏差的估计.因此,我们需要发展新的插补方法对不可忽略缺失数据作统计推断.鉴于此,本文对不可忽略缺失机制建立半参数logistic回归模型,用整体插补思想重新构建不可忽略缺失假设下的无偏估计方程;基于新建的无偏估计方程,我们建立在有辅助信息或没有辅助信息的情况下的经验似然推断过程,并系统地研究讨论了提出的经验似然统计量及经验似然估计的渐近性质.在这项研究中,我们首次将经验似然方法推广应用到不可忽略缺失数据中.半参数矩限制模型因包含无穷维的讨厌参数而具有较广的应用范围,采用类似于估计方程的插补方法,我们讨论了不可忽略缺失数据下半参数矩限制模型的广义矩估计,并给出了保证估计的相合性与渐近正态性的充分条件.与基于经验似然方法的估计方程推断不同,此项研究中提出的方法不需要假设准则函数是光滑的.分布函数是统计中的基本概念,它是我们所观测到的事物随机性的数学函数反应.然而,当数据存在缺失时,这种反应的真实性将会被破坏.基于半参数logistic回归模型,我们提出了不可忽略缺失数据下估计响应变量的分布函数和分位数的增强的逆概率加权查补方法,并系统地讨论了估计的相合性质.  本文第二部分研究了可忽略缺失假设下高维变量模型的参数估计与变量选择.目前,高维数据分析是国际统计研究的前沿,然而,关于缺失数据下高维变量模型的研究却显得很滞后.究其原因主要是目前处理缺失数据大多采用非参数核方法,而非参数核方法会遇到著名的维数祸根问题.为解决这一问题,我们提出可处理高维数据问题的参数多重插补方法,具体来说,从缺失变量的条件分位数中随机抽取数据对缺失的部分填充数值.基于这一参数插补方法,我们对一般的缺失数据模型提出了获得模型参数估计的基于加权混合分位数回归和加权分位数平均估计的填补方法,提出了同时对缺失数据模型做变量选择和估计模型参数的基于SCAD和Adaptive-LASSO准则并给出了其算法,我们在给定的条件下证明了其导出的参数估计的相合性和渐近正态性以及模型选择准则的Oracle性质.不同于先前文献中的一些工作,我们提出的方法对厚尾误差分布或响应值中的异常点不敏感.基于参数插补法,我们研究了可忽略缺失下估计方程的稳健统计推断与半参数有效问题.  本文的最后一个内容研究了带有缺失数据的纵向数据半参数非线性回归模型的经验似然推断.我们通过考虑观测个体内部各观测点间的相关结构并利用估计方程的思想发展了估计模型参数的经验似然方法和逆概率加权似然方法以及估计光滑函数的极大残差调整经验似然方法和查补方法.
其他文献
巨灾风险一般是指可能给人类社会造成巨大经济损失和严重人员伤亡的风险,通常包括地震、洪水、热带气旋等破坏力强大的自然灾害现象。巨灾发生的次数虽然很少,但是一旦发生必将
并行和分布式系统中,多台机器的集成有了越来越多的实际应用。本文用网络计算系统(网格、P2P、云计算等)作为分布式系统中计算资源(磁盘空间、处理器等)调度的典例。网络计算系统
在本论文中,首先研究了时标上的带有无穷时滞的Nicholson型系统,  {x△1(t)=-α1(t)x1(t)+β1(t)x2(t)+m∑j=1c1j(t)∫0-∞kj(s)x1(t+s)△se-γ1j(t)∫0-∞kj(s)x1(t+s)△sx
Hopfπ-余代数是V.G.Turaev在研究三维流形及上链环上主π-丛的Henings-like与Kuperberg-like不变量的基础上引进的一类代数结构,是Hopf代数的一个推广,其中π为一离散群.A.Vie
在众多的统计理论和实际应用研究中,人们通常假设回归模型中的解释变量和响应变量都是可以直接观测的,但在实际问题中由于数据收集者本身的能力和水平的参差致使所收集得到的数
2008年Tetsuo Moriya证明了:当p,q是两个不同的本原字时,若lg(p)=lg(q),则对任意的n,m≥1且(n,m)≠(1,1)都有pnqm是本原字.在本论文第二章中,我们证明了:  (1)若lg(q)|lg(p)且lg(p
本文研究了非线性Choquard方程-△u+W(x)u=∫RN A(x,y)|u(y)|p/|x-y|μ-dy|u|p-2u+g(x),其中N≥3,0<μ<N,2-μ/N<p<2N-μ,且函数W(x),V(x),A(x,y)分别满足一定的条件.本文讨论了两种情
在计算机视觉领域中,自标定方法是摄像机标定的常用方法。该方法选取的标定物一般是基于空间直线的几何关系来形成对摄像机内参数的约束,对于二次曲线作为标定模板还是比较新颖
在信源编码理论中,具有定长消息串-变长码字的信源码比具有变长的消息-一长码字的信源码研究地更为广泛.众所周知,Huffman码是最优的B-V码(B代表定长消息,V代表变长码字),有
数学在高职院校中是学生需要学习的一门重要基础性课程,它对培养高职学生的逻辑思维、空间想象以及计算能力等具有十分重要的作用,因此,在高职的教学中,教师可以在数学目标的