几种缺失数据和高维数据模型的统计分析

来源 :山东大学 | 被引量 : 0次 | 上传用户:sunny_cui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在社会调研、生物医学、经济管理等领域中,由于种种原因,常常会收集到大量的缺失数据,另一方面,在基因生命科学、金融数学等领域中,随着科技的发展可以获得的数据维数越来越高,又会频繁出现大量的高维数据。数据缺失的复杂性和数据的高维特性使得传统的统计方法不再适合,于是,如何在数据缺失或者高维的情况下进行有效的统计推断引起了很多学者的关注。对于缺失数据,在近80年的研究过程中取得了很多的研究成果,一系列处理缺失数据的有效方法被提出(见Rubin和Little(2002),Cao(2009)等)。对于高维数据,由于数据本质上往往都是稀疏数据,因而变量选择问题成为高维数据的核心问题之一,特别是近几年,高维数据的变量选择成为了统计界的热点之一.一系列有效的变量选择方法被提出(见Fan和Lv(2010),Candes和Tao(2007)等)。然而,对于缺失数据下统计推断方法以及高维数据下变量选择方法的研究还不够充分。为此,本文进一步研究了缺失数据下线性泛函、估计方程的统计推断问题、估计方程的冗余性问题以及高维数据下的变量选择问题。线性泛函包括变量的均值,高阶矩及混合高阶矩等,对它的统计推断是统计中重要的问题之一。第二章我们研究了数据缺失下线性泛函的估计问题。通常会用条件期望的估计来补充缺失数据,条件期望可能被假定为参数或者非参数结构,但是前者会产生模型误定风险,后者会产生非参数高维问题。由于在处理缺失数据下均值的估计中,Hu.Follmann和Qin(2010)提出了均值函数的可修复条件,通过构造多元函数把高维数据映射为一维数据,然后再进行非参数回归插补,这样既有效的避免非参数估计的高维问题,又保证了插补的回归函数的估计是无偏的。受此启发,我们提出线性泛函的可修复条件,用同样的办法得到缺失数据下响应变量和协变量的线性统计泛函的半参数降维推断,并考察了估计的相合性和渐近正态性,数值模拟也进一步验证了此方法的在偏和方差上的优势,从而有效地解决了一类统计推断问题。很多传统统计推断方法例如最小二乘法、最大似然等方法等都可以归结为一个基于估计方程的统计推断问题,因而对估计方程的统计推断具有一定的普适性,近20年来得到了越来越多的关注.但是在缺失数据下有关估计方程的文献不多见.值得一提的是Wang和Chen(2009)和Zhou, Wan和Wang(2008)两篇文章,前者用分布函数估计后抽样获得缺失数据,插补到估计方程后取平均值后再作为插补部分的估计方程,其实是估计函数的条件均值的非参数估计,而后者直接估计函数的条件均值非参数估计来插补估计函数,两者插补的估计函数都是无偏的,但是相应的经验似然比都不收敛于标准卡方,而是卡方变量的加权和,其中的权重是未知的,这会对找置信区间造成一定的困难.分析其原因,主要是他们采用了相同的利用插补估计函数的方法-部分插补法即数据完全的用原估计方程,数据缺失的用插补估计方程.为此,第三章的主要工作就是将逆概率加权以及推广的逆概率加权方法应用到缺失数据下估计方程的统计推断中,分析了相应估计的相合性和渐近正态性,似然比统计量的渐近性质,结果表明,两种估计的渐近结果基本一致;相应的经验似然比渐近卡方分布,避免了调整经验似然。模拟实验也进一步说明我们的方法的优势。在缺失数据下一般估计方程的经验似然参数估计中出现了一类奇异现象,即用选择概率函数估计加权要比用真实的选择概率函数好,甚至选择概率函数是已知的(Qin, Zhang和Leung(2009)),同时,由于在实际问题中,可以构造许多估计方程,因而随之而来的问题是增加估计方程是否就一定可以增加兴趣参数估计的效.为此,第四章我们提出了估计方程的冗余性和偏冗余性以及参数的冗余性的概念,考察了各种情形下经验似然估计的效,给出了冗余性的等价条件,并解释了上述奇异现象。模拟实验更进一步的说明估计方程的冗余性现象.高维数据的变量选择是当今统计研究的热门之一,主要方法就是基于线性模型惩罚类降维方法(Fan和Lv(2010))和基于线性规划类降维方法(Candes和Tao(2007)).前者主要基于线性模型然后再加上各种对参数的惩罚条件如lasso等,后者主要是基于统计相关性约束下求参数的范数最小化问题即dantzig估计等.由于后者在算法上的优势,自问世以来就受到很多关注,但是除非满足不可表达的条件,Dantzig估计模型选择不一致,另一方面,对于重要的和不重要的变量之间存在很强的相关性的时候,dantzig估计效果一般不好.为解决这两个问题,第五章提出对dantzig估计的进一步改进,一方面提出了基于岭和dantzig结合的岭dantzig估计,另一方而,提出基于bootstrap模型选择一致性的dantzig估计,基本思想就是重要的变量被选择的概率总是会大,基于重抽样数据选择出变量的交集是重要变量的概率较大.数值模拟和实证分析显示了我们所提出的两种方法的优势。
其他文献
目的:观察电针头穴及督脉穴对帕金森病的临床效果,分析其治疗机制.方法:64例患者随机分为治疗组36例,对照组28例,治疗组在西药美多巴治疗基础上采用电针头部穴位和督脉穴疗法
激光冷却和俘获原子的研究中,一般认为激光是空间完全相干和时间完全相干的光源。本文的工作主要是探究空间部分相干激光与中性原子之间的相互作用,以及冷却激光的空间相干性
在城市道路路段及交叉口范围内,行人过街时往往会伴随着与机动车和非机动车等交通工具争夺时空资源的现象发生。长期以来,我国的交通规划重视机动车而忽略包括步行等其他交通
根据田野调查中发现的大量清代及民国时期怀庆府地区修建祖师庙以及朝顶进香的碑刻,结合相关文献资料,指出清代怀庆府地区的真武大帝(当地称祖师爷)信众涉及各个阶层,包括官
<正>线粒体是人类细胞的重要组成成分,其基本功能是将外界摄取来的葡萄糖、氨基酸和脂肪通过位于其内膜上呼吸链的氧化磷酸化作用来产生机体活动所需要的能量。线粒体氧化磷
站在国内消费升级、人民美好生活需要日益增长的重要关口,&#39;客户至上、体验为王&#39;的新商业秩序正主宰着信用卡产业的优胜劣汰,驱动各大信用卡中心加速打造&#39;千人千
企业办社会,是计划经济时期的特殊制度安排,实质上是企业承担政府应进行的社会管理、提供公共服务和公共产品的一部分社会职能。国有企业办社会有历史和体制的原因。改革开放
传统长壁式开采需要留设护巷煤柱,受到“三高一扰动”的影响,护巷煤柱围岩松散破碎,自身承载能力弱,支护构件失效频繁,巷道顶板网兜严重、帮部剧烈鼓出、底臌大变形,巷道频繁
目的:观察中西医结合治疗结直肠癌术后肠麻痹的临床疗效。方法:将88例患者随机分为观察组46例和对照组42例。对照组患者术后给予常规治疗,观察组在对照组的基础上联合中药治