若干高维模型变量选择和模型重建问题的研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:owenyhz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在过去的几十年内,随着网络的日趋发达和计算机存储功能的日益强大,人们可以搜集到金融市场,基因表达,组合化学和其他许多领域内的很多大型数据集。这些数据集通常具有很高的维数(大p,小n)。如果我们直接利用这几万或几十万甚至更多的变量来建模的话,成本会非常高,而且预测效果也会很差。变量选择就是一种从这些变量中选择重要的相关变量来达到稳健建模的技术。本文主要考察了两个方面的问题:变量选择和模型纠偏。一方面,我们研究了种流行的变量选择方法Dantzig选择器的模型选择的相合性,接着我们又研究了适应的Dantzig选择器的大样本性质。二者都是在高维线性模型的背景下研究的。另一方面,对于有偏的子模型,我们通过在模型中添加一个非参项来调整子模型,从而部分地纠正了子模型的偏。关于高维变量选择问题,已经有很多种处理的方法。Dantzig选择器,作为一种有效的变量选择方法,是由Candes and Tao(2007)提出来的,这种方法现在已经成为一种非常流行的变量选择方法。但是它的大样本性质,除了Dickcr and Lin(2009)以外,几乎没有别的文献研究过.Dickcr and Lin(2009)研究了在随机设计,变量个数p是固定的情形下,Dantzig选择器的模型选择相合性。在我们论文的第二章中,我们考虑的是在固定设计的假设下,得到了无论p是固定的还是大于n的时候,Dantzig选择器的模型选择相合性。考虑如下的线性模型其中y=(Y1,Y2,…,Yn)’是一个n×1的响应变量,X=(X1,X2,…,Xn)’=(X1,Xp)是一个n×p维的固定设计阵,其中Xi是x的第i行,而Xj是x的第j列,ε=(ε1,ε2,…εn)是一个n维的独立同分布的误差项,满足E(ε1)=0和E(ε12)=σ2.令T*={j:βj≠0},即我们用T*来表示真模型的变量的下标的集合。对于{1,….p}的一个子集T,|T|表示子集T中元素的个数,T表示子集T在全集{1,2.….p}上的补集。βT=(βj)j∈T表示β对应于下标在集合T中的分量所构成的|T|×1的向量。记C=X’X/n对于{1,2,…,p}中的子集T1.T2,我们用CT1,T2来表示由矩阵C的分别对应于子集T1,T2中元素的那些行和列所构成的|T1|×|T2|矩阵。我们首先定义了在固定设计下,Dantzig选择器的不可表示条件。假设对于某个E∈{1:2,….,p}满足|E|=|T*|,Cr*,E是可逆的,则不可表示条件定义为:·不等式成立并且存在一个正常数η满足其中1是一个每个分量都是1的(p一q)×1维向量,并且|.|表示上面的不等式成立指的是不等式的左侧的向量中每个分量的绝对值逐个与右侧的分量比较。这里的不可表示条件指的是不显著的变量不可能由显著变量表示。不可表示条件对于Dantzig选择器的相合性具有非常重要的作用。在不可表示条件成立的条件下我们得到了,无论p(变量个数)是固定的,还是随着n增大的,甚至是关于n以指数的速度增长,Dantzig选择器都是模型选择相合的。这里的相合指的是依概率符号相合,即其中βD(λ)is Dantzig选择器的解,λ是惩罚参数.我们还研究了变量选择后的传统的参数估计的相合性。我们得到了如果显著变量的个数满足q=o(n),变量选择后的传统的参数估计是也是相合的。正如我们在上面的第二章中证明的,只要潜在的真模型满足不可表示条件,Dantzig选择器就具有相合性,但是当不可表示条件不成立的时候,模型选择的相合性就不再满足了。此外,Dantzig估计也达不到Fan and Li(2001)和Fan and Pcng(2004)里给出的oracle性质。我们发现Dantzig选择器的惩罚方式有些不公平,因为所有大小的系数惩罚的程度都是一样的。因此,在第三章中,我们给不同大小的系数施加不同程度的惩罚,给出了一种加权的Dantzig选择器,这也就是所谓的适应的Dantzig选择器,对于适应的Dantzig选择器,我们研究了它在稀疏高维线性模型下的,对于不同大小的p的渐近性质。我们证明了只要能得到一个合理的初始估计,在适当的条件下,而无需满足不可表示条件,适应的Dantzig选择器具有oracle性质,不管p以多项式的速度还是以指数的速度趋于无穷。即适应的Dantzig选择器的解β(ADS)满足下面两条:(a)P(β(ADS)=sβ)→1,n→+∞(b).(?)(β(ADS)T-βT)→DN(0,1),其中sn2=σ2(?)n’∈Rq满足║(?)n║≤1.第三章的最后,我们对于p≤n和p>n分别给出了都给出了恰当的初始估计作为适应的Dantzig选择器的权重。在实际应用中,重要变量通常是依据于实际经验被选出来的。例如,在医学上,寻找某种癌症的致病基因都是取决于临床试验,这种做法通常是不可能把所有与癌症有关的基因都选出来的。此外,在某些情况下,既使我们使用一种模型选择相合的变量选择方法,例如Dantzig选择器,我们在一次选择中,也不可能保证总能成功的选出真模型。因此,在实际应用中,我们的子模型通常都是有偏的。如果我们就用这个有偏的子模型来做预测或控制的话,肯定得不到好的结果。因此,纠正或者减小子模型的偏是一件非常必要也是非常有意义的事情。在第四章中,我们对子模型进行重新建模,使得新的模型是可识别的并且无偏的。这里我们不再考虑线性模型,而是考虑一类更广泛的模型-部分线性模型。它的定义为其中Y2响应变量Y的独立同分布的观测值,(Τi,Χi’,Ζi’)是协变量(T.X’,z’)的观测值,β=(β1,...,βp)’是一个p维的未知参数向量,γ=(γ1…,γq)’是一个q维的未知参数向量,g(·)是一个未知函数.为了避免维数灾难问题,我们简单的假设T是一维的,ξis是独立同分布的误差项满足这里γ的维数q可能很高甚至随着样本量的增大趋于无穷。我们假设z是相对来说不太相关的变量因此被从全模型中剔除掉了。我们记所得到的子模型为这样的一个子模型是有偏的,因为剔除掉的Z的系数γ中的分量只是相对较小,而非全为零。为了解决此问题,我们利用非参调整的方法得到一个局部无偏的子模型。调整后的子模型形如其中T是某个给定的已知向量。这里提到的局部无偏的子模型指的是我们可以构造一个样本子空间,能够证明当样本落入该给定的子空间的时候,无论是基于调整子模型得到的调整的约束模型估计还是调整的预设检验估计都是相合的。虽然我们只是部分地纠了子模型的偏,但值得庆幸的是,从某种意义上来讲,这样的一个子空间还是足够大的。所以这样的一个局部无偏是接近于全局无偏的。模拟实验和实际数据的应用进一步阐释了文中介绍的各种方法。
其他文献
近几年我国新农药的试验示范工作进展很快,杀菌剂方面找到了一批对难治病害有良好药效的品种,杀虫剂方面发展了一批高效低毒和低残毒的品种,为代替对人畜有剧毒的1605、1059
在调研重庆市城口县锰钡产业基础上,通过SWOT矩阵对其内、外部环境分析,提出城口县锰钡产业应走一条效益优先,科技推进,适度倾斜,发挥资源优势的绿色发展之路。
双孢蘑菇新品种W192是应用双孢蘑菇同核不育株间杂交技术选育而成的,与目前当家品种As2796相比,具有耐肥、耐水、抗高温性能好、转潮快、子实体成活率高、丛生菇少、产量高等
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
近年来,随着中国市场经济的不断完善与开放程度的不断加深,涉及转售价格维持的法律案例也越来越多,如反垄断监管机构诉奔驰等跨国汽车厂商对零售商转售价格维持案、茅台五粮
目的分析奥沙利铂、氟尿嘧啶联合亚叶酸钙治疗消化道癌的治疗效果。方法将142例患者随机分为治疗组和对照组各71例,治疗组71例患者采用奥沙利铂、氟尿嘧啶联合亚叶酸钙进行治
认罪认罚制度可以说是我国司法制度调整中最重要的一次尝试,该制度的存在有效提升了司法资源配置的合理性。本文从认罪认罚制度的制度设计目标出发,对认罪认罚制度的完善策略
叙述了航空发动机钛合金零部件的燃烧问题 ,介绍了国外阻燃涂层和阻燃钛合金的研究和应用状况
电子商务的高速发展已经深刻地改变了人们的生活方式。数据显示,我国电子商务交易规模已超20万亿,雄踞全球第一。但网络交易规模急剧扩张的同时也带来了愈发严重的专利侵权问
随着我国人民生活水平与质量的不断提高,人们对新鲜农产品的需求不断增加。农产品冷链物流已成为物流的一个新领域,越来越多地引起社会各界的重视。农产品配送为农产品冷链物