高维稀疏数据的Lasso和Dantzig Selector方法——高维稀疏线性回归模型

来源 :华北水利水电大学 | 被引量 : 0次 | 上传用户:yumenglu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,高维统计数据分析成为统计学研究的热点,几乎所有的大牛统计学家都在研究.高维稀疏数据问题就是其中一类特殊问题.当变量或特征个数远大于样本个数时,很多特征都是噪声而不是信号,它们会影响我们的分析结果.例如,在基因芯片里,基因个数成千上万,而观测个体只有几十或者几百个.从生物学上说,和某种疾病相关的基因也就几十到几百个,剩余的基因都是和疾病无关的.这就产生了一个统计问题,如何提取感兴趣的特征.我们一般把它称为特征选择或变量选择.目前,比较流行的高维数据的变量选择方法有两种:一种是美国斯坦福大学统计系教授Tibshirani提出的称之为Lasso的变量选择方法;另一种是Candes等提出的Dantzig Selector估计.  这两种方法在高维线性回归模型中表现了很好的性质.本文中,我们主要研究利用这两种方法对模型中的未知参数进行估计和预测.在高维线性回归模型中,对参数的估计和预测的研究主要是:假定设计阵满足一定的条件,然后根据误差项的特点对未知参数进行估计和预测.目前,关于设计阵满足的条件的研究很多,其中,2007年,Bickel等提出的限制特征值假设是应用很普遍且较弱的条件之一,当设计阵满足该假设条件时得到的结论对后来的研究具有重要的影响.后来,统计学家们利用该假设得到了很多相关的结论,但是这些结论均依赖于模型中未知参数的稀疏水平的大小.  2012年初,Wang等提出了与Bickel等的限制特征值假设等价的假设,且在其提出的假设下极大地改进了已有的结论.更重要的是,在该假设下得到的结论不依赖于未知参数稀疏水平的大小.因此,该假设的提出,使得高维情形下未知参数的估计和预测的研究有了更进一步的发展.值得注意的是,在Bickel等、Wang等的研究中,均假设误差项服从正态分布,且方差已知.然而,在实际应用中,误差项的方差往往是未知的,或者误差项的分布不确定.本文考虑误差项分布不确定的情形.  本文的主要工作和创新:1)利用Lasso和Dantizg Selector两种方法,研究高维稀疏线性回归模型中未知参数的估计和预测问题:假设模型中的设计阵满足Wang等提出的假设,且误差项的分布不确定,符合实际应用的要求,使得本文的研究具有理论意义,更有实际意义;2)将Dantzig Selector方法应用于稀疏信号的重构问题中,在该部分我们得到了关于限制等距常数的新界和其他有关结果.
其他文献
线性互补问题(LCP)是数学规划中的基本问题之一,对它的广泛研究始于二十世纪六十年代中期.它由某一给定的向量和某一给定的矩阵所定义的一系列不等式组成,内容涉及丰富的数学
该文研究时滞反应扩散方程行波解的存在性.在第二章和第三章,利用一类二阶时滞微分方程解的存在性理论,通过构造这类时滞微分方程的上、下解,分别研究了含时滞和扩散的Cui-La
在计算机网络中,提供多种实时业务的多媒体通信是当前的研究热点。多播是一个主机向多个主机发送信息(但不是所有主机)的通信方式,涉及多播的应用很多,如多媒体会议、远程教学、数
丢番图逼近是数论的一个重要分支,在丢番图方程和超越理论等方面有着广泛的应用.加性丢番图不等式的研究已经成为丢番图逼近的重要课题之一,引起人们的广泛关注。  1946年,
判定微分方程是否可积或者求其精确解是微分方程论最基本和最重要的问题之一.对于含参数的微分方程,求出使方程可积的参数关系以及使用何种方法来求出这些参数关系对于全面深
股票指数、汇率收益等金融时间序列具有重尾、方差波动性、数据间的相关性强等特点,用传统的分析方法较为困难。本文重点研究随机变量间的的相互关系,利用GARCH模型去除数据的
该文讨论了几类发展方程的数值模拟.第一章考虑两点边值问题和抛物问题的广义Galerkin方法数值模拟,并得到了最优L和H模的误差估计.第二章考虑一维线性Sobolev方程的一阶广义
今天,伴随着信息产业的飞速发展,信息媒体的数字化和计算机网络技术使得人们对数字信息的获取极为迅捷方便,但是由数字化技术自身特性所产生的负面效应——对数字化信息产品的非
一般变分不等式是经典变分不等式的一种极其重要的推广,它为我们研究数学、物理、经济学和工程科学中的许多问题提供了简单的统一框架,也是目前应用数学领域中备受关注的热点
该文所研究的问题涉及到生态系统中有关捕食-被捕食系统、流行病模型等几个常见的生态模型的定性分析,所采用的研究方法是通过构造合适的Lyapunov泛函以及对模型的线性近似系