论文部分内容阅读
近年来,高维统计数据分析成为统计学研究的热点,几乎所有的大牛统计学家都在研究.高维稀疏数据问题就是其中一类特殊问题.当变量或特征个数远大于样本个数时,很多特征都是噪声而不是信号,它们会影响我们的分析结果.例如,在基因芯片里,基因个数成千上万,而观测个体只有几十或者几百个.从生物学上说,和某种疾病相关的基因也就几十到几百个,剩余的基因都是和疾病无关的.这就产生了一个统计问题,如何提取感兴趣的特征.我们一般把它称为特征选择或变量选择.目前,比较流行的高维数据的变量选择方法有两种:一种是美国斯坦福大学统计系教授Tibshirani提出的称之为Lasso的变量选择方法;另一种是Candes等提出的Dantzig Selector估计. 这两种方法在高维线性回归模型中表现了很好的性质.本文中,我们主要研究利用这两种方法对模型中的未知参数进行估计和预测.在高维线性回归模型中,对参数的估计和预测的研究主要是:假定设计阵满足一定的条件,然后根据误差项的特点对未知参数进行估计和预测.目前,关于设计阵满足的条件的研究很多,其中,2007年,Bickel等提出的限制特征值假设是应用很普遍且较弱的条件之一,当设计阵满足该假设条件时得到的结论对后来的研究具有重要的影响.后来,统计学家们利用该假设得到了很多相关的结论,但是这些结论均依赖于模型中未知参数的稀疏水平的大小. 2012年初,Wang等提出了与Bickel等的限制特征值假设等价的假设,且在其提出的假设下极大地改进了已有的结论.更重要的是,在该假设下得到的结论不依赖于未知参数稀疏水平的大小.因此,该假设的提出,使得高维情形下未知参数的估计和预测的研究有了更进一步的发展.值得注意的是,在Bickel等、Wang等的研究中,均假设误差项服从正态分布,且方差已知.然而,在实际应用中,误差项的方差往往是未知的,或者误差项的分布不确定.本文考虑误差项分布不确定的情形. 本文的主要工作和创新:1)利用Lasso和Dantizg Selector两种方法,研究高维稀疏线性回归模型中未知参数的估计和预测问题:假设模型中的设计阵满足Wang等提出的假设,且误差项的分布不确定,符合实际应用的要求,使得本文的研究具有理论意义,更有实际意义;2)将Dantzig Selector方法应用于稀疏信号的重构问题中,在该部分我们得到了关于限制等距常数的新界和其他有关结果.