论文部分内容阅读
在生物信息,图像处理,金融管理等实际应用领域中频繁地遇到高维数据,但是即使是在最简单的线性回归模型下传统的低维数据处理方法面对这样的数据时都变得束手无策,如何给出合适的高维数据处理方法是丞待解决的一个问题.处理高维数据一个最直接的想法就是通过降维把变量的维数降到样本个数范围内,然后用传统的方法进行处理.近年来,在高维回归的变量选择中,LASSO,SCAD,MCP等大量的正则化变量选择方法被提出,并得到了一些好的结果.然而,这样的方法都依赖于其中调节参数(正则化参数)的选择.因此,提供一个合适的调节参数选择方法,保证它能一致地识别出真模型是进行模型选择的关键. 在传统的统计学习中,基于交叉验证的方法被广泛地使用于调节参数的选择,然而在面对高维数据时它同样表现出了不好的性能.鉴于最近提出的组块3×2交叉验证在计算复杂度,模型选择和模型性能对照上的优势,我们考虑把它应用于高维回归中正则化变量选择方法的调节参数选择. 首先,本文证明了在一定条件下,基于组块3×2交叉验证方法选择的调节参数能保证高维回归中正则化变量选择方法能识别出真模型,即组块3×2交叉验证方法具有调节参数选择的一致性.接着,在基于线性回归和Logistic回归的模拟实验中,我们把本文方法和AIc准则,BIC准则,EBIC准则,HBIC准则,Hold-Out方法,5折交叉验证,10折交叉验证方法进行了对照.综合考虑各调节参数选择方法的错误的正例(False Positive),错误的负例(False Negative),预测误差以及计算复杂度,基于组块3×2交叉验证的方法是有优势的.最后,在真实的广告数据中,通过比较各方法的训练误差,测试误差及计算复杂度可以看出,组块3×2交叉验证方法具有比其它方法更好或可比的性能.