论文部分内容阅读
随着科学技术的飞速发展和数据收集成本不断的降低,超高维数据频繁出现在许多科学领域,例如基因组学,生物影像,肿瘤分类,经济学,高频率交易,机器学习等。这类数据的典型特点是它的维数p远远大于样本容量n,具体来说按照Fan等(2009)的定义,存在常数α∈(0,1/2),使得:logp=O(nα),即所谓超高维。在稀疏性假设下,如何从超高维数据中筛选出对响应变量真正起作用的少数重要协变量是这类问题的核心。传统的惩罚类型变量选择方法在处理这类问题时,总会碰到以下三个方面的问题:计算复杂性、统计准确性和算法稳定性。与变量选择思想不同,特征筛选通过一种快速筛选方法把那些明显不相关的协变量排除,从而使协变量的维数降到一个相对温和的程度,这样传统的变量选择方法可以顺利使用得出最后模型及相关估计。因此,超高维数据特征筛选是一个很有意义的研究方向。为此,本文对超高维纵向数据和带组结构数据展开若干筛选研究,主要内容如下:(1)在可加模型假定下,我们提出一种利用边际非参数回归的方法处理超高维纵向数据的筛选问题。不同于以往大多数特征筛选问题,纵向数据带有内部相关性。我们利用标准B样条基进行边际非参数回归拟合,并根据拟合程度来衡量各个协变量的重要程度。在一定条件下,可以证明我们的筛选方法具有确保筛选性质。从算法角度,我们提出一种基于数据驱动选取阈值下的先筛选,后变量选择的迭代算法INIS-SAM及其贪婪版本。为进一步控制最后选取模型的大小,我们把一种数据劈开的方法应用到筛选中,得到split-INIS-SAM。模拟显示我们方法的良好有限样本表现,同时通过对酵母细胞周期循环基因表达数据集的分析,展现我们筛选方法的优点。(2)在线性模型的假设下,我们提出一种边际的超高维组变量筛选方法来处理这类带组结构的筛选问题。借鉴单变量筛选的想法,我们分别对各组变量和响应变量做线性拟合,并根据拟合大小来衡量各个组变量的重要程度。理论上,我们证明在一定条件下,组筛选方法具有确保筛选性质。为增强组筛选方法的有限样本表现,我们先给出一种数据驱动的阈值选取方法,并基于它提出迭代版本组筛选方法ISIS-Group-Lasso及其贪婪版本g-ISIS-Group-Lasso。模拟结果显示我们的组筛选方法优于其他组变量筛选方法,并且我们还将这种组筛选方法应用到一个克隆数据的研究中,取得较好的效果。(3)为处理超高维带组结构的数据,我们进一步提出一种无模型假定的边际分位数组筛选方法。它通过基于分位数边际拟合指标来刻画组变量的相对重要程度,且这种方法不需要任何关于协变量矩方面的假设。为了对超高维带组结构数据有更全面的认识,我们允许重要组变量集可以随着分位数的变化而变化。理论上,在相对较弱的条件下,我们的组筛选方法也具有确保筛选性质。与其他组选择方法相比,我们的基于分位数自适应筛选有更好的有限样本表现。最后,我们通过一个基因通路实例数据呈现我们方法的优点。本文的筛选方法丰富了超高维纵向数据和超高维带组结构数据的特征筛选研究,将有助于基因学、生物医学影像和经济学等各个领域中进行重要变量或组变量的选择,从而达到提高计算速度、精简模型和提高预测精度的目的。