论文部分内容阅读
近十几年,大规模的数据集呈爆炸式增长,医学、生物学、工程、经济与金融领域中的大数据也越来越普遍.其中,在生物学和生命科学领域,高通量测序技术的快速发展,使得该学科不断地产生各类大规模的数据集.而且随着测序技术在医疗、制药、环境与能源领域中应用的深入,数据的维数越来越大,数据的层次也越来越复杂,如何将多个数据进行综合分析从噪音中分离出有价值的信息是个很值得研究的问题.与单个数据集相比,整合分析不仅可以利用更多的样本,还可以充分利用多个数据集间的关系从而得到额外的信息.由于单数据集中,变量的维数已经很高(远大于样本量),基于这些单数据集的整合分析面临的一大困难便是数据降维.在本文中,我们考虑利用多个数据集的特点构造惩罚函数,从高维的协变量中选出与响应变量有关联的变量,从而有效地解决了高维多数据集的整合分析问题. 本文的内容包括两个部分,第一部分为同水平下的多数据集整合分析,主要是将多个独立研究中产生的同类型数据集进行整合分析.第二部分为不同水平下的数据集整合分析,主要是指将由不同平台产生的、反应了相同样本的多个不同层面的数据集进行整合分析. 第一部分的内容主要有两点.第一点,在多个相互独立的同水平数据集下,提出了具有光滑系数效果的contrast惩罚函数.在利用高通量的基因谱数据进行癌症研究时,整合分析可以有效地利用多个相互独立的数据集进行建模,得到结果要优于经典的Meta分析和单数据集分析.如果研究的目的是挑选重要的候选基因,我们可以利用同质模型和异质模型来刻画相互独立的数据集.由于异质模型比同质模型更广泛,在这里,我们考虑在异质模型下进行变量选择.惩罚函数已被广泛用来变量选择,我们的贡献在于引入contrast惩罚函数,它可以很好地适应单数据集内部的协变量结构,以及多数据集之间的协变量结构,而且还可以提高变量选择的准确性.在具体操作中,我们利用惩罚函数来光滑同一基因在不同数据集上的系数.基于Coordinate Descent算法,我们给出了可以较快地求解带contrast的组Bridge惩罚的迭代算法.模拟计算表明,与组Bridge相比,我们的方法可以明显地提高变量选择的准确性,主要表现为,在识别出相近数目的重要变量下,contrasted方法可以有效地降低错选的重要变量.利用该方法分析协变量为基因表达量的乳腺癌数据和肺癌数据,同基准方法相比,我们的方法有着更好的模型预报准确性.第二点为对于同水平数据集的实证研究.在边际分析和联合分析框架下,我们回顾了一些常用的变量选择方法,并运用这些方法分析了26个基因表达谱数据.我们通过挑选的候选基因集的交集来度量各数据集间的相似性.基于5种癌症的26个GEO(Gene Expression Omnibus)数据集的分析结果表明,在同一种癌症的不同数据集上挑选的重要基因差异较大,不同癌症的数据集间共有的基因数目较少. 第二部分的内容也有两点.第一点,为了综合考虑环境变量、基因以及它们的交互作用,我们基于秩估计来识别基因-环境交互作用.目前常用的方法是基于参数或半参数模型的假定,因而有模型误判的问题.此外,这些方法一般基于多重假设检验.我们提出的方法并不需要特定的模型假定,而且所使用的秩估计方法十分稳健.许多常用的统计模型均在该框架内,因而具有稳健性.我们利用变量选择方法,可以同时进行系数估计和变量选择.为了简便,我们考虑光滑的秩估计方法.模拟计算表明,在特定的情形下,例如误差带污染或为厚尾分布时,我们的方法在变量识别的准确性上要优于已有的方法.利用该方法分析响应变量为带右删失的生存时间、协变量为基因表达量的肺癌数据,识别出的基因和交互作用均有着重要的生物学意义.第二点,为研究不同平台变量间的作用机制从而更好的理解癌症的生理过程,我们在多元响应变量的框架下,提出新的惩罚函数(Double Laplacian Shrinkage,DLS).DLS是MCP和两个Laplacian二次项的组合,其利用MCP进行变量选择,并利用两个Laplacian二次项分别光滑对应于协变量和响应变量的系数.我们提出的这种方法可以同时利用协变量与响应变量内部的网络结构信息来提高变量选择以及模型预报的准确性. 尽管本文实例分析中的数据均来自生物医学数据,但提出的方法也可以应用到经济、金融、工程等领域.