论文部分内容阅读
随着科学技术的进步,数据的产生、存储方式发生重大变革。数据来源越来越多样化。一方面,数据的主体、格式等越来越丰富,另一方面,数据的测量维度也不断拓宽。多源数据累积成海量数据信息。由于数据本身的复杂性,大量数据无标签、无类别。对海量数据进行标签,时间久、成本高、异常困难。因此,如何有效地利用多测量维度数据,融合多个数据集信息进行无监督学习是目前统计研究的重要方向之一。主成分分析与图模型是无监督学习的重要方法。主成分分析作为重要的降维技术之一,随着数据分析维度的不断增大,重要性日益凸显。图模型是研究变量间综合关系的重要工具,在基因组数据分析、文本分析等领域应用广泛。虽然主成分分析与图模型近些年来得到广泛发展,但针对“噪音”较大的高维小样本数据,单一数据集分析的结果往往具有不稳定性且模型结果再现性差。很多有监督学习框架下的文献指出,整合分析能够将多个数据集信息、多种测量维度信息进行融合,在高维数据处理中其模型表现显著优于单一数据集分析。考虑到数据呈现出的多源性、无标签性以及无监督学习和整合分析的重要性,基于对整合分析、主成分分析以及图模型文献的梳理与概括,本文将从以下几个方面对整合无监督学习进行研究:(1)本文提出了多数据集整合稀疏主成分分析方法(iSPCA,integrative Sparse Principal Component Analysis)。为了有效地剔除数据噪音并提高结果解释性,稀疏主成分分析成为了主成分研究的一个重要方向。由于数据维度高、样本量小等特点,针对单一数据集的稀疏主成分分析结果并不令人满意。本文整合具有相似分析目的的多个数据集进行稀疏主成分分析,以鼓励数据集间相互借助信息。本文采用惩罚的方式正则化估计并选择重要主成分因子载荷。并通过差异惩罚鼓励数据集间因子载荷的相似性,以提高模型估计和变量选择的准确性。本文给出了所提模型的统计性质、算法,并通过大量的模拟验证了 iSPCA方法的表现。最后本文将该方法应用于实际的癌症分析中。(2)本文提出了多数据集近似单因子整合图模型(SFIG,approximate Single Factor Integrative Graphical model)。在一些情况下,由于共同因子的存在,变量之间的条件结构关系稠密且不具解释性。近似单因子图模型剔除变量共同因子后建立图模型,可剔除变量之间的伪依赖关系。但在近似单因子图模型中,待估参数众多,为提高模型参数估计与网络结构构建效果,本文提出了多数据集近似单因子整合图模型。采用惩罚的方式同时估计不同数据集的因子载荷和异质成分的精度矩阵。本文针对该模型提出了有效的算法,通过大量的模拟实验验证了模型有限样本下的有效性。最后,本文将SFIG模型用于分析乳腺癌数据。(3)本文提出了核心变量的多测量维度整合图模型(MIGM,Multidimensional Integrative Graphical Model)。随着数据采集技术的发展,多测量维度信息收集成为可能。除核心变量外(所关心变量),针对同一样本同样可以获得其他辅助信息。本文以基因表达数据为例,研究如何借助基因表达控制变量还原部分基因表达数据信息以构建更为精确的基因表达图结构。本文根据辅助变量与核心变量间的调控关系,提出了新的协方差矩阵估计方法,并采用数据驱动的权重进行图模型的构建。所提方法具有直观意义,适应于多种调控情形。本文给出了 MIGM的统计性质,并通过大量的模拟以及乳腺癌数据实证分析说明了 MIGM在有限样本下的模型表现。(4)本文提出了基于条件得分匹配损失的多测量维度整合图模型(iSME,multidimensional integrative graphical model based on the conditional Score Matching Estimator)。一些情况下,我们关心给定辅助变量时核心变量的网络结构以及辅助变量对核心变量的直接影响。已有文献或计算复杂或不能估计辅助变量对核心变量的直接影响,存在一定的局限。本文基于条件分布整合多个测量维度数据,采用正则化的条件得分匹配损失函数估计给定辅助变量时核心变量的网络结构以及辅助变量对核心变量的直接影响,方法直观且计算简便。本文给出了所提模型的统计性质、算法,并通过大量的模拟验证了 iSME方法的表现。最后本文将该方法应用于实际的癌症分析中。