论文部分内容阅读
在现代分子生物学中,包含生物生命活动大量信息的测序数据越来越多地被应用于疾病的识别和诊断。然而,此类数据导致的“维度灾难”问题使得传统的数据处理方法无法有效的进行生物信息的挖掘,而且癌症的产生与发展通常只被小部分表达水平改变的基因所标记。因此,如何从高维冗余的生物测序数据中选择出与癌症相关的小部分关键基因是现在面临的重要挑战之一。研究者提出的主成分分析方法(Principal Component Analysis,PCA)作为数据处理的主要手段,受到广泛地关注。此方法通过将数据投影到较低维度的主成分(Principal Component,PC)上来减少数据复杂度,并对数据中的信息进行最大限度的保留,这就使得“维度灾难”问题得到很好的解决。本文通过对现有PCA方法进行改进,并将其应用于癌症基因图谱(The Cancer Genome Atlas,TCGA)中的测序数据。对癌症数据的挖掘与分析有助于我们进一步了解基因与复杂疾病之间的潜在联系,为疾病的预防及基因靶向治疗打下坚实的基础。本文的研究内容主要分为以下四个部分:(1)提出了基于Capped L1范数的图拉普拉斯PCA方法(CgLPCA):该方法将Capped L1范数和图拉普拉斯正则化引入到PCA目标函数中。Capped L1范数可通过对数值设置最大上限值来减小噪声和异常值的影响。图拉普拉斯正则化作为一种非线性的流形学习结构被用来捕获高维空间中的低维结构信息,使得挖掘的信息更加准确全面。在癌症数据集上的实验表明,新算法可以识别更多的差异表达基因。(2)提出了基于双稀疏约束的图拉普拉斯PCA方法(GDSPCA):该方法将双稀疏约束(L1、L2,1)和图拉普拉斯正则化引入到PCA方法中。其中双稀疏约束的联合作用可使数据内部产生行稀疏,从而确定原始空间中每个变量的实际贡献,提高对低维空间中主成分的可解释性。此外,图拉普拉斯正则化的引入可保证隐藏在数据中的几何结构被充分捕获,进一步提高算法的准确性。多视图癌症数据集的相关实验表明该方法可以探寻不同癌症与基因间的潜在联系。(3)提出了基于超图正则的鲁棒PCA方法(HRPCA):该方法通过在损失项上施加L2,1范数来提高对数据异常值的鲁棒性。同时,利用超图正则化的优势来挖掘数据间复杂多变的高阶关系,保证数据模块结构不被破坏,从而提高算法挖掘信息的准确性。该方法在一定程度上提高了样本聚类和识别共特征基因的精度。(4)提出了基于整合的超图正则PCA方法(IHPCA):该方法充分利用了PCA良好的数据处理能力和超图正则化的高阶映射优势,将代表癌症不同方面的组学数据整合到统一的模型框架中以发现相关的预测表型结果。在癌症多组学数据中的相关实验表明该方法有助于发现不同癌症类型的差异表达基因,从而促进癌症的基因靶向治疗。为了验证四种提出的PCA方法在识别差异表达基因方面的有效性,将其应用到各种癌症基因表达数据和多组学数据上,并与其他先进方法进行比较。各项实验结果表明,我们的方法比同类方法更有优势,且可以找到与疾病密切相关的差异表达基因。