论文部分内容阅读
随着癌症基因组图谱(The Cancer Genome Atlas,TCGA)计划和人类细胞图谱(The Human Cell Atlas,THCA)计划的开展,产生了海量的生物组学数据。这些组学数据中含有关于生物功能与基因调控的重要信息,对其进行挖掘研究可为探索疾病的产生、预防和治疗提供有效的帮助。生物组学数据具有高维小样本的特点,矩阵分解方法作为一种有效的降维技术已得到诸多学者的广泛关注。然而,当数据中含有噪声和异常值或数据中的流形结构被忽略时,传统矩阵分解方法的性能易受到影响。本文旨在通过对现存的非负矩阵分解(Non-negative Matrix Factorization,NMF)方法和低秩表示(Low-rank Representation,LRR)方法进行完善和改进,并将其成功应用于组学数据,具体研究内容如下:(1)针对生物组学数据含有高维性、流形结构等特点,提出了基于图正则的鲁棒非负矩阵分解方法(GrRNMF)。该方法通过施加图正则约束以将数据样本之间的内部联系考虑到算法中,充分利用数据中包含的成对几何信息。然后,对高斯噪声和稀疏噪声单独建模,解决数据降维性能受稀疏噪声影响的问题。其次,在目标函数中添加稀疏约束,使所求结果更加精确。最后将该方法应用到基因表达数据上进行分析验证。(2)针对生物组学数据中样本点间具有复杂联系的问题,提出了基于L2,1范数的超图正则非负矩阵分解方法(RHNMF)。该方法对NMF进行鲁棒和流形约束。在估计残差时使用L2,1范数约束,使得误差函数不再是平方残差的形式,这将会抑制噪声和异常值的影响。然后,通过在目标函数中添加超图正则化约束,RHNMF可考虑更多数据样本点间复杂的高阶关系,进而深入挖掘数据中涵盖的信息,提高方法的性能。最后将该方法应用于整合的基因表达数据中进行聚类和特征选择。(3)针对生物组学数据含有噪声和异常值的问题,提出了基于相关熵的超图正则非负矩阵分解方法(CHNMF)。具体来说,在CHNMF的损失项中使用相关熵测度而不是欧几里得范数,以提高方法的鲁棒性。然后,把超图正则项应用于目标函数中,以探索更多样本点间的高阶几何信息。其次,采用半二次优化(Half-quadratic Optimization,HQ)技术求解这个复杂的优化问题。最后在泛癌数据集上进行聚类、特征基因的选择和构建特征基因的表达网络,为癌症的系统研究提供帮助。(4)针对NMF的整合模型挖掘同质信息时灵活性不足的问题,提出了基于图正则的多视图非负矩阵分解方法(GMvNMF)。将传统的NMF整合模型进行改进,分解为共享基矩阵,子空间转换阵和共享系数矩阵,提高了模型的灵活性。然后,在目标函数中引入图正则项,将数据中的信息利用率最大化。最后使用该方法对TCGA中同一癌症的不同数据类型进行分析,充分利用不同数据类型间的互补信息,进而为基因分子水平上的癌症研究提供新思路。(5)针对现存单细胞分析方法不能准确构建细胞相似度矩阵的问题,提出了基于柯西损失的图拉普拉斯低秩表示方法(CNLLRR)。首先,采用柯西损失函数(Cauchy Loss Function,CLF)来约束噪声矩阵,以提高CNLLRR对噪声和异常值的鲁棒性。此外,为了有效编码数据的局部流形信息,将图正则项施加于目标函数中。这都将保证所学习到的细胞相似度矩阵的质量。最后,将该方法应用于单细胞数据集上,有助于理解复杂生物系统中细胞群落的异质性。各项实验结果表明,本文提出的方法有效考虑了数据中的流形信息或噪声和异常值。它们不仅优于其他同类方法,还具有更好的聚类和特征选择效果。