论文部分内容阅读
近年来单细胞测序技术的进步使得对不同组织类型和不同细胞状态的基因表达在单细胞水平上的高通量获取得以实现,这令生物学家能够在细胞群中剖析细胞的异质性,也因此催生了许多单细胞方面的工作。其中,通过单细胞数据识别细胞类型是很多研究工作的基础,细胞类型识别的精准与否对下游工作的分析具有至关重要的作用。传统识别细胞类型的方法受单细胞测序技术的限制,仅能基于单细胞转录组测序数据进行分析,当然这些丰富的研究工作为单细胞多组学数据分析打下了坚实的基础。现阶段随着单细胞并行测序分析技术的发展,获取单细胞多组学数据成为可能,这些数据使得研究者们可以从多个组学的角度对细胞状态进行描述。
以往在批量测序数据上有大量的工作应用集成的思想来识别癌症亚型,而单细胞多组学并行测序技术的发展使得我们可以结合单细胞多组学测序数据,集成地对细胞的状态进行刻画。因此集成思想在单细胞数据上的应用具有重大意义,一种基于集成的单细胞数据分析方法呼之欲出。本文提出一种基于聚类集成的细胞类型识别模型。该模型不仅能应用于单细胞转录组数据,还能集成单细胞多组学数据进行细胞类型的识别。本文所提出的模型共包含三个模块,分别为独立聚类模块,基础划分筛选模块和加权CSPA集成模块。其中独立聚类模块对数据集分别采用单细胞一致聚类算法,结合t-SNE降维的k-均值聚类算法,基于多核学习的细胞类型识别方法,k-均值聚类算法和谱聚类方法进行聚类,对每种方法的聚类结果,在基础划分筛选模块中利用三种聚类内部评价指标对聚类结果进行筛选,并根据评价指标值为基础聚类结果添加权重,在加权CSPA集成模块中对基础划分进行集成,并计算样本相似性,最后通过谱聚类得到最终的细胞类型识别结果。
本文将该模型在单细胞转录组数据上进行应用并提出基于聚类集成的(ClusterEnsemble Based,CEB)细胞类型识别方法。在五个单细胞转录组数据集上,将集成后的细胞类型识别结果与集成前每种单独聚类方法的细胞类型识别结果进行比较,发现CEB方法在准确性和鲁棒性上均优于单独的细胞类型识别方法。同时,本文通过调整集成的独立聚类方法,比较了标准CEB方法与不完全CEB方法,无筛选CEB方法、随机CEB方法与不加权CEB方法的结果,发现集成的聚类方法的变动对结果的影响幅度不大,这说明CEB方法具有较好的鲁棒性;同时标准CEB方法的结果优于无筛选CEB方法和不加权CEB方法的结果,这验证了基础划分筛选和加权CSPA集成的确能提高聚类结果的准确性。
本文将该模型在单细胞多组学数据上进行应用并提出基于多组学聚类集成的(Multi-omics Cluster Ensemble Based, MCEB)细胞类型识别方法。在Anger数据集上的实验表明MCEB方法在多组学数据上的细胞类型识别结果优于仅使用单一组学方法和其他变体方法的结果,这说明MCEB方法在多组学数据上仍有较高的准确性和鲁棒性。在Clark数据集上的实验表明MCEB方法具有识别新型细胞类型的能力,因此MCEB方法为单细胞多组学集成识别细胞类型提供了一定的启示作用。
以往在批量测序数据上有大量的工作应用集成的思想来识别癌症亚型,而单细胞多组学并行测序技术的发展使得我们可以结合单细胞多组学测序数据,集成地对细胞的状态进行刻画。因此集成思想在单细胞数据上的应用具有重大意义,一种基于集成的单细胞数据分析方法呼之欲出。本文提出一种基于聚类集成的细胞类型识别模型。该模型不仅能应用于单细胞转录组数据,还能集成单细胞多组学数据进行细胞类型的识别。本文所提出的模型共包含三个模块,分别为独立聚类模块,基础划分筛选模块和加权CSPA集成模块。其中独立聚类模块对数据集分别采用单细胞一致聚类算法,结合t-SNE降维的k-均值聚类算法,基于多核学习的细胞类型识别方法,k-均值聚类算法和谱聚类方法进行聚类,对每种方法的聚类结果,在基础划分筛选模块中利用三种聚类内部评价指标对聚类结果进行筛选,并根据评价指标值为基础聚类结果添加权重,在加权CSPA集成模块中对基础划分进行集成,并计算样本相似性,最后通过谱聚类得到最终的细胞类型识别结果。
本文将该模型在单细胞转录组数据上进行应用并提出基于聚类集成的(ClusterEnsemble Based,CEB)细胞类型识别方法。在五个单细胞转录组数据集上,将集成后的细胞类型识别结果与集成前每种单独聚类方法的细胞类型识别结果进行比较,发现CEB方法在准确性和鲁棒性上均优于单独的细胞类型识别方法。同时,本文通过调整集成的独立聚类方法,比较了标准CEB方法与不完全CEB方法,无筛选CEB方法、随机CEB方法与不加权CEB方法的结果,发现集成的聚类方法的变动对结果的影响幅度不大,这说明CEB方法具有较好的鲁棒性;同时标准CEB方法的结果优于无筛选CEB方法和不加权CEB方法的结果,这验证了基础划分筛选和加权CSPA集成的确能提高聚类结果的准确性。
本文将该模型在单细胞多组学数据上进行应用并提出基于多组学聚类集成的(Multi-omics Cluster Ensemble Based, MCEB)细胞类型识别方法。在Anger数据集上的实验表明MCEB方法在多组学数据上的细胞类型识别结果优于仅使用单一组学方法和其他变体方法的结果,这说明MCEB方法在多组学数据上仍有较高的准确性和鲁棒性。在Clark数据集上的实验表明MCEB方法具有识别新型细胞类型的能力,因此MCEB方法为单细胞多组学集成识别细胞类型提供了一定的启示作用。