论文部分内容阅读
癌症亚型的定义和发现是针对癌症个性化治疗的一个重要组成部分,将癌症样本正确归类到不同的亚型能够为病人选择正确的治疗方法提供非常重要的参考。基因组技术的发展和应用,可以获取癌症病例全基因组的高通量测序数据,为人们在全基因组水平上研究癌症个体的差异和癌症的发生、发展以及转移机制创造了条件。然而,癌症基因组数据是多谱系高维特征的生物大数据集合,高维、高噪声、低样本数是生物大数据的普遍特征,给传统数据挖掘技术应用提出了新的挑战;基因组技术的发展积累了大量的癌症样本数据,如何利用数据挖掘的大数据分析方法处理这些癌症基因组数据,探索每一种癌症存在的可能亚型及其相应的肿瘤分子标记物,将对癌症研究和治疗具有非常重要的现实意义。本文以癌症基因组数据为研究对象,针对癌症基因组数据高维性和多谱系的特点,主要研究在癌症亚型发现的聚类分析中有关癌症基因组数据的处理和融合方法,同时探索癌症基因组数据的新型聚类算法。癌症基因组学是通过高通量测序技术将基因与癌症研究进行关联,基因芯片技术和二代测序技术作为当前癌症基因组数据获取的主要来源,本文对其技术特点及技术细节进行详细论述;对迄今为止最大的癌症基因组研究项目癌症基因组图谱(TCGA)计划进行比较全面的介绍。本文构建了基于基因组数据的癌症亚型发现研究的分析框架,主要包括基因组数据的预处理方法,基因组数据重要特征提取方法,基因组数据的聚类方法,以及聚类结果的评估方法;详细介绍了数据过滤、数据补齐和数据标准化的基因组数据预处理方法;提出四种基因组数据特征选择方法;聚类算法作为基于基因组数据的癌症亚型发现的核心内容,本文系统介绍了一致性聚类、一致性非负矩阵因式分解、多基因组数据集成聚类和相似性网络融合四种主要癌症亚型发现的计算生物学方法:针对聚类结果的评估向题,本文给出了生存分析、Silhouette方法以及聚类统计显著性检验的评价指标。多基因组数据挖掘聚类研究是定义和发现癌症亚型的一种非常有效的途径,并且已经在很多癌症研究中产生了非常重要的发现和应用。有关癌症亚型发现的新计算生物学方法在不断的发展,目前存在的基于基因组数据的癌症亚型发现方法都是“纯”机器学习方法,然而生命科学的复杂性决定了“纯”机器学习方法不能完全有效解决癌症亚型识别问题。本文引入基因调控网络分析,将基因调控网络集成到多基因组融合聚类过程中,提出基于miRNA-TF-mRNA基因调控网络加权相似性融合算法,集成基因组表达数据和基因调控网络信息实现对癌症样本的聚类分析,得到了有生物学意义的癌症亚型。