论文部分内容阅读
随着新一代测序技术的不断进步和大规模基因组计划(例如,人类癌症基因组图谱计划)的开展,癌症基因组数据获得了广泛的、空前的积累。作为一种复杂基因疾病,癌症正在被全面系统地研究,以发现和理解导致癌症发生、发展的内在生物机理。但是,这些大规模的数据,也为这些研究提出了许多具挑战性的问题。例如,使用分子数据和临床观测来预测癌症病人的临床结果是癌症生物学的一个主要目标。但是,此研究通常只针对总体病人样本来进行,并没有考虑癌症异质性的影响。另外,识别不同癌症类型之间的基因组相似性和异质性,对于设计有效的分层治疗方案和发现不同癌症之间的扩展疗法,是非常重要的。然而,丰富的分子数据还没有被充分的利用以实现这一目标。在本论文中,我们的目标是利用多平台、多类型的大规模癌症基因组学数据,通过计算手段,来发展有效的预后策略、识别癌症生物标志物和揭示癌症的异质性。本文得到的主要研究结果包括: (1)通过假设基因组分子数据和临床观测指标在不同的癌症亚型上具有不同的预后能力,使用基因表达数据和临床观测数据,探索了不同亚型的预后能力,进行了系统的评估工作。在此研究中,我们发现基因表达数据和临床特征在五种乳腺癌亚型上显示出显著不同的预后能力;相比于其他亚型,Normal-like亚型的基因表达数据含有更多的生存预后信息;同时,以前识别的乳腺癌基因标志物的预后能力,相比于其在整体样本集合上的表现,在Normal-like亚型上具有比较显著地预测能力,而在其他亚型上则仅有非常有限的表现。因此,基于乳腺癌总体样本集合确定的生物标示物的预后效果,是其在一个特定的乳腺癌亚型显著的预后能力的一个间接体现。该研究表明,当使用转录组数据以及其他分子层面的数据来预测病人的生存时间或临床表现的时候,应该考虑癌症异质性的影响。该工作为癌症预后能力的预测研究提供了一个的新途径,并为发现更准确的生物标示物提供了新视角。 (2)使用一种基于网络的癌症基因组数据整合分析手段,将来自12种癌症的大于3000例病人划分成了新的癌症亚型,探索了不同尺度癌症亚型的临床特征和生物机制。该结果,不仅确认了被报道过的跨癌症类型的基因变异相似性,并且识别出了一些新的潜在的相似性。特别地,该研究发现宏观尺度的划分具有很强的临床意义,并在多种癌症类型中揭示出一致的临床风险趋势;而微观尺度的划分结果显示出本质的泛癌症异质性,并识别出亚型特异的基因组变异网络特征和生物功能注释。这些结果表明,基于网络的泛癌症变异的癌症亚型划分,能为病人的临床评估和治疗策略设计提供有价值的分层信息。 (3)为了挖掘基因EPS15与乳腺癌的临床观察的关系,使用6个独立的乳腺癌基因表达数据集进行生存预后分析,并研究了与EPS15表达有定量关系的单核苷酸多态性位点(SNP)位点和相关基因,并最后构建出这些基因之间的网络调控关系。研究结果显示,EPS15基因的过表达与良好的乳腺癌预后情况显著相关,特别是对雌激素受体阳性的肿瘤。最终,鉴别出11个与EPS15表达相关的特异SNP。在这些SNP涉及的基因中,有5个与EPS15有相互作用关系。同时,这些基因与EPS15具有显著的共表达模式;其中的四个与乳腺癌的生存预后显著相关。特别指出的是,具有EPS15与MSRA共同高表达特征的乳腺癌病人显示出最好的预后状况,这表明二者的同时激活具有重要的临床意义。 (4)完成了一个对接受过培美曲塞化学治疗的肺腺癌病人的回顾性分析。在该研究中,利用预后模型,使用临床数据和血液检测指标来预测肺腺癌病人的生存时间。首先使用一套严格的计算流程,从数据中识别出潜在的预后变量。然后,根据病人的癌转移情况,将病人分成4个组别。在每一个组别中,通过使用预后计算模型在之前得到的潜在预后变量中识别出特异的预后特征。通过Log-rank检验评估变量的预后能力,并使用Kaplan-Meier生存曲线来进行可视化。总体来说,每一组得到的预后模型都具有良好的预测性能。这些预后模型可以用来改进肺腺癌病人的临床诊断、化疗方案设计和开发更有效的疗法。