论文部分内容阅读
癌症基因组学研究的目标之一是识别所有与癌症相关的基因,并对它们在癌症起始和进程中的贡献做出解释。高通量测序技术的快速发展,产生了大量的癌症基因组数据,为癌症基因组学研究提供了便利。这方面的研究面临两个具有挑战性的问题:(1)哪些相关基因驱动癌症演化进程?(2)如何在基因水平以及通路水平分析癌症演化进程?解决这两个问题对于涉及靶向药物的治疗决策至关重要。本文以真实的癌症基因组数据作为研究对象,主要研究工作包括识别癌症相关基因和推断癌症演化进程两个方面。虽然已经提出了一些方法来识别癌症相关基因,但是如何将驱动突变与乘客突变分离、检测罕见突变、识别驱动通路以及快速有效的查找关键基因仍然是癌症基因组学中一个具有挑战性的问题。面对大量的肿瘤体细胞突变数据,可以深入分析肿瘤的发病机制。然而,这些大多是横截面数据而非时序数据,很难从中推断出癌症演化进程中基因突变的时序,又由于患者间的异质性,在驱动通路水平上推断癌症演化进程比在单个驱动基因水平上更合理。针对已有算法存在的问题和局限性,本文的主要工作可以概括如下:(1)现有方法需要有关基因或蛋白质相互作用信息来构建基因网络。然而,由于当前人类相互作用组的不完整,构建的基因网络可能存在偏向。针对这个问题,本章仅使用基因表达数据构造基因网络,提出了一种基于图熵识别癌症相关关键基因的算法(An Efficient Strategy for Identifying Cancer-related Key Genes based on Graph Entropy,iKGGE)。首先,基于稀疏逆协方差矩阵构造一个基因网络,该网络只使用基因表达数据。然后,使用并行最大团算法聚类基因,快速获得一系列的子图。最后,引入一个新的指标,结合图熵和上游基因突变的影响来衡量基因的影响因子。对现有的3个癌症数据集的测试表明,该算法可以有效地提取在肿瘤发生发展过程中可能扮演不同角色的关键基因,且根据关键基因能很好地预测癌症患者的风险组。(2)癌症驱动基因的识别对于个性化治疗至关重要。为了提高准确性,提出了整合多元组学数据识别癌症驱动基因的方法(A Novel Method for Identifying the Potential Cancer Driver Genes based on Molecular Data Integration,iPDG)。整合了匹配癌症样本的DNA拷贝数变异、体细胞突变和基因表达数据。结合上一章的方法识别的癌症“关键基因”,综合考虑其表达水平的改变情况与突变基因影响,来评价突变基因是否是潜在驱动基因。对于一个突变基因,定义了突变影响的概念,突变影响综合考虑了拷贝数变异、突变序列本身、和它邻居基因的影响。主要包括两个步骤:第一步是数据预处理,首先整合DNA拷贝数变异和体细胞突变数据,然后将整合后的数据映射到给定的交互网络,通过一个网络扩散模型得到每个基因扩散后的值。这些扩散值形成了突变影响矩阵。第二步是结合上一章的iKGGE方法识别关键基因,利用关键基因的基因表达数据与突变影响矩阵构建连接矩阵。在TCGA乳腺癌和多形性胶质母细胞瘤数据上的实验表明,iPDG不仅能有效识别已知的癌症驱动基因,还能发现罕见的潜在驱动基因。通过功能富集分析,发现这些基因与这两种癌症明显相关。(3)为了从基因水平以及通路水平同时推断癌症演化进程,提出了一个概率图模型推断有向无环图表示的癌症驱动基因突变的时序和选择关系(Inference of Cancer Progression with Probabilistic Graphical Model from Cross-sectional Mutation Data,PGM)。然后,基于这些驱动基因的突变概率,在给定前一个基因突变发生的情况下,将一个突变与后续突变之间的等待时间建模为突变概率的随机函数,从而得到发生突变在相同时间段的驱动基因。最后,评估了PGM在模拟数据和真实癌症体细胞突变数据上的性能。实验结果和对比分析表明,PGM可以捕获大多数驱动基因突变的选择关系,大多数已被先前的研究证实。最重要的是,PGM还可以从横断面数据中同时推断驱动通路的时序。(4)提出了一个完整的计算框架,从体细胞突变数据中识别突变驱动通路和在通路水平推断癌症演化进程(An Integrated Framework for Identifying Mutated Driver Pathway and Cancer Progression,iMDPCP)。首先,使用不确定系数来量化驱动基因通路的排他性,并采用基于自适应离散差分进化算法识别突变驱动通路。然后,基于贝叶斯网络构建了驱动通路水平的癌症演化进程模型。最后,评估了iMDPCP在真实癌症体细胞突变数据集上的表现。使用KEGG通路富集分析实验结果发现,iMDPCP比现有方法更加准确,该方法为在通路水平上识别癌症演化进程提供了新的见解。