论文部分内容阅读
癌症主要由生命体存活过程中体细胞突变加速积累引起,癌症研究的一个关键步骤是区分驱动突变和驱动基因,这些突变和驱动基因导致肿瘤从正常状态向恶性状态转变。研究发现尽管个体肿瘤表现出多样性的体细胞移植和拷贝数变化,但是这些事件倾向于影响有限数量的生物学通路,癌症基因倾向于聚集在有限的基本生物学通路中,并且基因水平的多样性和复杂性在通路水平显著降低。因此近年来更多的研究关注于识别驱动通路和模块而不是单个基因。此外,像基因一样,个体通路不能单独承担生命活动。在癌症发展期间,多条驱动通路很可能协同地参与正常细胞向肿瘤的转化过程。现有驱动通路识别方法大多只针对单一的驱动通路。由于单一突变数据可提供的信息有限以及现有的通路互作信息尚不完整,给协同驱动通路的识别带来了巨大的挑战。本文结合多组学生物数据,进行协同驱动通路识别研究,主要工作如下:(1)针对多维组学生物数据利用不足的问题,提出一种基于矩阵分解和三元随机游走的协同驱动通路识别方法(CoDP)。该方法首先在基因和microRNA(miRNA)表达数据上,引入基因互作和基因-miRNA调控网络,进行协同矩阵分解,得到与疾病相关的基因-miRNA模块。基因和miRNA是重要的遗传物质且与通路具有密切的关系,由于已有的基因、miRNA和通路直接的关联信息尚不完整,CoDP在三者的内联和外联网络上进行三元随机游走,得到更新的基因-通路和miRNA-通路关联网络。最后,结合前两步得到的基因-miRNA模块以及更新的基因-通路和miRNA-通路关联网络,将基因-miRNA模块覆盖度最高的通路识别为协同驱动通路。在卵巢癌和肝癌数据上,CoDP都能够有效识别驱动通路。与现有算法相比,CoDP不仅能够识别已知的驱动通路,还能够发现驱动通路的协作关系。(2)针对已有方法对体细胞数据和先验知识结合不完善的问题,本文提出另一种基于整数线性规划和马尔科夫聚类的协同驱动通路识别方法(CDPath)。该方法首先用整数线性规划在体细胞突变数据上寻找模块内最大化覆盖度和互斥性﹑模块间最大化功能交互和共现的基因模块。然后,在通路互作网络上利用马尔科夫聚类,得到具有强交互作用的通路簇。最后,将被分配到同一通路簇但在不同模块的通路识别为协同驱动通路。在乳腺癌和子宫内膜癌数据上的结果表明CDPath能够比已有方法识别更多的已知驱动基因并更显著,此外还能够识别新的驱动基因。(3)针对大多数协同驱动通路识别方法未考虑不同的患者在基因表达上可能的不一致性问题,本文提出一种基于贪心互斥和双聚类的协同驱动通路识别方法(CoPath)。该方法首先在信号传导网络中运用贪心算法寻找在体细胞突变数据上的互斥基因模块。随后,CoPath引入上一步得到的互斥模块和基因互作信息作为正则项,在基因表达数据上进行双聚类,再将被分配到相同簇的基因模块作为协同驱动通路。在乳腺癌和子宫内膜癌数据集上的实验表明,CoPath相对于已有方法识别的通路,识别的协同通路在癌症发生相关的生命活动中具有最高的功能显著性,在信号传导网络上也具有紧密联系。(4)由于大多数协同驱动通路识别方法缺少对于识别协同驱动通路准确性的度量标准,导致了通路协作性的分析不足,本文提出一个新的基于基因、miRNA和通路数据融合的协同驱动通路识别方法(CDPathway)。该方法首先结合体细胞突变数据和基因互作数据,利用基因引力模型识别潜在驱动基因。随后,CDPathway利用识别的潜在驱动基因将基因、miRNA和通路的内联和外联网络进行中的关联权重更新,并利用协同矩阵分解技术对通路交互网络进行重构,将重构得分最高的关联通路识别为协同驱动通路。在乳腺癌和子宫内膜癌数据集上的大量实验表明,CDPathway比已有方法能够更准确识别已知的驱动基因,能够准确重构通路互作网络。通过验证已知与疾病相关的交互通路,CDPathway识别的协同驱动通路对癌症有显著的影响作用。