论文部分内容阅读
癌症的预后预测和药物响应预测是癌症病人的个体化治疗的前提。由于癌症是一种复杂的多基因疾病,因此从系统的角度,通过构建生物网络来研究癌症的预后和药物响应问题是当前的研究趋势(本文以乳腺癌为案例做相关研究)。但目前的研究存在以下几个问题:一是目前这些方法没有很好地融合多种对癌症研究有用的高通量数据,二是这些方法没有利用与癌症有紧密联系的生物现象,导致构建的生物网络不能够刻画癌症预后的生物机制。因此,如何利用和癌症相关的生物现象,通过合理的数据模型,融合多种有用的高通量数据,构建能够刻画癌症的预后机制的生物网络,是癌症预后研究的关键。而对于癌症病人的药物响应问题,可以看成是药物对疾病系统是否可以控制的问题,因此建立合理数学模型来解决这一可控制性问题是关键。基于基因依赖现象,即某个基因对癌症转移的影响是依赖于其它基因这一生物现象,我们融合癌症病人基因表达谱数据、癌症样本的临床数据、蛋白蛋白交互网络这三种异质数据,利用条件互信息作为计算手段,构建了针对乳腺癌转移这一表型改变的基因依赖网络(有向网络)。通过对网络的关键节点及基因依赖关系的功能分析,我们发现该网络确实能揭示癌症转移过程中的生物学机制。同时在该网络中挑选的那些具有区分能力的关键节点(43-gene signature)确实能够在多个数据集上区分癌症病人的预后风险。RNAs会通过竞争有限的miRNA来互相影响的现象叫着ceRNA(competing endogenous RNA)现象,同时ceRNA在癌症等病理条件中也起着非常重要的作用。基于这一ceRNA现象,我们融合了miRNA基因表达谱、基因表达谱以及miRNA靶基因数据,利用超几何分布检验为主要筛选手段,构建了乳腺癌的ceRNA网络(无向网络)。网络中的中枢基因集合和社区都被注释到癌症相关的功能基因集合上。证实了该ceRNA网络确实能刻画癌症相关的生物机制。最后,我们挑选出了15个具有区分能力的中枢基因作为特征集(15-gene signature),构建的预后预测模型能够在多个独立数据集上区分癌症病人的预后。miRNA是一种在癌症的转移过程中起着非常重要作用的小RNA,但目前为止,很少有人从miRNA调控网络的角度来研究癌症的转移。基于miRNA会通过调控特定的生物过程来影响癌症的预后这一生物假设,我们集成了癌症样本的基因表达谱数据、miRNA靶基因数据、Go Term:生物过程)基因集数据,利用t-test来估计miRNA在特定生物过程中的活性值(CoMi activity)。后续的数据验证分析证实了我们的活性值估计方法的正确性。接着,我们把所有这些CoMi活性值拿来构建成了包含了miRNA与生物过程这两类顶点的调控网络(miRNA对生物过程的调控网络,为一个抽象网络)。最后,基于多个miRNA可以通过调控同一生物过程来影响癌症的预后,而不同的生物过程可以从不同的方面来影响癌症预后的生物假设。我们把多个miRNA对一个生物过程的调控子网络称为一个模块(module),然后分别将这些模块中的CoMi活性值作为特征构建子分类器,查看其分类性能,最后将那些具有分类性能的子分类器通过多数投票策略集成起来,构成一个集成分类器来预测癌症的预后。在多个独立数据集上的独立验证证实我们的分类器能够达到比传统的预后模型更好的分类性能。同时那些具有区分能力的模块也对应着一些和癌症转移相关的miRNA调控机制。说明我们的集成分类器可以拿来做癌症的预后预测,同时也可以用来理解癌症的转移机制。上述的三个癌症预后工作,我们根据三个和癌症有关的生物现象或生物假设,集成了不同的高通量数据,构建了有向网络、无向网络和抽象的miRNA活性网络这三种不同形式的网络,从三个不同的侧面来研究癌症的预后。前两个工作挑出的具有区分能力的特征基因集(gene signature)可以作为癌症治疗的潜在靶标,而后一个工作构建的集成分类器具有稳定的分类性能,可以作为癌症预后预测的工具。对于乳腺癌病人对药物的响应问题来说,我们从系统控制的角度来解决该问题。我们把乳腺癌的疾病网络(数据库获取)作为控制系统的网络结构,将癌症病人的基因表达值数据作为对应顶点的当前状态值(疾病状态),将控制样本的基因表达值作为顶点的目标状态值(正常状态),将药物的靶基因作为系统的驱动顶点(该问题的研究同样是涉及到了包括乳腺癌病人的基因表达谱数据,药物靶基因数据,乳腺癌病人的疾病网络数据等数据的融合)。然后,我们根据完全可控理论推导出符合我们问题的两状态可控理论(和符合实际数据的两状态近似可控理论)。通过我们的理论,我们可以判断一个癌症病人对应的疾病系统能否通过这种药物的控制到正常状态。我们的理论得到了仿真数据和真实数据的验证。最后,将我们的理论应用到了乳腺癌病人对某个药物是否响应的预测,发现我们的方法具有较好的预测性能。该工作证明了我们的两状态可控理论可以应用于癌症病人对药物是否响应的预测。