论文部分内容阅读
癌症本质上与基因变异有关,目前人们普遍认为,有一小部分发生变异的基因具有选择生长优势,对癌症发生发展过程有促进作用,一般称之为驱动基因。大部分发生变异的基因对癌症发生发展没有促进作用,称之为乘客基因。在众多的乘客基因中识别驱动基因是癌症研究的热点问题。围绕这一目标,很多驱动基因识别算法应运而生,特别地,鉴于基因之间存在相互作用关系,且从网络角度可以更加系统地研究癌症特点,因此,已有很多基于网络的方法被用来挖掘癌症驱动基因。但是仍然有很多特征对驱动基因识别有影响,例如基因长度对突变概率的影响、先验知识的影响以及网络拓扑结构特征的影响等。另外,除了对单一癌症识别驱动基因外,有研究表明不同癌症之间可能存在相同的特点和致病基因。本文针对上述问题开展了系统性研究,主要工作如下:(1)提出了一种基于基因长度校正突变概率的驱动基因识别算法LNDriver,本算法考虑了基因长度对基因突变概率的影响。对于体细胞突变数据,通过广义加性模型,根据突变基因长度,对其突变概率进行校正,从而过滤由于长度过长产生的假阳性基因。然后根据蛋白质-蛋白质相互作用网络,将筛选后的基因突变数据与表达数据整合并构建二分图,最后用贪婪算法识别驱动基因。在几种不同数据上的实验结果表明,该算法对癌症驱动基因识别性能优于一些经典算法,并且能够有效减少由于基因长度导致的假阳性驱动基因。(2)针对先验蛋白质相互作用网络的不完整性以及基因表达在癌症样本和正常样本分布中的差异现象,在LNDriver算法基础上,提出了Driver Finder算法。除了考虑基因长度的影响外,本算法主要利用癌症基因表达数据构建基因共表达网络,再与已知蛋白质-蛋白质相互作用网络整合,对不同癌症构建特异性网络,避免由于先验网络不完整造成的基因信息缺失。此外,根据基因表达在癌症样本和正常样本中的分布差异,确定离群基因,最终构建二分图,利用贪婪算法识别驱动基因。在不同癌症数据集上的实验结果表明Driver Finder算法可以有效识别癌症驱动基因。(3)提出了一种基于转移偏向性的随机游走算法Driver_IRW,用来识别癌症驱动基因。在传统随机游走算法中,游走者以等概率选择下一步要访问的节点。但是在实际情况中,游走者往往具有选择偏向性,即在选择下一步访问的节点时,更偏向于选择度更大的点。此外,本算法可以根据不同癌症已知的驱动基因,利用其拓扑结构特征计算随机跳转概率。实验表明,Driver_IRW对癌症驱动基因的识别具有明显优势。(4)提出了一种基于多层网络的联合非负矩阵分解算法Driver-Mul JNMF,用来识别不同癌症中共同的致病基因。不同癌症可能存在相同的特征和致病模式,DriverMul JNMF算法针对疾病相似性较高、且较为多发的几种妇科癌症,构建了一个多层差异共表达网络,同时利用已知蛋白质-蛋白质相互作用网络信息作为约束条件,实现同时对多个网络进行分解,从而得到不同癌症中共同的模块。对模块中的基因分析表明,本算法识别出的基因可以显著富集到与所研究癌症相关的Hallmark和重要通路中,并且生存分析表明,其中包含的部分基因具有良好的预后价值。