论文部分内容阅读
在当今大数据时代,以基因组学、转录组学和蛋白质组学数据为核心的组学大数据数据量迅速增长,数据类型不断丰富,使越来越多层面的生物机理被揭示,通过多组学数据识别特殊功能的基因成为了基因识别领域的重要研究内容。关键基因是维持生物体生命活动必不可少的基因,预后基因标志物是指一个或者一组可以影响患者疾病进展情况的基因。针对关键基因识别的研究对于发现致病基因和药物靶标有着重要意义,也有助于从基因分子水平促进了解细胞的生长调节过程。蛋白质是基因转录翻译的产物,蛋白质相互作用(Protein-Protein Interaction,PPI)网络是指由蛋白质之间的相互作用构成的网络。目前虽然已经提出了很多种基于PPI网络的关键基因识别算法,但是识别精度还有待提升,以进一步促进发现细胞生长所必需的基因。针对预后基因标志物识别的研究对于准确评估疾病的进展情况具有重要意义,也有助于指导患者分组以及精准医疗。神经母细胞瘤是儿童中最为常见的颅外实体瘤,常用的预后标志物有MYCN基因扩增状态、肿瘤转移和阶段等。神经母细胞瘤患者往往表现出染色体不稳定以及MYCN基因频繁扩增现象。由于目前缺少充足且可靠的神经母细胞瘤染色体数据,以及与其配套的患者临床数据,所以针对神经母细胞瘤染色体异常的预后基因标志物以及结合染色体和MYCN基因异常状态的预后基因标志物还缺乏全面而系统的研究。本文主要针对关键基因识别和预后基因标志物识别的以上问题进行研究,取得的主要成果如下:对基于PPI网络局部拓扑属性的关键基因识别进行研究。针对基于PPI网络拓扑属性的关键基因识别算法精度低的问题,提出了一种结合局部拓扑属性、全局拓扑属性和蛋白质复合物信息的关键基因识别算法--LBCC。由于大多数关键基因位于稠密子图中,为了定量描述子图的稠密度,首先基于路径长度定义了节点的k-邻域子图(k>=1)和k-邻域密度,并通过实验验证了 1-邻域密度、2-邻域密度在关键基因识别中能够起到非常重要的作用。然后,提出了基于1-邻域密度、2-邻域密度、中介中心性和蛋白质复合物信息的关键基因识别算法,并通过实验优化了这些属性的权值。在公开酵母数据集上的实验结果表明,在YMIPS和YMBD数据集上,LBCC与当时最新的LIDC方法相比识别精度提高了 10%左右。最后,将此算法运用于人类PPI网络中,识别出5个潜在关键基因。本研究的主要创新点为提出了PPI网络中的1-邻域密度、2-邻域密度的描述方法,并将其应用于关键基因识别算法中,有效提高了识别精度;将该识别算法运用于人类数据集中,发现了5个人类潜在的关键基因。对基于随机森林模型的关键基因识别进行研究。为了进一步提高关键基因识别精度,提出了一种基于随机森林模型的计算方法--CoTB。研究表明关键基因不仅仅与PPI网络拓扑结构信息相关,而且还和基因编码的蛋白质内在属性信息息息相关。因此,首先详细分析了同源蛋白质信息和亚细胞定位信息,并对他们进行了定量描述。然后,采用1-邻域密度、2-邻域密度、拉普拉斯中心性、蛋白质复合物信息、同源蛋白质信息和亚细胞定位信息这七种属性,通过随机森林模型以提高关键基因识别精度。最后,将此模型运用在四个不同的酵母数据集中进行验证。实验结果表明,提出的算法CoTB的关键基因识别精度高于当时最优的方法—SON,CoTB在四个数据集上的TOP100水平的识别精度分别达到了 89%、78%、79%和85%。最后将此算法运用于人类PPI网络中,识别出五个潜在的关键基因。本研究的主要创新点为定量描述了同源蛋白质信息和亚细胞定位信息,结合此信息并利用随机森林模型有效提高了关键基因的识别精度。对基于染色体状态的预后基因标志物识别进行研究。针对神经母细胞瘤染色体拷贝数实验数据短缺问题,提出了一种基于基因表达数据预测染色体子片段拷贝数(inferred Copy Number Variance,iCNV)的算法,以反映染色体子片段的异常状态。基于染色体子片段iCNV,通过Cox 比例风险模型,发现了 58个拷贝数异常的染色体子片段与患者预后之间存在显著相关性。并且,在排除了潜在干扰因素(例如MYCN扩增状态)后,发现7个拷贝数异常的染色体子片段表现出与预后的显著相关性。在这7个染色体子片段中,Chr11P14中的基因是潜在的可以作为临床应用的预后基因标志物。并且所提出的计算模型具有良好的可扩展性,可以被运用到其他癌症类型中以研究与染色体子片段异常相关的预后基因标志物识别问题。本研究的主要创新点为设计了一种基于基因表达数据预测染色体拷贝数的方法,通过该方法发现了神经母细胞瘤中与染色体子片段异常相关的潜在预后基因标志物。对基于染色体和MYCN基因状态的预后基因标志物识别进行研究。由于神经母细胞瘤患者往往不仅表现出染色体不稳定现象,还表现出MYCN基因高频扩增的现象,但是却只有很少的相关生物实验数据。所以针对此问题,提出了两种基于基因表达数据识别基因标志物的算法,分别用于识别与染色体异常相关的基因标志物和与MYCN基因扩增相关的基因标志物。实验结果表明,利用该算法识别出的MYCN、Chr1p和Chr11q的基因标志物,可以正确反映MYCN基因扩增、Chr1p丢失、Chr11q局部丢失和Chr11q丢失现象,并且这些基因标志物都表现出与预后的相关性,与临床结论一致。最后将这些基因标志物进行整合,作为新的神经母细胞瘤预后基因标志物,通过Cox 比例风险模型对患者预后进行预测。实验结果表明,与只考虑临床信息或者MYCN状态的预后标志物相比,本文提出的预后基因标志物显著提高了患者的预后预测精度,是潜在的可以作为临床应用的预后标志物。本研究的主要创新点为提出了一种基于基因表达数据识别基因和染色体异常的基因标志物算法,通过结合这两种基因标志物信息有效地提高了神经母细胞瘤患者预后预测的精度。