论文部分内容阅读
在后基因组学时代,生物信息学研究的一个重要目的便是旨在理解生物细胞内分子之间的联系,并且揭示隐藏在分子间的分子间相互作用以及控制细胞生命功能的内在机理。经过近二十年的发展,基因学研究从单基因转变至基因网络研究。如今,通过改良传统基因研究方法,差异共表达网络已经逐渐发展成为一种分析差异共表达基因的重要的研究方式。通过这个方式,使得发现疾病机制,分析在差异表达网络中尚不清楚的潜在的动态调控机制成为可能。不同疾病状态之间的差异共表达基因连接和功能性基因集群的检测是一项艰巨的任务,为了能够有效研究这种动态的调控机制,众多差异共表达网络研究方法应用而生,然而,目前业界没有检测差异共表达基因连接和功能性基因集群的金标准,因此,我们开发了一种新型的融合算法FDv De(Fusion of differential vertex and differential edge:差异边与差异点融合算法),该算法通过将基因差异边集合(对照网络中,基因间相关系数存在统计学差异的基因对)与基因差异点集合(对照网络中,在拓扑结构性质上存在统计学差异的基因)集成在一起来检测差异共表达的基因连接。然后,我们通过集成这些差异共表达的基因连接来构建反映正常与癌症这两种不同状态的差异共表达网络。通过这种方法,我们识别了1823个基因和29370个基因连接。然后,为了进一步研究网络中隐藏的价值信息,我们开发了算法GTHC(GO term hierarchical clusters:GO术语层次聚类算法)来识别功能模块。该算法过程中使用的距离矩阵是由GO语义相似性演化而来。此外,我们还计算了功能模块间的稠密性来描述模块间的联系,同时我们还进行了差异共表达网络的拓扑特性分析,从而发现在疾病机制中起重要作用的中枢基因和中枢通路,通过集成上述这些方法,为研究疾的致病机理带来很大帮助。在本文中,实验结果表明,在乳腺癌样本(68个)和正常样本(73个)的数据集上,我们的方法成功揭示了差异共表表达网络对于研究乳腺癌致病机理的重要意义,其中,我们挖掘出了具有关键作用和生物学意义的模块和中枢基因来佐证我们的研究。