论文部分内容阅读
随着人类基因组计划的开展,越来越多物种的测序数据被生物学家们挖掘出来,从此对于生命科学的研究也逐渐地聚焦于基因组学。然而基因组学的开展只是生命本质特征研究的基础之一,生命过程中细胞的代谢、信号传导以及基因调控等都是通过蛋白质实现的。蛋白质是构造细胞的基本有机物,是生命活动的物质条件和生物功能活性的保证。生物体的蛋白质主要分为两类:关键蛋白质和非关键蛋白质。现有的关键蛋白质是指去除或破坏活生物体中的特定蛋白质后,造成该生物的相关功能的丧失,从而导致该生物体无法生存。关键蛋白质对于细胞的生理活动和生物的存活都是必不可少的。因此,在研究细胞的生长和调控时,如何准确的识别关键蛋白质成为了至关重要的一步。目前,已经有了一系列基于网络拓扑的计算方法用于关键蛋白质的预测,如度中心性(DC)、信息中心性(IC)、信息向量中心性(EC)、子图中心性(SC)、介数中心性(BC)、接近度中心性(CC)、基于边聚集系数的关键蛋白质度量方法(NC)等。随着高通量实验数据的发展,使得多数据预测关键蛋白质成为了可能。其中,基于基因表达数据和PPI网络的关键蛋白质预测算法常被使用,如基于基因表达数据和PPI网络数据的关键蛋白质度量方法(Pe C)和基于加权度量中心性的关键蛋白质度量方法(P&E)等。然而,基因表达数据的易波动性,很大程度上会影响关键蛋白质鉴定的准确性。针对上述问题,在蛋白质与蛋白质相互作用网络(Protein-Protein Interaction,PPI)的基础上,本研究通过筛选出基因表达谱中的噪声数据来提高预测关键蛋白质的精确度,具体的工作内容如下:(1)本研究基于蛋白质相互作用网络和基因表达数据,提出了基于蛋白质成簇特性和基因“活性”表达的关键蛋白质识别算法JDC。现有的关键蛋白质预测方法由于采用了大量特征数据,易造成计算成本增加。因此本研究采用了常用的PPI网络和基因表达数据来检测关键蛋白质。以蛋白质往往成簇的特性为前提,通过基因表达在不同时刻具有“活性”和“非活性”的表现来消除基因表达数据中噪声的影响,从图论的边的角度考虑,通过构建边聚集系数ECC和Jaccard系数的加权边从而找到识别率高、特异性好的关键蛋白质识别方法。(2)本研究分析了Jaccard波动系数在预测关键蛋白质上具有较好的性能。因此,将Jaccard系数提取出来,从节点的角度研究,在每个蛋白质节点上,在已有的预测算法的基础上融合蛋白质节点的Jaccard波动系数,提出了新的预测算法4-)。为了验证该算法的有效性,本研究将该算法与几种关键蛋白质预测算法进行了评估实验,结果证明在融合了Jaccard波动系数的基础上,该算法能够更好的识别出关键蛋白质。