论文部分内容阅读
蛋白质相互作用(Protein-protein interactions,PPI)是细胞进行一切代谢活动的基础。PPI网络是描述细胞中蛋白质活动的生物网络,其研究对于系统理解生物过程、揭示疾病发生机制和研发新药等方面具有积极的指导作用。目前,PPI网络研究已从单源数据静态模型向多源数据动态模型转变。其中,集成静态PPI数据和时间序列蛋白质表达数据构建动态PPI网络是一个重要研究方向。本论文针对这一主题,开展了以下方面工作:动态PPI网络构建的难点在于对基因表达数据的二值化处理。现有方法不能全部保留静态PPI网络的相互作用信息,甚至过滤掉与关键蛋白质相关的相互作用,在一定程度上影响关键蛋白质的识别。为了解决在这一问题,提出基于最小全覆盖的动态PPI网络构建方法,首先对每个蛋白质各时点的表达水平值进行排序,并基于从低到高顺序,采用消减法去除所有不影响相互作用全覆盖的时点,得到可覆盖所有静态PPI网络相互作用的最短激活时点序列,并根据激活时点序列,由静态PPI网络投影得到动态PPI时序网络。在此基础上,探讨了对动态PPI网络的节点度分布、节点活跃性、边活跃性和hub节点分布等性质,为从时序角度理解PPI网络的动态特性提供了依据。提出加权聚类系数中心性度量方法,首先计算每个时点的PPI网络中所有相互作用的边聚类系数,然后通过加权得到动态PPI所有相互作用的边聚类系数,最后求和得到所有节点的聚类系数。每个时点的权值通过智能算法进行优化。实验表明:加权聚类系数中心性度量方法比现有中心性度量方法具有更高的关键蛋白质识别率;最小全覆盖方法构建的PPI网络比其他方法构建的网络具有更高的关键蛋白质识别率。本文提出的最小全覆盖方法和加权聚类系数中心性度量方法,能有效提高关键蛋白质的识别正确率,为PPI网络研究提供了一种新的探索途径。