论文部分内容阅读
随着高通量实验方法的发展,可获得的全基因组范围的蛋白质相互作用(Protein-Protein Interaction,以下简称PPI)网络数据逐步增多,使得我们可以系统地研究组成整个系统的生物分子的行为和属性。研究蛋白质间的相互作用关系,识别PPI网络中有意义的结构,如蛋白质复合体和功能模块,预测蛋白质相互作用网络中蛋白质的功能,能够帮助人们从分子水平上认识生命运行的机制,阐明各种疾病发病的机理,进而找到新的治疗手段。随着蛋白质相互作用研究的不断深入,仅凭实验的方法已经无法满足大规模蛋白质相互作用网络构建和分析的需求,基于生物信息学的研究方法逐渐受到了人们的重视。然而,蛋白质相互作用的机理复杂,网络数据规模庞大,实验测得的相互作用数据具有较高的假阳性率和假阴性率,这些都给相关的生物信息学研究带来了很大的挑战。本文围绕蛋白质相互作用网络,主要针对以下几个方面进行了深入的分析和研究:(1)基于HKC的蛋白质功能模块识别算法研究。PPI网络具有模块性,包含许多内部密集连接但是同网络的其它部分连接较为稀疏的模块。从PPI网络中预测功能模块不仅可以降低PPI网络的高度复杂性,同时这些功能模块也是深入研究整个PPI网络的组成和结构的关键的第一步,有助于预测蛋白质功能。由于PPI网络数据中存在极高的噪声,以及网络特定的拓扑特性,传统的度量空间中的聚类方法并不能成功地从PPI网络中识别出蛋白质功能模块,本文提出了一种新的基于拓扑的算法——HKC算法,该算法利用两个核心概念,即最大k-core和凝聚度(highest k-core and cohesion,简称HKC),通过从PPI网络中识别可重叠的局部密集子图的方式来预测蛋白质功能模块。在不同数据集和基准集上的实验显示,HKC算法可以有效地从全基因组规模的PPI网络中识别功能模块,并且性能明显优于同类算法。(2)蛋白质相互作用加权方法研究。高通量方法产生的PPI数据具有较高的假阳性率和假阴性率。为了合理评估高通实验方法得到的PPI数据集并修正其中的错误,迫切需要灵活且廉价的计算方法来评估蛋白质相互作用的可靠性。本文提出了两种蛋白质相互作用加权的方法,第一种方法基于随机游走算法提出了权重向量的概念,并利用权重向量作为蛋白质相互作用权值;第二种加权方法提出了一种蛋白质相似度的概念,通过综合利用GO注释信息和网络拓扑结构来评估PPI网络数据的可靠性。利用MCL算法验证加权方法的有效性,分别利用MCL算法在未加权酵母PPI网络和利用各种不同加权方法加权的PPI网络中识别蛋白质功能模块,然后采用多种方法衡量结果性能,实验显示利用蛋白质相似度和权重向量这两种方法对PPI网络进行加权都可以提高功能模块预测算法的性能,这充分说明了这两种加权方法的有效性。(3)基于不同加权方法的蛋白质功能模块识别研究。基于蛋白质相互作用加权方法的研究,本文提出了一种新的蛋白质功能模块预测算法Expander算法,该算法利用亲近度的概念,通过扩展核心来预测功能模块。亲近度利用蛋白质相互作用的权值来计算一个蛋白质同一个已知的团之间的亲近程度,它可以建立在不同的加权方法基础之上。因此Expander算法可以看做是一个开放的平台:可以利用各种不同信息采用多种加权方法对蛋白质相互作用进行加权,然后采用Expander算法在加权后的网络中预测功能模块,这样可以根据实验目的不同有针对地选择不同的加权方法,从而达到更好的效果。(4)蛋白质功能预测方法研究。预测未知蛋白质的功能是后基因组时代最重要的挑战之一,快速有效地对蛋白质功能进行预测对于揭示细胞组成和功能的基本原理,研究蛋白质在生物体代谢途径中的地位,以及深入理解生物体行为和药物设计等方面具有十分重要的意义。本文提出一种基于功能模块的迭代式蛋白质功能预测方法PPIPredict算法,该方法在本文提出的功能模块识别算法(Expander算法)识别出的功能模块基础之上,将各个功能模块当做独立的蛋白质相互作用子图,将模块具有的所有功能作为备选的预测功能,对其中未注释的蛋白质进行迭代式的功能预测。实验表明,该方法的预测效果好于现有的同类预测方法。对以上几个方面的研究构成了本文的主要内容,它们为蛋白质相互作用网络的相关研究提供了新的思路和方法,并具有良好的效果。