论文部分内容阅读
随着蛋白质组学研究的推进,以及高通量实验技术的快速发展,蛋白质组学中关键蛋白质的研究进入了一个新的发展时期。关键蛋白质是生物体存活和繁殖所必需的蛋白质,在生命活动过程中有着举足轻重的地位。关键蛋白质的识别不仅有助于了解细胞新陈代谢、生长发育、分化和凋亡等活动过程,而且在研究疾病发生机理、发现药物靶点和研制新药等方面具有重大应用价值。随着蛋白质相互作用网络数据的不断增长,基于网络拓扑结构识别关键蛋白质受到广泛关注。但由于网络数据不完善和假阳性高等原因,现有的识别算法准确率依然较低。本文在蛋白质相互作用网络拓扑结构的基础上,考虑网络节点的生物功能和生物特性,引进基因本体数据和基因表达数据,构建加权蛋白质相互作用网络。在加权网络上基于局部网络拓扑结构识别关键蛋白质。具体有以下几方面工作:针对现有蛋白质相互作用数据假阳性高的问题,选取基因本体信息度量蛋白质相互作用对的功能相似性,给网络每条边赋予不同权值,构建加权网络。在加权网络上,考虑蛋白质节点的直接邻居和间接邻居节点对蛋白质关键性的不同影响,扩展局部网络拓扑至二阶邻居,并基于节点的度和边的双重特性,提出了新的关键蛋白质识别算法GO_ELAC,并用于识别关键蛋白质。实验结果表明,该算法比其他五种方法能识别更多的关键蛋白质,提高了算法准确率。蛋白质的关键性实际上是一种功能属性,但大多基于网络拓扑的关键蛋白质识别算法,对蛋白质生物意义和生物功能方面的挖掘不够深入。我们引入基因本体数据、基因表达数据和蛋白质相互作用网络数据结合来识别关键蛋白质。首先基于相互作用蛋白质对应基因表达数据的Pearson相关系数过滤蛋白质相互作用网络中的部分边,再引入基因本体数据衡量蛋白质相互作用对的功能相似性,结合蛋白质相互作用对的表达相关性,构建双权重网络。在双权重网络中同时考虑节点和边的特性,提出了改进的PeGO关键蛋白质识别算法。并在两个酵母数据集上测试PeGO算法的实验性能。实验结果表明,PeGO算法识别的关键蛋白质准确率高于其他六种方法,进一步证实了引入与蛋白质相关的生物信息,构造高可信度的加权蛋白质相互作用网络,进而基于加权网络识别关键蛋白质是可行且有效的。