论文部分内容阅读
随着人类基因组计划(Human Genome Project, HGP)的完成,结构基因组学成为后基因时代的研究热点。蛋白质是生命活动的物质基础,蛋白质复合物及其功能的研究不仅有助于理解各种生命活动的规律,也能为深入揭示各种疾病致病机理提供理论根据和解决途径。根据已知功能的蛋白质和相互作用数据来分析蛋白质的拓扑结构特性,挖掘富有生物学意义的蛋白质复合物,从而预测未知蛋白质的功能已成为当前国内外结构基因组学研究的重点。 本文以蛋白质网络拓扑结构特性分析为基点,再结合蛋白质复合物本身特征和生成过程,研究设计了一系列的蛋白质复合物和功能模块挖掘算法,主要工作如下: 1)针对大多数蛋白质复合物的挖掘算法主要集中在无权的蛋白质网络上,从而忽略了蛋白质与蛋白质之间的生物特性的缺陷,本文提出了基于亲和度模型和团扩展的蛋白质复合物识别算法CACE(Connected Affinity Clique Extension)。该算法首先构建了基于亲和度系数的酵母蛋白质有权网络,然后在此基础上通过亲和度密度与团扩展模型挖掘蛋白质复合物。实验仿真结果表明,相对于传统蛋白质复合物挖掘算法,CACE算法能够发现更多富有生物学意义的蛋白质复合物,并在识别准确度上有很大的提升。 2)针对传统算法直接从网络拓扑属性入手,忽略了蛋白质复合物本身所具有的拓扑这一缺陷,本文采用本文采用种子选取、内核扩展以及外核扩展多步扩展模式,提出了基于亲和度模型和种子扩展模型的蛋白质复合物挖掘算法CASE(Conncted Affinity Seed Extension),并将该算法应用到酵母蛋白质有权网络W-PIN的蛋白质复合物挖掘之中。实验仿真结果表明,CASE算法在召回率、准确率、功能富集性以及匹配度等几个层面都有了较大的提升,并且在算法运行效率上也具有更大的提高。 3)结合蛋白质亲和度模型,在基于关键蛋白质节点发现基础上,综合利用多条件融合技术,提出了基于关键节点的多条件融合扩展模型的蛋白质复合物挖掘算法KCME(Key protein Connected Affinity& Multi-Condition Extension),将其应用到酵母蛋白质有权网络W-PIN蛋白质复合物挖掘算法之中。实验仿真结果表明,该算法能够点对点的挖掘出质量极高的蛋白质复合物,还能利用同源相似性原理预测蛋白质复合物的功能及复合物内部蛋白质节点的未知功能。