论文部分内容阅读
随着蛋白质网络的日益完善,从大规模蛋白质网络中挖掘蛋白质复合物正成为当前复合物挖掘研究的热点。然而,由于蛋白质复合物拓扑结构的多样性、复合物的层次性与重叠性,在蛋白质网络中挖掘蛋白质复合物还存在很多挑战。针对这些问题,本文针对蛋白质网络中复合物的挖掘和应用进行研究,主要研究工作包括:1)挖掘具有不同拓扑特征的蛋白质复合物:由于蛋白质复合物通常对应蛋白质网络中的稠密子图或模块,目前基于蛋白质网络的复合物挖掘算法通常是通过在蛋白质网络中挖掘稠密子图或模块来识别蛋白质复合物。然而基于稠密子图的方法难以识别低密度的蛋白质复合物,它们通常为模块;而基于模块的方法难以识别模块性较低的蛋白质复合物,它们通常为稠密子图。为了挖掘具有不同拓扑特征的蛋白质复合物,包括低密度的模块和低模块性的稠密子图,我们综合子图密度和模块性定义新的子图局部适应度函数,并提出新的复合物挖掘算法,LF-PIN,通过在蛋白质网络中挖掘具有局部最大适应度的子图来识别蛋白质复合物。实验结果表明,与其他七种优秀的识别算法相比(CMC、Core-Attachment、CPM、DPClus、HC-PIN、MCL和NFC), LF-PIN算法能更有效的标识已知蛋白质复合物,特别是它能更有效标识低密度和低模块性的已知复合物。2)挖掘具有重叠性和层次性的蛋白质复合物:研究表明,蛋白质复合物具有重叠性和层次性。但在当前的复合物挖掘算法中,仅有基于层次聚类的算法能揭示复合物的层次结构。这类算法由于初始簇为互不重叠的蛋白质顶点,所识别的蛋白质复合物互不重叠。为了克服这种局限性,我们提出两种复合物挖掘算法:OH-PIN和MCSE。 OH-PIN为一种层次聚类算法,因此能揭示复合物层次结构;由于初始簇存在重叠,OH-PIN识别的复合物仍然保留重叠。MCSE是一种基于“种子-扩展”的识别算法。在扩展过程中,一个顶点可以被不同的种子访问并加入簇中,因此MCSE可以识别重叠的蛋白质复合物。而通过参数λ控制种子的扩展,MCSE可以识别不同层次的蛋白质复合物。在酵母中的实验结果表明,这两种算法所识别的复合物层次结构均能有效对应于GO注释的层次结构以及MIPS数据库中已知蛋白质复合物的层次结构。与其他优秀的识别算法相比,OH-PIN和MCSE都能更有效的识别已知蛋白质复合物,特别是位于较高层次的蛋白质复合物。比较OH-PIN和MCSE, OH-PIN算法在小规模、高可靠性的蛋白质网络上具有更好的性能,但其运行效率较低;而MCSE算法运行效率高,更适合于大规模蛋白质网络。3)综合蛋白质相互作用和其他生物数据挖掘蛋白质复合物:研究表明,蛋白质相互作用在蛋白质复合物中出现的可能性与它的某些生物特征相关。为了进一步提高蛋白质复合物的预测精度,我们提出一种多元数据融合方法,MD-WPIN,通过应用logistic回归模型评估蛋白质相互作用的关键性、可靠性、在蛋白质网络中的边聚集值以及它的两个蛋白质的亚细胞定位是否相同对它是否出现在蛋白质复合物中的影响,建立加权酵母蛋白质网络YDIPW+。比较多种复合物挖掘算法,包括我们提出LF-PIN和MCSE算法,在非加权酵母蛋白质网络、其他加权酵母蛋白质网络和YDIPW+上的性能,实验结果表明,在YDIPW+中,这些算法具有最佳性能。4)应用蛋白质复合物信息挖掘关键蛋白质:关键蛋白质的识别对于致病基因的发现及药物标靶的鉴定具有重要意义。基于蛋白质复合物和关键蛋白质之间存在密切联系这一发现,我们构造基于蛋白质复合物的测度参数Complex_C来识别关键蛋白质。实验结果表明,蛋白质的Complex_C值与拓扑中心性值均为预测蛋白质关键性的重要因素,并且它们具有良好的互补性。因此,我们综合Complex_C与子图中心性SC构造测度参数HC。为了进一步提高性能,我们将蛋白质亚细胞定位和参与的生物过程这两个蛋白质关键性的预测因子与蛋白质网络相结合构建加权蛋白质网络,扩展HC为HCW并用于在该加权网络中挖掘关键蛋白质。酵母中实验结果表明,当输出样本水平为top5%到25%时,与六种中心性测度方法中的最佳结果相比,HC识别的关键蛋白质分别增加了9.1%到15.2%;而与HC相比,HCW识别的关键蛋白质分别增加了4.2%到11.5%。本文提出的LF-PIN算法针对蛋白质复合物的拓扑多样性,OH-PIN算法和MCSE算法针对蛋白质复合物的层次性与重叠性,MD-WPIN方法通过融合其他有效生物数据到蛋白质网络,各自从不同角度出发,有效地解决了蛋白质复合物挖掘中的一些问题,并提高了复合物的预测精度。最后,我们应用蛋白质复合物信息挖掘关键蛋白质,这为关键蛋白质的识别研究提供了新的思路。