论文部分内容阅读
随着生物信息学的迅速发展,人们对生物学的研究已经逐渐扩展到蛋白质组学的层面。关键蛋白质的移除会造成有关蛋白质功能模块的功能丧失,进而使细胞无法正常的进行生命活动,从而导致生物体无法生存。关键蛋白识别与保护是药物开发的基础,它对于理解细胞生命活动的必需物质具有十分重要的理论意义和应用价值。基于试验数据利用计算方法识别关键蛋白质可以极大地节省时间和资源,所以对蛋白质相互作用网络中的关键蛋白质进行识别是生物信息学领域的一个重要研究方向。目前,比较常用的关键蛋白质识别算法有:度中心性测度算法、接近度中心性测度算法、介数中心性测度算法、桥中心性测度算法、局部平均连接中心性测度算法、网络中心性测度算法等,但这些测度算法仅仅从蛋白质相互作用网络的全局信息或者局部信息对关键蛋白质进行识别。本文通过分析功能模块与关键蛋白质的关系,提出了一种能够从局部反映蛋白质相互作用网络中各蛋白质顶点拓扑特性的指标—局部系数,并设计了结合局部系数和点介数的中心性测度算法—LBC中心性测度算法。由于该算法不仅包含了蛋白质相互作用网络的全局信息,而且又融合了蛋白质分子的局部信息,所以能更全面的对关键蛋白质进行识别。试验结果表明,在无标度网络中,LBC算法的关键蛋白质识别率比上述六种测度算法高10%以上。并且在算法的稳定性和普遍性方面,LBC算法也优于上述六种测度算法。由于LBC算法中的介数中心性计算的时间复杂度较高,所以本文从两个方面对其进行了改进。一方面是对算法本身进行改进,在计算介数中心性时利用VC维理论控制样本大小只对部分最短路径进行计算,使得在精度降低不大的情况下大幅度提高了计算效率。另一方面利用GPU对算法进行加速,设计并实现了基于CUDA架构的介数中心性算法,通过GPU硬件加速。试验结果表明,基于CUDA的LBC算法在保证检测精度不变的情况下将计算时间缩短了20-100倍。