论文部分内容阅读
在生物体内,蛋白质复合物由多个蛋白质通过它们之间的相互作用来一起实现某一生命活动,是保证生物正常存活的基础,同时也为研究病理过程提供了重要的生物理论依据。因此,识别由蛋白质构成的复合物对理解细胞组织及其在生命活动机制中的功能等多方面有着重要作用。近些年来,由于群智能算法的快速兴起和逐渐成熟,其在PPI网络中的各种应用也日渐增多,不仅体现在与传统算法相结合来识别复合物,也体现在群智能算法本身应用上。本文的主要研究工作包括将粒子群优化算法和萤火虫优化算法用于基于密度法的OPTICS算法中存在的参数和细菌觅食算法设计聚类模型识别复合物两个方面,具体的工作如下:(1)重点介绍了粒子群算法、萤火虫算法和细菌觅食算法的基本实现原理及各算法的基础操作流程,并对动态PPI网络的研究现状和基本构建进行了描述,同时将基本的基于密度的聚类方法应用在DPINs中对复合物进行有效的挖掘。(2)由于当前PPI网络相互作用数据的不完善性和不准确性,并且复合物具有一些特殊的结构特性,基于密度法的聚类分析中传统的的距离计算方式不适用于衡量PPI网络蛋白质间的关系。因此在PPI网络中采用衡量结点之间相似性的方法来代替原方法中距离的计算,所选取的计算方法能够比较准确的反映蛋白质结点间相互连接的紧密程度。(3)针对原OPTICS聚类算法中的核心点,重新定义PPI网络中的核心点,并使用群智能算法优化OPTICS聚类算法,寻找到最好的一组参数得到的结果所对应的就是聚类的最好结果。在动态PPI网络中挖掘蛋白质复合物时,使用群智能算法优化聚类算法来提高算法运行效率,找到全局最优值。该算法在四种动态PPI数据集上进行测试,并与已有的7种方法以及OPTICS算法本身进行比较,实验结果表明,使用群智能算法优化过的OPTICS算法在f-measure和p-value评价方面的性能优于对比的算法。这意味着,从本算法中获得的聚类结果比其他方法识别的复合物准确性更高和生物学意义更强。(4)针对群智能算法的原理和一些与PPI网络和复合物结构上的对应关系,将群智能算法设计为类似聚类分析过程的一个模型,并将其用于挖掘复合物。本文中采用细菌觅食算法来设计这样的一个聚类模型,利用细菌觅食的趋向性行为、复制过程和迁徙行为与蛋白质复合物的核心附件结构特性进行结合来识别聚类模块,并将此模型应用到对动态PPI网络的聚类中,调整模型使其合理有效,最后得到了比较好的聚类结果。在该部分同样也在四种PPI数据上进行测试,并将该算法与其他6种经典算法进行对比,结果表明改进后的算法能够改进原算法存在的缺点,有效的提高了结果的查全率,并在f-measure评价中优于对比算法。