论文部分内容阅读
蛋白质是生物体实现生命活动的基础,单一的蛋白质难以实现生物体丰富多彩的生命活动,它们通过彼此相互作用并形成蛋白质复合物来实现特定的生物功能。因此在结构复杂、数据规模较大的蛋白质相互作用网络中,精准且高效的识别出蛋白质复合物对理解蛋白质相互作用网络的结构、分析细胞实现生命活动的过程以及生物医学的研究均有重要的意义。在现有的研究中识别蛋白质复合物主要分为实验方法和计算方法,一般采用实验方法花费的时间比较多、成本比较高且识别效率较低,而计算方法可以弥补实验方法这些方面的不足,目前已有学者开发设计众多的识别算法实现自动地从蛋白质相互作用网络中挖掘蛋白质复合物。随着蛋白质相互作用网络数据规模的不断增加,在蛋白质复合物的识别中,现有的算法识别速度有待提高,本文将蛋白质复合物识别算法与Spark技术相结合,提高算法运算效率。随着大数据时代的来临,各种分布式计算框架也得到了快速的发展,Spark由此诞生,Spark是基于内存计算的大数据计算框架,有其自己的核心RDD,减少并行计算时对磁盘的I/O操作。并且拥有丰富的生态圈,与其它分布式平台相比,表现出明显的优势,得到了大数据业内的广泛应用。在众多的算法中,将蛋白质相互作用网络数据转换成图,然后应用聚类算法识别蛋白质复合物是一种有效方法。近邻传播(AP)算法是一种较高精度的聚类算法,但其运算的时间消耗相对比较高,不适用在规模较大的蛋白质相互作用网络数据集上,且其相似性矩阵参考度的值影响聚类效果。本文针对已有AP算法的不足,对其进行了相应的改进,并提出EG-AP算法,该算法的优点是能保持较高的识别精度。此外,我们进一步应用Spark平台并行EG-AP算法加速其蛋白质复合物识别效率,本文的主要研究工作如下:1)改进原始AP算法,提出EG-AP算法,EG-AP算法运算过程分为如下几步:首先,构建相似度矩阵,依据网络中数据节点的关系,对于两个数据点,与两个数据点相连接的公共节点越多,两个数据点之间的相似度越高。应用ECC算法和生物角度的基因注释信息G0,计算数据点间的相似度,构建相似度矩阵。其中相似度矩阵中对角线的值,即参考度的值会影响聚类效果,为此将参考度值的设定进行改进,传统的AP算法中将参考度设置成固定的值,忽略了参考度的值应该和与本数据点有连接关系的其它数据点的相似度有关。本文将每一个数据点参考度的值设置为与该点有连接关系相似度的和与数据点个数的商,再与所有相似度的平均值相加。2)应用EG-AP算法进行蛋白质复合物识别,本文在3个不同物种的蛋白质相互作用网络上并以F-measure,Sep作为评价指标,然后将EG-AP算法与其它聚类算法进行对比分析,实验结果表明该算法在不同的数据集上均有较高的识别精度,这说明了EG-AP算法改进的有效性。3)AP算法是基于矩阵之间的迭代运算,此外蛋白质相互作用网络规模比较大,算法运算会消耗更多的时间,因此本文应用Spark平台搭建Spark集群,并对AP算法进行并行化处理,并在这些数据集上,将单机模式与集群模式下EG-AP算法的运行时间进行对比,并计算加速比。实验结果表明,EG-AP算法进一步提高了蛋白质复合物识别效率,进而说明本文提出的并行EG-AP算法的有效性。