基于Spark改进的AP算法并行化及其在蛋白质复合物识别应用研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:yylove51
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生物体实现生命活动的基础,单一的蛋白质难以实现生物体丰富多彩的生命活动,它们通过彼此相互作用并形成蛋白质复合物来实现特定的生物功能。因此在结构复杂、数据规模较大的蛋白质相互作用网络中,精准且高效的识别出蛋白质复合物对理解蛋白质相互作用网络的结构、分析细胞实现生命活动的过程以及生物医学的研究均有重要的意义。在现有的研究中识别蛋白质复合物主要分为实验方法和计算方法,一般采用实验方法花费的时间比较多、成本比较高且识别效率较低,而计算方法可以弥补实验方法这些方面的不足,目前已有学者开发设计众多的识别算法实现自动地从蛋白质相互作用网络中挖掘蛋白质复合物。随着蛋白质相互作用网络数据规模的不断增加,在蛋白质复合物的识别中,现有的算法识别速度有待提高,本文将蛋白质复合物识别算法与Spark技术相结合,提高算法运算效率。随着大数据时代的来临,各种分布式计算框架也得到了快速的发展,Spark由此诞生,Spark是基于内存计算的大数据计算框架,有其自己的核心RDD,减少并行计算时对磁盘的I/O操作。并且拥有丰富的生态圈,与其它分布式平台相比,表现出明显的优势,得到了大数据业内的广泛应用。在众多的算法中,将蛋白质相互作用网络数据转换成图,然后应用聚类算法识别蛋白质复合物是一种有效方法。近邻传播(AP)算法是一种较高精度的聚类算法,但其运算的时间消耗相对比较高,不适用在规模较大的蛋白质相互作用网络数据集上,且其相似性矩阵参考度的值影响聚类效果。本文针对已有AP算法的不足,对其进行了相应的改进,并提出EG-AP算法,该算法的优点是能保持较高的识别精度。此外,我们进一步应用Spark平台并行EG-AP算法加速其蛋白质复合物识别效率,本文的主要研究工作如下:1)改进原始AP算法,提出EG-AP算法,EG-AP算法运算过程分为如下几步:首先,构建相似度矩阵,依据网络中数据节点的关系,对于两个数据点,与两个数据点相连接的公共节点越多,两个数据点之间的相似度越高。应用ECC算法和生物角度的基因注释信息G0,计算数据点间的相似度,构建相似度矩阵。其中相似度矩阵中对角线的值,即参考度的值会影响聚类效果,为此将参考度值的设定进行改进,传统的AP算法中将参考度设置成固定的值,忽略了参考度的值应该和与本数据点有连接关系的其它数据点的相似度有关。本文将每一个数据点参考度的值设置为与该点有连接关系相似度的和与数据点个数的商,再与所有相似度的平均值相加。2)应用EG-AP算法进行蛋白质复合物识别,本文在3个不同物种的蛋白质相互作用网络上并以F-measure,Sep作为评价指标,然后将EG-AP算法与其它聚类算法进行对比分析,实验结果表明该算法在不同的数据集上均有较高的识别精度,这说明了EG-AP算法改进的有效性。3)AP算法是基于矩阵之间的迭代运算,此外蛋白质相互作用网络规模比较大,算法运算会消耗更多的时间,因此本文应用Spark平台搭建Spark集群,并对AP算法进行并行化处理,并在这些数据集上,将单机模式与集群模式下EG-AP算法的运行时间进行对比,并计算加速比。实验结果表明,EG-AP算法进一步提高了蛋白质复合物识别效率,进而说明本文提出的并行EG-AP算法的有效性。
其他文献
我国新型城镇化步伐逐渐加快的同时,我国的乡村经济发展也越来越快,可仍然无法改变的是:只有在解决“三农”问题的前提下,我国的经济发展、社会稳定和繁荣富强才能加快实现。而农业是解决“三农问题”的关键点,农民生活质量的改善和农村的加快发展都与农业息息相关。因此,乡村产业规划过程中保持对乡村产业发展的关注,是发挥规划引导,明确规划重点的必不可少的条件。湖北省政府在2012年就提出了大力建设美好乡村的口号,
债券市场是一个国家资本市场的重要组成部分,为满足实体经济的投融资需求发挥着重大作用。债券市场的状况通常体现出一个国家资本市场的完善程度和经济社会的发展水平。相比于国外成熟繁荣的债券市场而言,中国债券市场是在改革开放之后开始真正起步发展,目前正处于发展的初步阶段。初期的债券市场在市场的基础制度建设、市场运行机制以及市场结构性上都存在较大的问题与缺陷。尤其处于我国特殊的国情背景下,中国债券市场一直存在
新信息化经济时代,大数据分析是经济可持续发展的扎实基础.但是在资产组合、电子商务和证券市场等金融领域,高频率的数据收集、数据整理以及数据分析能够更好地降低全球化的
雾霾、PM2.5、水污染、油荒等词已成为近年来的热点,频频出现在社会新闻之中。我国企业重经济利益、轻社会责任的现象引发了环境污染及能源压力等诸多问题。企业与利益相关者之间的关系在企业负外部性行为的作用下不断恶化,于是利益相关者开始关注企业的社会责任问题并对企业行为加以约束。如何提升企业实施社会责任的意识与动机、加强企业对利益相关者的责任履行已成为学术界与社会大众共同关注的重点。国内外学者通过对企业
随着我国人口老龄化趋势的逐年加剧,老年人的社会服务资源紧缺问题日益突出,特别是对于行动不便的老年人群。目前我国老年人的长期护理方式主要是以家庭成员或雇佣保姆等护理
近年来,大型跨国公司的税收激进行为日益突出,企业避税问题成为监管部门重点监督防范的问题。与此同时,会计师事务所在其中扮演的角色也越来越受到关注。2013年,英国下议院会计公共委员会质疑四大会计师事务所利用法律漏洞帮助跨国公司避税。据英国媒体调查报道,很多跨国企业在会计师事务所的帮助下,使用转移定价等方式进行避税。学术界以往的研究讨论了公司避税的手段、影响因素及经济后果等方面,鲜有文献关注审计师在企
随着工业4.0和智能制造2025等概念的提出和实施,自动导引车(Automated Guided Vehicle,AGV)在自动化工厂、智能化物流系统等领域得到了广泛的应用。AGV的大量应用提高了相关
在非交换射影代数几何的研究中,需要将一个诺特分次代数的商范畴用其它代数的商范畴来刻画.在非交换奇点解消理论中,需要将Gorenstein代数的商范畴用某个自反模的自同态代数
当前,我国机器人市场进入高速增长期,工业机器人连续五年成为全球第一大应用市场。然而工业机器人在使用中存在能量的不合理利用,造成大量的能源浪费,其能耗问题已上升到国家
麦盖提斜坡在其形成演化过程中经历了多期构造运动,构造应力场多次发生改变,从而发育多期次活动的断裂构造,成为斜坡带的一个显著特征。麦盖提斜坡不同期次断裂构造的构造变