论文部分内容阅读
蛋白质复合物是由多个蛋白质在相同时间和空间上通过相互作用结合在一起形成的一组稳定蛋白质。目前,通过实验获得的蛋白质复合物数目有限而且成本代价较高。因而,利用计算方法对蛋白质复合物进行识别具有重要的实际意义和应用价值。本文从四个方面对蛋白质复合物识别方法进行研究,主要内容如下:第一,蛋白质复合物识别通常是利用蛋白质相互作用网络中的拓扑信息进行图聚类,较少考虑到蛋白质氨基酸序列中的背景频率对复合物识别的影响。针对这个问题,本文提出基于融合特征的局部搜索图聚类算法。首先,在特征提取的过程,融合蛋白质序列信息中氨基酸的背景频率和网络中的拓扑信息。其次,在定位蛋白质复合物的算法中引入相似性度量(即余弦相似性)。最后,在复合物的判断部分,利用拓扑和生物特征同时对识别到的簇进行判断,并且允许不同蛋白质复合物彼此交叠。实验结果表明:算法能够有效地匹配更多的真实蛋白质复合物。第二,蛋白质复合物在相互作用网络中存在多种拓扑形态,如线型、星型、全连通型和混合型等,不能用统一形式描述其拓扑结构。因此,本文提出基于支持向量机有监督图聚类算法。同时,基于局部搜索图聚类算法中生物信息的有效性,加入序列特征。首先,统计真实复合物长度分布的特点,从蛋白质相互作用网络中随机生成反例集合。其次,设计基于有监督的融合拓扑和生物特征的有效的识别算法。最后,在算法识别的过程中利用拓扑约束和支持向量机判断识别到的蛋白质簇。实验结果表明:基于支持向量机的有监督图聚类方法在F-Measure方面较其他几个经典算法具有更好的表现性能。同时,通过实例分析证明算法有利于识别混合拓扑结构的复合物。第三,由于蛋白质相互作用网络的数据中含有噪声数据,使得预测的结果往往不够准确。而且,常用的识别算法往往基于单一的相互作用数据集。针对此问题,本文提出结合多数据源信息的有权图复合物识别算法。构建三个有权图:基于基因本体的蛋白质有权相互作用网络、基于von Mering相互作用置信度的有权蛋白质相互作用网络和融合von Mering与基因本体信息的有权图相互作用网络。实验结果表明:基于融合的有权图识别方法在召回率、准确率和F-Measure方面均能有效提升复合物的识别性能。第四,复合物的形成不仅受到拓扑信息的影响,同时也受到空间信息的约束。目前,大部分识别方法只提取局部密集区域的网络来识别蛋白复合物,并且主要基于蛋白质相互作用之间的拓扑信息,没有考虑蛋白质复合物内部的蛋白质之间空间结构的限制,这使得识别到的复合物不可避免的存在一些假阳性的数据。基于此问题,本文引入亚细胞空间信息来识别蛋白质复合物,主要研究内容包括:基于排序策略的复合物识别和融合策略的复合物识别。在基于排序策略方面,首先,在相互作用网络上得到候选蛋白质簇的集。然后,利用排序策略筛选,有效过滤假阳性的复合物。融合空间特征方法在拓扑和空间信息的网络上识别候选簇,通过合并策略得到最终的簇。此方法能够有效地提升L、CFinder、MCODE和MCL算法在F-Measure评价的表现性能。最后,详细阐述论文中提出的四个算法的特点,分析它们之间的相互关系和应用场合。