论文部分内容阅读
随着生物交叉网络信息技术的快速发展和多种生物基因的不断增多,大量蛋白质数据出现,使得研究蛋白质网络功能表达、作用环境、产生的影响、组成结构成为了生物网络研究的要点。特别是PPI网络中蛋白质复合物以及关键蛋白的发现,对探索疾病机制和药物研制方面有参考价值。近年来,虽然大量关于蛋白质复合物以及关键蛋白质的探究取得了突破性进展,大量数据由各种高通量技术手段获得,但由于PPI网络本身的复杂性、不可靠性和小世界性以及目前挖掘算法本身的局限性,得到的数据存在着较高比例的假阳性和假阴性,导致识别准确率不高,并且多数算法对蛋白质复合物和功能模块没有严格的界定。因此,从PPI网络中精确地挖掘复合物以及关键蛋白还存在很多挑战。本文提出了模糊蚁群聚类算法、模块度函数、模糊谱聚类算法以及基于复合物参与度和密度的识别算法对蛋白质复合物以及关键蛋白质进行检测。主要从两方面着手:第一,基于PPI网络本身的复杂性以及数据的缺陷,结合网络拓扑特性以及生物信息构建加权网络以及不确定网络。第二:针对于传统模块挖掘算法的缺陷,提出模糊蚁群算法、模块度函数以及模糊谱聚类算法来弥补传统算法的不足,同时也提出一些改进策略来优化这些算法本身的一些问题,进而实现蛋白质复合物的挖掘;在挖掘的复合物的基础之上,实现关键蛋白的识别。本文主要工作如下:(1)针对复合物识别效果受假阳性的影响、蚁群聚类算法的大量拾起放下和合并过滤操作、FCM聚类算法对开始中心和聚类数目敏感,隶属度函数更新较慢以及目标函数仅仅考虑类内差异等导致的复合物识别的准确率、召回率不高以及执行效率低等缺陷,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC。首先将边聚集系数与皮尔逊相关系数组合来构建加权网络;设计关键蛋白质和关键组蛋白质的度量选取公式,利用关键组蛋白质代替种子节点;设计基于权重的相似度度量优化蚁群算法的拾起放下概率,进而模拟蚁群聚类用于初始化FCM算法;同时通过隶属度的更新策略和兼顾类内和类间的目标迭代函数来改进FCM算法,利用改进的FCM算法实现复合物的挖掘。实验结果表明该方法比其他群智能蚁群优化算法以及其他复合物挖掘算法都能获得较准确的聚类效果。(2)针对基于模块度函数的复合物预测算法仅仅只分析网络的拓扑特性而未分析生物信息,难以识别出重叠和规模较小的复合物以及实验结果容易受假阳性和噪声数据的影响等导致的挖掘准确率、召回率不高以及执行效率较低等问题,提出一种基于模块度函数的加权蛋白质复合物识别算法IWPC-MF。首先将边聚集系数、点聚集系数和皮尔逊相关系数组合来构建加权网络;设计节点权重选择种子节点,遍历种子节点的邻居节点;其次设计节点间的相似度度量和蛋白质附着度来获取初始聚类模块;最后设计出基于紧密度的模块度函数来合并初始模块,完成复合物的挖掘。对比分析表明该算法能够更准确的识别复合物。(3)针对谱聚类融合FCM聚类的蛋白质网络复合物挖掘方法准确率不高、执行效率较低和易受假阳性影响等问题,基于不确定网络,提出一种基于模糊谱聚类的不确定PPI网络蛋白质复合物挖掘FSC-PC方法。首先利用边聚集系数构建不确定网络;结合边聚集系数和流行距离来改进谱聚类算法的相似度度量来降低数据的维数,对数据进行预处理;其次设计基于密度的概率中心选取策略来获得FCM算法的开始中心和聚类数目,并对预处理后的数据执行FCM聚类,从而得到蛋白质复合物;最后采用改进的边期望稠密度来过滤复合物。实验表明该算法比其他复合物预测算法更加准确。(4)针对基于PPI的关键蛋白质识别方法只分析网络结构,基于复合物信息的关键蛋白质识别方法对节点的邻域信息和复合物的挖掘对识别的影响效果考虑不够全面等导致的准确性以及特异性不高的问题,通过综合考虑蛋白质网络特性和生物信息,本文设计出基于复合物参与度和密度的关键蛋白质预测算法PEC。首先结合GO注释信息和边聚集系数构建加权网络;设计特征值间的最大本征差值以及蛋白质节点度来得到模糊谱聚类算法的划分数目和开始中心,进而利用模糊谱聚类算法来对复合物进行挖掘;其次利用基于复合物的参与度和节点邻域子图密度的关键节点得分计算来挖掘关键蛋白。实验结果表明该识别方法比拓扑中心性方法以及基于复合物信息的识别方法都有更好的识别准确性。