基于PPI网络的蛋白质复合物和关键蛋白质识别算法研究

来源 :江西理工大学 | 被引量 : 0次 | 上传用户:yellowfly1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物交叉网络信息技术的快速发展和多种生物基因的不断增多,大量蛋白质数据出现,使得研究蛋白质网络功能表达、作用环境、产生的影响、组成结构成为了生物网络研究的要点。特别是PPI网络中蛋白质复合物以及关键蛋白的发现,对探索疾病机制和药物研制方面有参考价值。近年来,虽然大量关于蛋白质复合物以及关键蛋白质的探究取得了突破性进展,大量数据由各种高通量技术手段获得,但由于PPI网络本身的复杂性、不可靠性和小世界性以及目前挖掘算法本身的局限性,得到的数据存在着较高比例的假阳性和假阴性,导致识别准确率不高,并且多数算法对蛋白质复合物和功能模块没有严格的界定。因此,从PPI网络中精确地挖掘复合物以及关键蛋白还存在很多挑战。本文提出了模糊蚁群聚类算法、模块度函数、模糊谱聚类算法以及基于复合物参与度和密度的识别算法对蛋白质复合物以及关键蛋白质进行检测。主要从两方面着手:第一,基于PPI网络本身的复杂性以及数据的缺陷,结合网络拓扑特性以及生物信息构建加权网络以及不确定网络。第二:针对于传统模块挖掘算法的缺陷,提出模糊蚁群算法、模块度函数以及模糊谱聚类算法来弥补传统算法的不足,同时也提出一些改进策略来优化这些算法本身的一些问题,进而实现蛋白质复合物的挖掘;在挖掘的复合物的基础之上,实现关键蛋白的识别。本文主要工作如下:(1)针对复合物识别效果受假阳性的影响、蚁群聚类算法的大量拾起放下和合并过滤操作、FCM聚类算法对开始中心和聚类数目敏感,隶属度函数更新较慢以及目标函数仅仅考虑类内差异等导致的复合物识别的准确率、召回率不高以及执行效率低等缺陷,提出一种基于模糊蚁群的加权蛋白质复合物识别算法FAC-PC。首先将边聚集系数与皮尔逊相关系数组合来构建加权网络;设计关键蛋白质和关键组蛋白质的度量选取公式,利用关键组蛋白质代替种子节点;设计基于权重的相似度度量优化蚁群算法的拾起放下概率,进而模拟蚁群聚类用于初始化FCM算法;同时通过隶属度的更新策略和兼顾类内和类间的目标迭代函数来改进FCM算法,利用改进的FCM算法实现复合物的挖掘。实验结果表明该方法比其他群智能蚁群优化算法以及其他复合物挖掘算法都能获得较准确的聚类效果。(2)针对基于模块度函数的复合物预测算法仅仅只分析网络的拓扑特性而未分析生物信息,难以识别出重叠和规模较小的复合物以及实验结果容易受假阳性和噪声数据的影响等导致的挖掘准确率、召回率不高以及执行效率较低等问题,提出一种基于模块度函数的加权蛋白质复合物识别算法IWPC-MF。首先将边聚集系数、点聚集系数和皮尔逊相关系数组合来构建加权网络;设计节点权重选择种子节点,遍历种子节点的邻居节点;其次设计节点间的相似度度量和蛋白质附着度来获取初始聚类模块;最后设计出基于紧密度的模块度函数来合并初始模块,完成复合物的挖掘。对比分析表明该算法能够更准确的识别复合物。(3)针对谱聚类融合FCM聚类的蛋白质网络复合物挖掘方法准确率不高、执行效率较低和易受假阳性影响等问题,基于不确定网络,提出一种基于模糊谱聚类的不确定PPI网络蛋白质复合物挖掘FSC-PC方法。首先利用边聚集系数构建不确定网络;结合边聚集系数和流行距离来改进谱聚类算法的相似度度量来降低数据的维数,对数据进行预处理;其次设计基于密度的概率中心选取策略来获得FCM算法的开始中心和聚类数目,并对预处理后的数据执行FCM聚类,从而得到蛋白质复合物;最后采用改进的边期望稠密度来过滤复合物。实验表明该算法比其他复合物预测算法更加准确。(4)针对基于PPI的关键蛋白质识别方法只分析网络结构,基于复合物信息的关键蛋白质识别方法对节点的邻域信息和复合物的挖掘对识别的影响效果考虑不够全面等导致的准确性以及特异性不高的问题,通过综合考虑蛋白质网络特性和生物信息,本文设计出基于复合物参与度和密度的关键蛋白质预测算法PEC。首先结合GO注释信息和边聚集系数构建加权网络;设计特征值间的最大本征差值以及蛋白质节点度来得到模糊谱聚类算法的划分数目和开始中心,进而利用模糊谱聚类算法来对复合物进行挖掘;其次利用基于复合物的参与度和节点邻域子图密度的关键节点得分计算来挖掘关键蛋白。实验结果表明该识别方法比拓扑中心性方法以及基于复合物信息的识别方法都有更好的识别准确性。
其他文献
风能是一种无污染的可再生能源。目前,蓬勃发展的风电市场已证明了陆上风电大规模商业化开发的实力,而我国1.8万千米的海岸线和约300万平方公里的海洋国土面积同样蕴含着巨量
近几年,随着国家政策的制定,人类对海洋的探索和开发越来越频繁,以满足对海洋资源的日益需求。传统的海洋开发过程大都依靠人工以及各种远程操控水下航行器(ROV)或者自主式水
全球变暖的加剧、化石燃料的枯竭以及成本效益高的制造技术的进步,使可再生能源成为一种可靠的能源。燃料电池、地热、风能、水力、生物质量和太阳能是领先的可再生能源。其
在厅堂音质设计、噪声控制以及声学环境的控制中,都广泛地应用各种吸声材料和吸声结构,吸声系数是吸声材料和吸声结构在不同状况下的应用的重要参数。吸声系数的测量主要包括
近年来,爆炸物不断地威胁着人们的生命财产安全,对爆炸物检测研究越来越得到人们的重视。我们知道,TNT(2,4,6-三硝基甲苯)、DNT(2,4-二硝基甲苯)都是炸药的主要成分,根据有关
在传统化石能源的开采利用面临着储量降低、污染严重等一系列问题的背景下,太阳能凭借着普遍、无害、巨大、长久等特点,成为一种重要的新型能源。由于到达地球的太阳辐射能流
一、脱硝催化剂的失活机理当催化剂运行一段时间后,不可避免地因为各种复杂的物理和化学作用而失活。再加上我国燃煤电厂多燃用劣质煤、运行煤种频繁变化以及燃煤成分复杂的
会议
现代高层建筑为了追求大空间,不再使用截面面积较大的“胖柱”,而是选用承载力及延性均较好的钢-混凝土组合柱。在钢骨-钢管混凝土柱的基础上,本文提出了一种新的钢与混凝土
使用机器人装配电缆等柔性工件是进一步提高生产效率和降低人力成本的关键。许多工业领域已经实现了用机器人自动组装工件。由于像电缆、柔性电路板、密封圈这类柔性工件在受
不平衡数据是指在样本集中各类样本的数量差异悬殊的数据集,类别不平衡学习算法的目的是提高传统分类器在不平衡数据上的分类性能。而且,在单台机器上难以有效地处理大规模的