基于基因本体和拓扑结构的关键蛋白质识别算法研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:huacheng5215
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
关键蛋白质是生物体生存和繁殖的必要生物蛋白质,识别它们可以帮助人们理解细胞生命的最小需求。随着蛋白质相互作用网络数据的日益完善,基于网络拓扑结构识别关键蛋白质的方法受到广泛关注,但是由于蛋白质网络数据不完善和假阳性高等原因,影响了关键蛋白质的识别率。本文考虑蛋白质节点的生物特性,有区分的对待蛋白质网络中所有的边,利用基因本体信息计算两个端点蛋白质在基因本体术语上的功能相似性,以此衡量蛋白质节点间相互作用的可靠性,为蛋白质网络中的每一条边赋予不同的权重,并结合蛋白质节点在网络中的拓扑特征一起来识别关键蛋白质。论文主要工作如下:针对蛋白质网络中存在一定假阳性信息以及关键蛋白质邻居间呈现共聚类特性,本文结合基因本体信息和边聚集系数,提出一个关键蛋白质识别算法—EGC算法(Edge clustering coefficient and Gene ontology information’s Combination)。实验结果表明,在两个真实的酵母蛋白质数据集(DIP和MIPS)上,EGC算法比其他方法识别的关键蛋白质数目多,识别准确率较高,而且可以识别被其他方法所忽略的关键蛋白质。针对关键蛋白质在具有相同或相近生物功能的蛋白质复合物中存在聚集现象,本文结合基因本体信息和复合物信息,提出一个关键蛋白质识别算法—CCG算法(Combining Complex centrality and Gene ontology information)。实验结果表明,在三个真实的酵母蛋白质数据集(DIP、MIPS和BioGRID)以及两个蛋白质复合物数据集(CM270和CM408)上,CCG算法相比其他方法能够识别出更多的关键蛋白质,在敏感性、特异性、准确率等六种统计指标上的值也优于其他方法。
其他文献
基于密度泛函理论,本论文主要研究了Li原子在硅烯表面的吸附和迁移。本文先通过第一性原理计算研究了硅烯原胞的几何结构和电子结构,然后再研究在硅烯表面吸附不同个数的锂原子
我国的国有建筑施工企业在国民经济中占据重要地位。随着经济全球化的不断发展、国际竞争的日益激烈,越来越多工程项目开工建设,现代化的建筑施工体系也越来越专业化,社会化
我国山区众多,地震频发,随着西部大开发战略的不断深入,我国将有大量的基础工程建设在山体和自然滑坡上进行,这样一来,边坡的稳定程度是否能够保证工程的正常进行以及后续的安全,是边坡工程领域一直需要考虑的重点问题。在边坡稳定性分析领域,已经有很多成熟的方法,但是在多种工况下边坡的稳定性的研究还有许多可以研究的空间。本文选取当前理论成熟度很高的极限分析理论,结合混合离散思想和数学规划方法,在考虑孔隙水压力
课堂提问是小学语文教学中的"常规武器"。本文主要是从两大方面谈小学语文课堂提问的艺术:设计的艺术;操作的艺术。
随着物联网技术的不断发展与工业信息化的不断推进,传统的工业控制网络已经无法满足工业生产的需求,德国“工业4.0”的推出更是加强了工业控制系统的对外开放,大量与外界复杂的网络互联导致工业控制网络安全受到威胁。近年来世界各地工控安全事故频发,对社会造成了很大影响,为了实现对工业控制系统通信网的安全防护,本文以常熟水利枢纽望虞河泵站为背景,深入分析工业控制网络的通信特性,利用深度神经网络对水利泵站工控网
研究目的:不同中医类型与疾病存在一定的关系,通过对中医体质的改善,一方面可以预防疾病,另一方面对于改善患病个体的病理状态具有积极的作用,从而为“治未病”提供了重要方
以建筑可再生能源系统为研究对象,选取天津气象条件下3层住宅建筑进行分析,在供需两侧建立可再生能源发电和建筑负荷的神经网络预测模型,提出考虑峰谷电价的系统控制策略;在
丁醇胁迫条件对光合蓝细菌细胞的毒害严重,阻碍了其作为工程宿主菌生产生物丁醇的发展。为了探究蓝细菌对丁醇的耐受机制,在丁醇胁迫条件下筛选了一组缺失编码反应调控因子基
在研究汽车发动机冷却系统设计原理、结构功用及主要工作特点的前提下,通过系统分析冷却系统故障影响因素及主要表现形式,提出了相应的冷却系统故障诊断及维修关键技术措施,
一 今年,普通高校招生规模再度扩大。连年的扩招,使我国高等教育向大众化方向发展迈出了坚实的一步。千秋基业,教育为本。当我们把教育置身于整个社会的历史长河中去考察,从国家