基于蛋白质相互作用网络的功能模块识别及功能预测研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:zhuxuxu520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着高通量实验方法的发展,可获得的全基因组范围的蛋白质相互作用(Protein-Protein Interaction,以下简称PPI)网络数据逐步增多,使得我们可以系统地研究组成整个系统的生物分子的行为和属性。研究蛋白质间的相互作用关系,识别PPI网络中有意义的结构,如蛋白质复合体和功能模块,预测蛋白质相互作用网络中蛋白质的功能,能够帮助人们从分子水平上认识生命运行的机制,阐明各种疾病发病的机理,进而找到新的治疗手段。随着蛋白质相互作用研究的不断深入,仅凭实验的方法已经无法满足大规模蛋白质相互作用网络构建和分析的需求,基于生物信息学的研究方法逐渐受到了人们的重视。然而,蛋白质相互作用的机理复杂,网络数据规模庞大,实验测得的相互作用数据具有较高的假阳性率和假阴性率,这些都给相关的生物信息学研究带来了很大的挑战。本文围绕蛋白质相互作用网络,主要针对以下几个方面进行了深入的分析和研究:(1)基于HKC的蛋白质功能模块识别算法研究。PPI网络具有模块性,包含许多内部密集连接但是同网络的其它部分连接较为稀疏的模块。从PPI网络中预测功能模块不仅可以降低PPI网络的高度复杂性,同时这些功能模块也是深入研究整个PPI网络的组成和结构的关键的第一步,有助于预测蛋白质功能。由于PPI网络数据中存在极高的噪声,以及网络特定的拓扑特性,传统的度量空间中的聚类方法并不能成功地从PPI网络中识别出蛋白质功能模块,本文提出了一种新的基于拓扑的算法——HKC算法,该算法利用两个核心概念,即最大k-core和凝聚度(highest k-core and cohesion,简称HKC),通过从PPI网络中识别可重叠的局部密集子图的方式来预测蛋白质功能模块。在不同数据集和基准集上的实验显示,HKC算法可以有效地从全基因组规模的PPI网络中识别功能模块,并且性能明显优于同类算法。(2)蛋白质相互作用加权方法研究。高通量方法产生的PPI数据具有较高的假阳性率和假阴性率。为了合理评估高通实验方法得到的PPI数据集并修正其中的错误,迫切需要灵活且廉价的计算方法来评估蛋白质相互作用的可靠性。本文提出了两种蛋白质相互作用加权的方法,第一种方法基于随机游走算法提出了权重向量的概念,并利用权重向量作为蛋白质相互作用权值;第二种加权方法提出了一种蛋白质相似度的概念,通过综合利用GO注释信息和网络拓扑结构来评估PPI网络数据的可靠性。利用MCL算法验证加权方法的有效性,分别利用MCL算法在未加权酵母PPI网络和利用各种不同加权方法加权的PPI网络中识别蛋白质功能模块,然后采用多种方法衡量结果性能,实验显示利用蛋白质相似度和权重向量这两种方法对PPI网络进行加权都可以提高功能模块预测算法的性能,这充分说明了这两种加权方法的有效性。(3)基于不同加权方法的蛋白质功能模块识别研究。基于蛋白质相互作用加权方法的研究,本文提出了一种新的蛋白质功能模块预测算法Expander算法,该算法利用亲近度的概念,通过扩展核心来预测功能模块。亲近度利用蛋白质相互作用的权值来计算一个蛋白质同一个已知的团之间的亲近程度,它可以建立在不同的加权方法基础之上。因此Expander算法可以看做是一个开放的平台:可以利用各种不同信息采用多种加权方法对蛋白质相互作用进行加权,然后采用Expander算法在加权后的网络中预测功能模块,这样可以根据实验目的不同有针对地选择不同的加权方法,从而达到更好的效果。(4)蛋白质功能预测方法研究。预测未知蛋白质的功能是后基因组时代最重要的挑战之一,快速有效地对蛋白质功能进行预测对于揭示细胞组成和功能的基本原理,研究蛋白质在生物体代谢途径中的地位,以及深入理解生物体行为和药物设计等方面具有十分重要的意义。本文提出一种基于功能模块的迭代式蛋白质功能预测方法PPIPredict算法,该方法在本文提出的功能模块识别算法(Expander算法)识别出的功能模块基础之上,将各个功能模块当做独立的蛋白质相互作用子图,将模块具有的所有功能作为备选的预测功能,对其中未注释的蛋白质进行迭代式的功能预测。实验表明,该方法的预测效果好于现有的同类预测方法。对以上几个方面的研究构成了本文的主要内容,它们为蛋白质相互作用网络的相关研究提供了新的思路和方法,并具有良好的效果。
其他文献
凯尔森的学说在一般法律理论领域中,占有十分重要地位。“基础规范”的设定对凯尔森理论体系的成立、确立是至关重要的,但人们对于这一概念的抨击也由来已。本文从其提出的逻
高职院校人才培养目标是培养全方位的实用性人才,因此,实践教学在整个教学环节中的位置举足轻重。旅游英语课程实践教学的重点是实训项目的开发与应用。对旅游英语实践教学现状
在"互联网+"的大环境下,电子商务发展已经逐步进入成熟状态,物流也随之进入新的阶段,不少企业已经开始规划其智能物流系统的建设。所谓智能物流,就是利用条形码、RFID技术、
档案管理的工作,工作量非常的大,一直以来都是管理者的头疼问题。而信息化技术的引进,可以从根本上改变以前的档案管理模式。疾控中心的档案管理,关于到社会的疾病预防问题,是更加
乡镇图书馆(室)和农家书屋工程是一项惠及广大农民群众、推动农村文化建设的民生工程。该工程的建设对解决农民群众“借书难、看书难”的问题,保障农民群众基本文化权益,推进社会
随着视觉处理应用越来越广泛,视觉处理器的计算效率及视觉处理存在多样分类计算的问题需要获得更多关注。可重构视觉处理器在传统视觉处理器的基础上,采用可重构核心计算阵列
目的探讨INS基因启动子区单核苷酸多态性与2型糖尿病发病风险和血清IAA-Ab水平的相关性。方法利用Sequenom MassArray SNP分型检测技术,对该院497例2型糖尿病患者(病例组)和500
计算机基础是高职院校学生的一门公共基础课,其重要性和基础性也与日俱增。随着信息网络技术的发展,计算机被广泛地用于社会的各个领域中。针对本校计算机基础传统考试方法的不
根据一氧化碳中毒资料,分析气象因素对一氧化碳中毒的影响,对进一步提高非职业性一氧化碳中毒预报服务的准确度、规范预报的发布、预防和减少一氧化碳中毒事件的发生等有着重