基于功能域组分的蛋白质折叠类型识别

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:lxwhuochai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质空间结构研究是分子生物学、细胞生物学、生物化学以及药物设计等生命科学领域的一个重要课题。但由于X射线晶体衍射以及核磁共振等实验方法的费时费力以及实验方法的局限性,使得蛋白质结构的预测速度远远跟不上序列的增长速度。因此,基于知识预测已知序列的蛋白质结构变得十分紧迫。目前,国际上由蛋白质的氨基酸序列预测其空间结构的方法有以下三种:同源模建法、折叠识别法和从头计算法。同源模建法受到序列相似度的限制,从头计算运算量太大。介于两者之间的折叠识别被认为是最有潜力的方法。   蛋白质折叠类型分类是蛋白质折叠研究领域的基本问题,同时也是蛋白质折叠识别的基础。SCOP、CATH等是蛋白质折叠分类数据库中应用较为广泛的数据库,折叠分类也基本上是靠专家来完成,但两者的分类依据及分类结果并不相同,分类的目的也并不是为了进一步的蛋白质折叠识别。为了更好的开展蛋白质折叠机理及折叠类型稳定性研究、以及进一步的折叠识别、蛋白质折叠结构进化研究,建立基于统一规范的蛋白质折叠类型数据库特别重要。   我们在前期工作的基础上,通过对蛋白质折叠类型的研究,以结构核心的拓扑连接和空间排布为依据,构建了基于统一原理的蛋白质折叠类型数据库LIFCA,为蛋白质折叠识别奠定了基础。同时,我们利用在亚细胞定位、蛋白酶类别划分、蛋白质结构类预测领域均有广泛应用并得到了很好的预测效果的功能域组分方法,对IAFCA中样本量大于2的124种折叠类型进行了折叠识别研究,并在多个检验集上对所用方法进行了检验,得到了较高的识别结果。   本文的研究工作主要包括以下几个方面:   1.蛋白质折叠类型数据库的构建蛋白质折叠类型数据库LIFCA的数据来源于ASTRAL-1.65数据库中序列一致性小于25%的非冗余子集,包含α、β、α/β类蛋白共2406个,根据折叠核心的拓扑连接和空间排布,进行蛋白质折叠类型分类。LIFCA包含259个折叠类型,覆盖了SCOP中244个折叠子。考虑到样本数目对折叠类型信息提取全面性的影响,我们筛选了LIFCA中样本量大于2的124种折叠类型,共涉及2240个样本,构建实验集。   2.蛋白质功能域组分的提取蛋白通常由一个或多个功能区域组成,Pfam数据库对大量的已知功能域进行了多序列比对和profile-HMM建模。在Pfam中可以通过序列搜索确定查询序列中包含的功能域信息,从而确定蛋白所属折叠类型涌盖的功能特征。我们将实验集中2240个样本在Pfam中进行搜索,设定搜索参数,共得到1235个功能域组分。   3.基于功能域组分的蛋白质折叠类型识别我们以搜索到的1235个功能域组分作为向量集合,以向量形式表示每种蛋白和折叠类型,进一步判定每种蛋白和不同折叠类型之间的相关程度,从而对蛋白的折叠类型进行判定识别。对包含基于Astral1.65中序列一致性低于95%的样本构建的全集、独立检验集在内的不同检验集进行折叠识别效果检验,全库检验结果中平均敏感性为94.58%,特异性为99.96%,MCC值为0.91。统计结果表明:功能域组分方法可以很好的应用在蛋白折叠识别中,LIFCA相对简单的分类规则可以很好的集中蛋白的大部分功能特性,反映了结构与功能的对应关系。   蛋白质折叠类型数据库及折叠识别方法的建立,将为进一步的蛋白质折叠类型自动分类及蛋白质折叠经验规律研究奠定基础。
其他文献
期刊
期刊
为了适应环境,很多动物(如两栖类、爬行类和昆虫)在长期的进化过程中演化出了活性高、专一性强的蛋白和多肽。它们作用的特异性和专一性,使其成为蛋白质、多肽结构与功能研究的良
表面等离激元(surface plsmon,SP)作为光与金属纳米结构表面自由电子相互作用产生的一种电磁模式,强烈地依赖于金属纳米结构的形状、尺寸、材料以及周围介质环境。根据SP在不同
随着我国汽车产业的快速发展,汽车逐步进入普通家庭,给人们出行带来极大的方便,对人们的生活产生巨大影响。由于自然中石油资源有限,而当今社会仍以石油为主要能源,市场油价
西南喀斯特区域受特殊地质背景制约,生态环境本身十分脆弱,再加上人类长期不合理的土地开发与垦殖活动,导致生态环境更加趋于恶化,并产生一系列生态环境问题,其实质是生态系统服务
期刊
期刊
期刊
期刊