论文部分内容阅读
蛋白质折叠规律研究是生命科学的重大前沿课题,折叠分类是蛋白质折叠研究的基础。折叠类型主要反映了蛋白质折叠核心的保守拓扑结构,包括蛋白质空间结构的二级结构单元、二级结构单元的相对排布位置以及蛋白质中肽链的走向三个主要方面。折叠分类的研究,对蛋白质拓扑分类、基于结构的蛋白质功能注释、配体结合位点预测、新化合物的筛选以及药物结构设计,能够提供非常重要的理论指导。研究内容主要包括以下几个方面: 1.α类蛋白质折叠类型模板数据库建立 选择研究者广泛使用的ASTRAL-1.65数据库,该数据库是基于SCOP数据库建立的。选取样本量大于2的63个折叠类型,按照模板选择原则,选取了63个折叠类型的模板蛋白,建立模板数据库。根据DSSP蛋白质二级结构数据库,提取了63个折叠类型模板的特征参数,建立模板特征参数列表。 2.单模板分类方法研究 根据模板特征参数和TM-align结构比对结果,建立基于特征参数的打分函数-Fdscore,并建立打分函数的阈值确定方法及单模板分类方法。针对单模板分类方法,用63种折叠类型的804个样本进行了识别率检验,结果表明:对实验集和测试集,单模板分类方法的特异性、敏感性检验结果是一致的。基于Fdscore函数的单模板分类方法与基于TM-score的单模板分类方法做了对比,结果表明:前者对同一种折叠类型样本的识别率要高于后者,但对不同种折叠类型样本的识别率稍弱于后者。 3.多模板分类方法研究 以模板蛋白质数据库及模板特征参数为基础,建立了基于Fdscore的多模板分类方法(以下简称Fdscore分类方法),并对该分类方法进行了检验,同时与基于TM-score多模板分类方法(以下简称TM-score分类方法)做了比较。在敏感性方面,Fdscore和TM-score分类方法的平均敏感性分别为71.86%和69.46%,前者比后者高2.4%。说明对于同一种折叠类型的样本,Fdscore分类方法比TM-score分类方法有更好的辨识度。在特异性方面,Fdscore和TM-score分类方法的平均特异性结果分别为99.49%和99.30%,两者结果非常相似。说明Fdscore分类方法与TM-score分类方法区别不同折叠类型的能力相似。在MCC值方面,Fdscore分类方法的平均MCC值为0.69,TM-score分类方法的平均MCC值为0.65,前者平均MCC值比后者稍大,说明Fdscore分类方法总体上优于TM-score分类方法。 α类蛋白质折叠类型分类方法的建立,可以为其它类蛋白质折叠类型分类方法的建立提供指导参考,也可以对未知折叠类型的蛋白质结构进行折叠类型分类。