论文部分内容阅读
蛋白质折叠研究是分子生物学、细胞生物学以及药物设计领域的重要课题。折叠分类是蛋白质折叠研究的基础。随着PDB数据库中蛋白质结构数量的不断增加,折叠分类问题就越来越凸显出其重要性。α/β类蛋白质是自然界中普遍存在的一种折叠,其家族/超家族是最复杂的蛋白质家族/超家族之一。本文在LIFCA数据库的基础上,提出了一种基于模板的蛋白质折叠类型分类方法,用于α/β类蛋白质的分类。研究内容包括下述几个方面:1.构建模板数据库实验数据集取自LIFCA数据库,选取其中样本量大于2的55种α/β类蛋白质折叠类型,共得到931个实验样本。结合蛋白质折叠类型的定义及其保守拓扑结构特征,确定55种折叠类型的模板蛋白。利用DSSP数据库提取55个模板蛋白的特征参数信息,构成模板数据库。2.多模板分类方法的建立与评估以931个实验样本为研究对象,基于TM-align建立一种基于模板的蛋白质折叠类型分类方法。分类结果的平均特异性、平均敏感性、MCC值分别为99.58%、79.47%、79.39%。与TM-align分类结果比较,分类的敏感性与MCC值略好于TM-align的相应结果,平均特异性相近。结果表明:该分类方法可以实现α/β类蛋白质折叠类型的自动分类。以LIFCA数据库中全α及全β类蛋白质折叠类型为研究对象,对其中1830个蛋白进行Multi-Fscore打分,取值分布在(0,0.6]、(0,0.7]和(0,0.8]的样本数占总体的比例分别为97.55%,99.42%和99.89%,而931个样本蛋白在这三个取值范围内的比例分别为2.79%、5.59%和10.63%。结果表明:Multi-Fscore打分函数具有准确性和专一性。3.单模板分类方法的研究以Rossmann折叠类型为研究对象,选取序列相似度小于25%的79个蛋白样本构成实验集。对LIFCA数据库中2362个非Rossmann折叠类型蛋白与79个Rossmann折叠类型蛋白进行ROC分析,确定Multi-Fscore打分的最佳阈值,将该阈值作为预测蛋白所属折叠类型的标准,并在第2章建立的实验集中进行检验。与TM-score比较结果表明:Multi-Fscore的敏感性检验结果明显优于TM-score,特异性结果略弱于TM-score。结果表明:该打分阈值可以作为预测蛋白所属折叠类型的标准。α/β类蛋白质折叠类型分类方法的建立可以为其他蛋白质折叠类型分类方法的研究提供了理论指导,并为实现蛋白质折叠类型的自动分类奠定了基础。