论文部分内容阅读
蛋白质折叠规律的研究是生命科学领域重要的课题之一。折叠类型分类、识别、结构与功能的预测层层递进,其中,蛋白质折叠类型分类是折叠规律研究的基础。折叠类型反映了蛋白质的核心结构片段的拓扑结构模式,它是以蛋白质二级结构单元为基础的一种描述形式,它涵盖了蛋白质分子空间结构组成的三个方面,包括二级结构单元、二级结构单元的相对排布位置关系及蛋白质多肽链的肽链走向。对现今自然界存在的数千种蛋白质折叠类型进行系统分类,探索蛋白质折叠类型形成的经验规律,将有助于揭示蛋白质的折叠规律,并为蛋白质三级结构与功能的精确预测提供基础。研究内容包括下述几个方面: 1.蛋白质折叠类型模板设计及模板数据库的构建 模板的选取是蛋白质折叠类型分类的基础,模板的好坏直接影响分类的效果。选取SCOPe astral2.05数据库中相似性小于40%,且分辨率高于0.25nm的All alpha proteins(α),All beta proteins(β),Alpha and beta proteins(α/β),Alpha and beta proteins(α+β)四类蛋白所属的989种折叠类型为研究对象,基于蛋白样本间的多结构比对结果及数据分析,建立了折叠类型家族模板的设计方法。并以家族模板为单位利用系统聚类方法构建系统聚类图,并对系统聚类图中节点对应的初始模板进行计算分析及检验,提出了对任意蛋白质折叠类型模板筛选的经验标准,建立蛋白质折叠类型模板设计方法。利用上述模板设计方法,分别构建了含有3941个家族模板的家族模板数据库以及含有1617个折叠类型模板的折叠类型模板数据库。 2.基于模板的蛋白质折叠类型分类方法 本文利用成熟的结构比对方法TM-align与最大TM-score打分函数,建立了基于模板的蛋白质折叠类型分类方法,即:将任意待测蛋白样本与模板数据库中的所有模板进行TM-align比对,并计算TM-score值,TM-score打分值最大的模板所在的折叠类型即为待测蛋白样本所属折叠类型。并利用敏感性、特异性、Matthew相关系数三个指标对分类结果进行评估。为验证模板设计与分类方法的合理性以及普适性,分别利用家族模板数据库与折叠类型模板数据库进行蛋白质折叠类型分类的自洽性检验以及独立性检验。由检验结果可知,基于家族模板数据库自治性检验结果的敏感性、特异性及MCC的均值分别95.00%、99.99%、0.94,基于折叠类型模板数据库自治性检验结果的敏感性、特异性以及MCC的均值分别为93.71%、99.97%及0.91。两种类型模板对相同数据集的分类检验结果相当,前者的分类结果略高后者。说明家族模板及折叠类型模板设计合理,模板反映了折叠类型的基本特征;前者的模板总数为3941,后者仅为1617,后者模板数仅为前者的五分之二,因此,分类速度后者远远优于前者,家族模板的分类精度略优于折叠类型模板。由独立性检验可知,家族模板数据库及折叠类型模板数据库对扩充样本的分类效果稍差于自洽性检验中的结果,但分类效果依然高于90%,说明模板数据库及其分类方法可用于对扩充蛋白样本进行折叠类型的分类,从而验证了模板设计及分类方法具有普适性。 论文对989种蛋白质折叠类型进行系统研究,建立了蛋白质家族及蛋白质折叠类型模板设计方法,完成了蛋白质家族及蛋白质折叠类型模板数据库的构建;建立了基于模板的蛋白质折叠类型分类方法,实现了蛋白质折叠类型的自动化分类。