论文部分内容阅读
蛋白质序列-结构-功能的关系问题是分子生物学的核心问题之一。在同源蛋白质家族中,大量相似序列的蛋白质具有相似的结构和功能。但是,在许多蛋白质超家族和拓扑结构分类层次中,序列差异很大的蛋白质分子却也具有明显类似的结构和功能。研究显示,蛋白质序列及其结构的保守性,既是其分子功能约束的结果,也是其分子进化的结果。为了探讨在分子进化过程中,蛋白质序列-结构-功能的关系,有必要就蛋白质序列与结构的保守性做进一步地分析研究,旨在为研究蛋白质序列-结构-功能的关系提供一些帮助和启示。
蛋白质序列分析的关键是:有效地发现相似的序列片断、特定的结构-功能域和低相似性的同源序列。考虑到目前相似度较低的蛋白质序列是序列分析的-大难题,本文序列和结构的比较主要针对低相似结构域(domain)进行,所涉及的序列及三维结构的数据,全部取自于所建立的低相似性α类蛋白折叠核心注释数据库LIFCA(LOW Identical Protein Fold Core Structures and Annotation Database)。通过对其中典型折叠类型的序列和结构的比较研究,结合有关生物化学和分子生物学的研究结果,讨论了低相似性蛋白质的序列和结构的保守性关系。本论文的主要研究内容包括以下两个方面:
1.构建低相似性α类蛋白折叠核心注释数据库LIFCA
蛋白质的折叠核心(简称折叠类型)是指蛋白质二级结构(如螺旋、折叠等)的连接方式。对于全α类蛋白,它忽略了肽链中所有的β折叠片和无规卷曲,仅考虑参与蛋白质折叠核心形成的骨架α螺旋及这些二级结构单元之间的排列顺序和空间取向。
本文从ASTRAL-1.65数据库提取序列同源性小于25%、分辨率小于2.5 的全α蛋白共1021个。利用图形分析软件Rasmal观察分析每一个蛋白质的结构,并为其确定折叠类型,然后剔除结构简单的折叠类型(如单螺旋、双螺旋等)和复杂结构的蛋白(如螺旋数目超过60个等),最终保留501个α蛋白并归于44种典型的折叠类型,同时给出每一种折叠类型的图形化描述和空间方位信息标定文件,最终形成了低相似性α类蛋白折叠核心注释数据库LIFCA。
2.基于蛋白质折叠类型的氨基酸残基相互作用取代矩阵研究
序列比对是一种寻找蛋白质结构相似性的常用方法。当蛋白质的序列相似性高于30%时,这些蛋白质通常也具有很高的结构相似性。因此,对于结构未知的蛋白质,可以通过序列比对来识别它们之间的结构保守区域。然而,这种方法对于序列相似性低于30%的蛋白质来说却并不适用,这是因为对于这些蛋白质来说序列比对的结果与结构比对的结果往往不同。LIFCA数据库中存在大量序列差异很大但却具有明显类似结构和功能的蛋白质。因此,是否能够通过增加序列比对对这些低序列相似性蛋白质进行保守结构区域的识别能力?
氨基酸残基相互作用取代矩阵是影响多序列比对效果的重要因素。许多研究表明,一个适宜的取代矩阵能够提高比对的敏感性。目前常用的取代矩阵均是对具有高序列相似性的蛋白质进行序列比对而构建的。例如,BLOSUM矩阵是基于BLOCKS数据库构建而得的,该数据库中的多数序列具有高相似性,因此,由高相似性序列比对而构建的取代矩阵不能很好地描述低相似性序列中氨基酸残基之间替代关系。
所以为使目前的比对算法更好的识别序列差别较大的序列,本文基于BLOSUM取代矩阵方法,通过定义基于全α类蛋白折叠核心结构的序列-结构数据块(Block),提出了一种新的氨基酸残基相互作用取代矩阵——TOPSSUM25,用于检测蛋白质折叠家族中的低相似成员。将TOPSSUM25取代矩阵导入多序列比对程序ClustalX 1.83,选取了LIFCA数据库中比较有代表性的折叠类型,如平行拓扑模式下的四螺旋束、混合拓扑模式下的三角架折叠类型所产生的序列-结构数据块为测试集,做基于结构的多序列比对,结果表明:基于1OPSSUM25取代矩阵的多序列比对与BLOSUM30取代矩阵相比,能较好地反应位点保守区域,并应用结构比对程序FAST验证其比对结果,保守区域能较好重叠。本文最后利用多序列比对程序平台BAIiBASE数据库对基于折叠类型的取代矩阵TOPSSUM25的精度进行了比较和评价。
因此,我们认为蛋白质折叠类型的保守性,则可能主要体现在保持某些共同的特有二级结构单元和折叠方式上,基于折叠类型的氨基酸残基相互作用取代矩阵-TOPSSUM25能够为进一步阐明低相似蛋白质的序列-结构-功能关系提供帮助。