论文部分内容阅读
随着高通量技术在蛋白质组学中的应用,越来越多的蛋白质在被蛋白酶断裂之后,通过质谱鉴定出来。在这个过程中,需要预先对蛋白质组中的所有蛋白进行模拟酶切,如何选择合适的蛋白酶来对蛋白质进行裂解是非常重要的。用来酶切的蛋白酶要具有很强的特异性,这种特异性通常是在活性位点中通过酶与底物的相互作用来表现的。蛋白酶对裂解底物的特异性是研究蛋白酶的生化性质中很重要的一步,对于理解蛋白酶在新陈代谢以及疾病中所发挥的作用是非常重要的。而随着蛋白酶的底物信息量的增加,如何更全面地获取数据中有用的信息来分析蛋白酶的底物特异性,是生物信息学面临的一大挑战。目前,在蛋白酶的特异性研究中,无论是实验方法还是量化分析,通常都是基于这样的假设,即蛋白酶的活性中心区与底物序列上每个氨基酸残基的结合均是一个完全独立的过程。事实上,蛋白酶活性中心某个位点上结合的底物氨基酸残基经常会对别的位点上氨基酸残基的结合起到积极地促进或者消极地抑制作用。现有的量化方法,通常是针对于底物序列中单个位点上的氨基酸信息进行计算,无法反映出位点之间的相互影响。而目前在探讨位点之间关系的文献中,也仅仅是通过实验方法研究了个别蛋白酶在部分位点之间的作用,并没有给出量化的方法来衡量这种合作关系。了解位点之间的合作关系是全面理解蛋白酶的活性位点的作用以及怎样确定蛋白酶的活性的基础,同时也有助于开展相关的研究,如鉴定新的底物序列以及设计新的肽段来抑制蛋白酶的活性等。为此,我们首先从MEROPS数据库获取了底物序列信息,为避免假阳性,利用了贪婪算法除去冗余的底物序列,再对有效底物序列信息展开分析,建立了位点之间的组合模型,并给出了分析蛋白酶特异性的算法。另外,在基于底物序列信息的基础上,还提出了量化蛋白酶相似性的一个新方法。我们首先针对在底物序列断裂键附近连续位点的氨基酸,提出了一个基于块的量化的方法。结果发现,该数据集中大部分的蛋白酶在其底物断裂键附近常存在有显著性的氨基酸组合。这些组合表明了蛋白酶底物在距离断裂中心比较近的位点比距离断裂中心比较远的位点上具有更强的合作关系。在底物序列中的众多位点组合中,以底物的断裂键为中心,我们又提出了一种新的量化方法。我们给出三种类型的位点组合模型,分别是二元组、三元组和四元组。结果发现,在各类型的位点组合中均可以识别出偏好的氨基酸组合。结合了单位点特异性的三种类型的位点组合模型,能够更好的反应蛋白酶的位点组合特性。而且,我们的方法也可以推广到三种类型以外的其他位点组合。块的模型和多元位点组合模型主要分析了蛋白酶在底物中偏好的氨基酸组合。我们在分析了蛋白酶底物序列信息的基础上,提出了一个量化方法,首次对各位点之间可能不合作的氨基酸组合进行分析。与其它方法相比,该方法可以明确地找到每个位点上的每个氨基酸对其他位点上氨基酸的不合作性,为蛋白酶的特异性研究提供了一种新的思路。利用底物序列数据信息,我们还给出了一个新的衡量蛋白酶的相似性的量化方法。基于每个蛋白酶结合位点上的底物信息,构造出一个L × 20维的向量,其中L是位点长度。为了使这个向量尽可能地反映出蛋白酶之间的关系,我们将向量中的元素进行排序,得到一个秩向量。根据秩向量计算得到蛋白酶之间的相似性,用可视化方法将蛋白酶之间的差异性用进化树表现出来。与其它方法相比,在我们构建的进化树中,几乎所有同源的蛋白酶都聚在小分支中,而且属于同一种催化类型的蛋白酶也较为集中的聚在一起,可以更好地反映蛋白酶家族成员之间的亲缘关系。综上,在基于底物序列信息的基础上,本文在位点组合模型以及蛋白酶相似性的量化分析中都得到了很好的结果,而且这些方法都具有可推广性,为蛋白酶特异性的研究做出了一定的贡献。同时,这些量化方法将为预测蛋白酶的断裂底物及蛋白酶相关的靶向药物的设计和研发提供理论基础。文中的算法是通过C++语言实现的,所有的软件、测试集以及使用说明都可以免费下载使用,地址为:(1)PBlock:https://sourceforge.net/projects/PBlock/files/?source=navbar(2)Combination:https://sourceforge.net/projects/combinations/files/?source=navbar(3)Uncooperative:https://sourceforge.net/projects/uncooperative/files/?source=navbar