蛋白质超二级结构库的建立及其序列统计分析

来源 :内蒙古工业大学 | 被引量 : 3次 | 上传用户:tt24834051
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命活动的物质基础,生命活动几乎都是通过蛋白质实现的,而蛋白质的功能又与其结构紧密相关。所以知道一个蛋白质的结构对了解其功能是非常关键的。目前,在Swiss-prot(8.7版本)库中包含3421677个已知一级序列的蛋白质,而在PDB(2006.9.19)库中只包含38882个已知结构的蛋白质。实验测定的蛋白质结构比已知的蛋白质序列要少得多。实验测定蛋白质结构主要有X射线衍射法、核磁共振法等技术,但过程非常复杂,且代价较高。Anfinsen提出假说:蛋白质一级结构决定着蛋白质的空间结构。因此从蛋白质序列出发预测空间结构,揭示生物分子数据的内涵是生物信息学的重要研究课题。但直接从蛋白质的序列出发来预测高级结构仍很困难,尤其是三级结构的预测。已有报告表明蛋白质折叠主要由许多简单的超二级结构单元构成,由超二级结构获得的结构信息可用于三级结构的预测。如果知道了蛋白质简单超二级结构的模体构象,再预测三级结构,那么问题就会简单得多。所以蛋白质超二级结构预测是从一级序列预测三维结构的桥梁。本文主要工作是蛋白质超二级结构库的建立及其序列的统计分析:选取了SCOP数据库1.69版本中同源性小于40%的蛋白质6819,从PDB库中都找到每一个氨基酸对应的二级结构,在对蛋白质序列分析、整理基础上,给出五类超二级结构序列模式α-α、α-β、β-α、β-βhairpin和β-βlink共61824个;并根据Loop的长度进一步分类,建立了相应的蛋白质超二级结构数据库;并对五类蛋白质超二级结构序列所含20种氨基酸的概率作了统计分析,与相关工作做了比较,得到蛋白质超二级结构中的一系列有益信息;最后利用Fisher判别法对蛋白质超二级结构中Strand-Loop-Strand两类模体进行分类,得到较好效果。
其他文献
三维测量技术是计算机图形学和计算数学相结合的一个研究方向,它在计算机视觉、机器学习、模式识别、逆向工程以及计算机辅助等领域有着广泛的应用前景。三维测量技术大体上
在数学上传统的看法认为可积的动力系统相对来说是简单的,在本文中我们构造出了任意维数的具有正的拓扑熵的可积测地流的流形例子。我们知道,拓扑熵用来衡量一个动力系统的复杂
期刊
CT(Computed Tomography),又称为计算机层析成像技术,以其无损、精确、方便等优点广泛应用于医学诊断、工业检测、安检等各个领域。它是利用射线穿过物体时,不同密度和厚度的
生存分析是目前统计学的热门之一,它不仅能妥善的处理现实生活中常见的截断数据问题,而且在解决实际问题的同时,揭示了一些更为复杂的理论问题,促进了数理统计理论的发展. 本文
随机微分方程作为一门新兴的数学学科,因其具有广阔的应用前景,现已被广泛应用于生物、经济、工程等诸多领域。越来越多的学者致力于研究随机微分方程,使得理论不断完善。随机微
交通堵塞、交通安全以及环境污染是困扰当今运输领域的三大难题,其中交通安全问题最为严重,因此交通事件自动检测方法的研究有着非常重要的意义。它可以迅速检测道路上发生的交
在Banach空间算子理论中,紧算子和Fredholm算子是无限维Banach空间中的两类重要算子。它们在积分方程和许多数学物理问题的研究中起着核心作用,有着广泛的应用。它们的谱分析
期刊
建国60年来,西宁市国民经济得到快速发展,人民生活水平显著提高,特别是与人民生活密切的流通领域发生了深刻的变化,消费品市场得到长足发展,市场规模不断扩大。各种经济类型