蛋白质超家族模体特征的分析与超家族的识别

来源 :内蒙古大学 | 被引量 : 3次 | 上传用户:qqqq406340142
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
模体是蛋白质进化过程中的保守区域,并且能够反映蛋白质超家族之间亲缘关系,它们通常对蛋白质的功能起重要作用。因此,蛋白质超家族的模体特征分析及蛋白质超家族的识别对研究蛋白质结构和功能具有重要意义。本文以蛋白质超家族中的模体和序列为研究对象,用生物统计学和生物数学中的方法,从蛋白质超家族中的模体功能特征分析及相对位置分布统计、信息特征提取和蛋白质超家族识别这三个方面进行了研究。主要研究内容如下:   ⑴从蛋白质结构分类数据库(SCOP)中选出16个具有代表性的蛋白质超家族,构建了序列一致性小于等于25%和40%的蛋白质超家族数据库。利用ScanProsite和MEME模体搜索工具,提取了所构建的数据库的序列模体及模体的位置信息和功能信息,并对其进行整合;进一步分析了超家族中模体的结构和功能特征,统计分析了模体相对于序列N端和C端的位置分布及模体出现的频次,结果发现:在含有一种或是多种类型模体的蛋白质超家族中,模体在序列中的位置分布均呈现一定的规律性。本文统计和分析的模体特征以及模体的位置保守性规律能为蛋白质超家族的识别和蛋白质相互作用网络的建立提供有力帮助。   ⑵用生物统计学中的单因素方差分析方法,对16个具有代表性的蛋白质超家族的氨基酸组分、物理化学性质分类特征及其组合特征等进行均值检验,提取出具有差异显著性的特征。此方法不仅有效地降低了特征向量的维数,而且为蛋白质超家族识别提供了新的参数。另外,还统计了已知功能的模体和基于统计意义发现的模体在各个超家族中出现的频数。本文定义的模体频数首次作为一种新的特征被用于蛋白质超家族的识别。   ⑶用三种方法所选取的参数用于蛋白质超家族的识别:①将数据库中超家族的20个氨基酸组分、400个二肽组分、亲疏水特征、物理化学特征以及这些特征的组合输入到最小离散增量算法中,对蛋白质超家族进行预测;②以具有统计显著性的特征及其组合特征作为新参数模式进行了预测;③将模体频数和具有差异显著性的特征参数模式结合,形成新的参数模式输入算法完成预测。
其他文献
为适应现代机械工业的发展,提高轴承的工作性能和使用寿命,可通过改变润滑剂的流体动压特性实现轴承的优化设计,并引进了浮环轴承,使得液体滑动轴承的结构、形状日趋复杂。利用常规方法研究滑动轴承工作时润滑油膜的动压特性时,受到轴承的结构、形状影响较大,很难对多油叶复杂形状的轴承进行有效的研究。因此需要研究一种方便有效的方法,进一步提高对复杂形状滑动轴承特性的分析能力。边界元方法是把控制微分方程变换为边界上
在高校合唱训练中,怎样提高队员的兴趣,进行科学的、有计划的训练,同时还应该从学生的角度出发,打造合唱团的和谐氛围、树立指挥威信、选择和创编适合合唱队的曲目,并采取一
近年来的研究显示,贵金属纳米颗粒的掺杂能改善介质薄膜的性质。当贵金属纳米颗粒镶嵌在介质薄膜中时,由于纳米颗粒局域场增强效应,使薄膜展现出良好的非线性光学性质。掺杂贵金
染料敏化太阳能电池(DSSC)作为第三代太阳能电池,其价格低廉、制作工艺简单,在新能源领域具有广阔的应用前景。DSSC中的光阳极对染料吸附量、光捕获、电输运有着重要影响,对
等离激元增强二次谐波效应(Plasmon-Enhanced Second-Harmonic Generation,PESHG)由于其展现出了对于近场耦合效应、结构形貌变化等空间变化信息的极高检测灵敏度和空间分辨能
本文选取系统功能语言学语类理论,从宏观结构和微观结构角度,选取建筑工程类国际学术交流英语演讲稿,分析其语篇模式、语篇结构和语言特征.旨在帮助相关行业专家学者根据具体
近年来,我国生物制药产业正在不断发展,但在发展的过程中也呈现出了许多的问题.生物技术一直被喻为是我国医学技术发展路途上的“双刃剑”,它在带动了科学技术进步的同时,也
20世纪90年代中期Shor量子因子分解算法和Grover量子搜索算法相继被发现,从而使得量子计算与量子信息科学成为研究热点领域。在该领域中,量子纠缠一直扮演着极其重要的角色。事
本文采用基于密度泛函理论的平面波赝势(PW-PP)方法,研究了元素取代对Mg2Ni合金贮氢性能的影响及合金表面的吸氢机理。研究了Ag、Al元素取代Mg2Ni中的Mg元素及Cu、Mn、Ti元素取
英汉两种语言都有大量的委婉语,虽有颇多相似之处,但因其属于不同语系、不同的文化传统,它们在委婉语方面也存在着明显差别.本文对比了英汉委婉语的两点细微差别,以促进人们