基于序列的蛋白质折叠速率与膜蛋白功能分类研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:lxt63
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质是生命的物质基础。如何理解蛋白质序列,结构和功能三者的关系是生物信息学研究的重要问题。本文致力于研究蛋白质序列和结构,序列和功能之间的关系。本研究主要结果由以下四部分组成:   ㈠提出了一个快速的蛋白质结构比对算法。通过利用蛋白质残基的二面角来代表蛋白质的三维结构,利用动态时间规整(Dynamic Time Warping,DTW)来比对二面角序列。我们证明了在PDB-select数据库中不同蛋白质比对后的得分服从参数为μ=94.7697,σ=41.5837,ζ=0.1925的广义的极值分布(Generalized ExtremeValue Distribution,GEVD).通过该分布还可以计算蛋白质结构比对的结构差异性的统计显著性。该比对得分对蛋白质分类还有很好的应用。和其他结构比对算法如CTSS等相比,我们的算法更具有统计意义和时间效率。   ㈡蛋白在细胞生命活动中扮演着重要的角色。为了利用序列信息来区分膜蛋白功能,我们提出一种基于快速傅里叶变换特征的机器学习方法对来自膜转运蛋白分类数据库(Transport Classification Database,TCDB)中的三类主要膜转运蛋白进行功能分类。使用快速傅罩叶变换(Fast Fourier Transform,FFT)将20种氨基酸的分布,残基的疏水性,平均极性和溶剂化自由能的原始特征数据,转化为频域上的信息作为支持向量机的输入。我们的模型在五倍交叉检验(five-fold crossvalidation)预测准确率分别达到了72.1%,在相同数据集下,比Gromiha et al.等工作的准确率提高了4%。本文的研究证明我们的模型可以有效地对膜转运蛋白的三种主要功能进行分类。   ㈢提出了两个模型对蛋白质折叠问题进行预测。第一个是基于局部结构信息熵的模型:从AAindex数据库中的531种残基物理化学性质,序列长度信息和局部结构信息熵中筛选特征,分别针对三种折叠机制two-state,multi-state和mixed-state的蛋白质预测其折叠速率,用Jackknife验证模型真实值与预测值之间的相关系数达到0.790,0.829和0.778。和其他模型相比,我们的模型具有输入参数少,计算简单,平均绝对误差小的优点。另一个是基于序列信息出发,考虑残基的二级结构,残基柔性和溶剂可及性提出一个模型PFR-AF,PFR-AF也是针对三种不同的折叠机制来分别预测三种蛋白质的折叠速率。PFR-AF模型有较高的相关性(0.71到0.95),并且平均绝对误差较小(0.75到0.9),我们的模型还解释了对于two-state折叠的蛋白增加处在蛋白质表面的丙氨酸(Ala)可以加快折叠速率,而增加异亮氨酸(Ile)的含量,则可能降低折叠的速率。我们观还察到coil的柔性可以加快折叠过程,处在蛋白质表面的strands的含量则会降低速率。通过增加处在multi-state蛋白质表面的柔性会延长折叠过程。multi-state蛋白质二级结构starnds的柔性也会减慢折叠过程。另外还提供了两个例证来验证模型的正确性。   ㈣基因组的开放阅读框(ORF)是基因识别与基因组分析的基础。本文给出了基于终止子的集合p0-MORF定义与它的生成算法,证明了由基因组所确定的P0-MORF集合的存在与唯一性。我们还以原核生物S.Coelicolor A3(2)为例讨论了该生物基因组中CDS与p0-MORF序列的相互关系。
其他文献
幼儿园的环境对幼儿的健康成长起重要的作用。幼儿园的环境要温馨、开放,要营造良好的心理氛围,要满足幼儿的兴趣需求,要重视隐性要素,要整合各种资源。
本文主要涉及核糖核酸(RNA)本身三级结构和核糖核酸之间相互作用结构的一些组合学和计算生物学的相关结果。假设k为正整数,k不相交tangle图这一组合概念起源于计算生物学对核
是的,汩罗江成为他最后的住所。他选择水,随波逐流的生存终究没有学会。当一名爱国主义的诗人委屈了他,如果他一开始就能胸怀全人类,楚怀王算个鸟?屈子死于三闾大夫的抱负,不
本文是笔者20多年班主任工作经历的沉淀和凝结,融合了班级管理的理性反思,旨在为班主任更好的做好班级管理工作抛砖引玉。
科学研究证明“儿童最主要的学习方式是通过运动进行的.运动辅助思考.”儿童在幼儿时期最重要的任务之一是掌握自己的身体.rn2012年,国家教育部颁布了《3-6岁儿童学习与发展
期刊
本刊讯为了全面展示重庆市伏季水果科研和产业发展成果,交流伏季水果新品种栽培和引种栽培经验,促进重庆特色伏季水果健康发展,7月16—18日重庆市伏季水果研讨会暨新品种展示
今年年初,新疆生产建设兵团第二师铁门关市二十九团建设的现代高效农业示范区——“立柱式无土栽培”智能温室大棚蔬菜基地投入使用。该基地采用微电脑程序控制系统,充分利用温室空间和太阳能,打破传统农产品种植模式,不仅蔬菜生长周期比普通土培缩短一半,蔬菜产量还能高出3到4倍,具有节约土地、省时省工、高产优质、清洁卫生等优点。
滇优37是云南农业大学稻作研究所用滇Ⅰ型优质不育系DHC-10A与恢复系滇农R-3配组育成的滇型杂交粳稻新组合。该组合产量高、米质较优、抗性好、适应性广,于2012年8月通过云南
人们在科学研究和生产实践中,常常通过试验来认知某事的结果或某物的性能.为了使试验获得的数据能够通过分析得到正当客观的结论,则需要对试验方案进行有效地安排和设计。自
图因子理论是图论的一个重要分支。多年以来,图因子一直是一个比较活跃的研究主题。本文主要研究的是因子的结构理论。因子问题能自然地被划分成两类:度约束因子和分支因子。