蛋白质与RNA三级结构预测算法研究

来源 :南开大学 | 被引量 : 0次 | 上传用户:yaraksuper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物大分子蛋白质和RNA在生命活动过程中发挥着极为重要的作用。为研究这些生物大分子的作用机制以及确切功能,需要对它们的三维结构有所了解。然而,结构测定传统的实验方法通常成本高昂并且耗费时间较多,这使得开发计算方法进行结构预测成为必要。针对上述问题,本文聚焦于蛋白质与RNA三级结构预测算法的研究,分别介绍蛋白质同源建模算法DISthread、从头建模算法tr Rosetta网络服务器及独立软件包、蛋白质残基间距离预测评估方法APD,以及RNA同源建模算法IPro Align。由深度学习算法预测的残基间距离信息精度的提升为蛋白质同源建模方法提供了新的思路。为此,本文提出了一个结合一维序列信息和二维距离信息的穿线算法DISthread。该方法首先使用一维信息为目标蛋白质和模板蛋白质产生初始比对,再迭代地将预测的残基间距离信息加入到比对打分函数中。在四个独立测试集上的测试结果表明,DISthread优于使用一维信息和残基接触信息的同类型算法HHpred、SPARKS-X、MUSTER、Eigen THREADER、map_align和CATHER,以及另一个基于距离的穿线算法Deep Threader。除此之外,随着目标蛋白质建模难度的增大,DISthread相较于上述7种方法的提升程度更大。通过将DISthread和基准方法进行比较,并对预测的距离信息进行分析,本文证明了二维距离信息的加入对穿线算法性能的提升有着显著的作用。tr Rosetta服务器是一个能够快速准确地对蛋白质结构进行预测的网络平台。该服务器以目标蛋白质序列或多重序列比对为输入,通过深度神经网络预测残基间距离和朝向信息,然后将上述二维信息转化为约束引导Rosetta进行能量最小化得到最终的结构模型。和其它同类型的服务器相比,tr Rosetta的优势在于能够快速、准确地对目标蛋白质进行从头建模。作为例证,tr Rosetta为两个目前缺乏真实结构的Pfam家族构建的结构模型估计得分较高。除此之外,为了结合同源建模的优势,同源模板也被作为额外的输入加入到网络中。对于一个长度约为300个氨基酸的蛋白质,tr Rosetta服务器能在1个小时左右的时间内返回结构模型。为了使该方法的大规模应用成为可能,tr Rosetta开源的独立软件包也被公开,供用户下载使用。APD是蛋白质残基间距离预测的评估方法。深度学习算法的迅速发展使残基间距离信息预测精度大幅提升,然而目前缺乏系统性的方案对预测的距离进行评估。为此,根据被比较的残基对组成的集合不同,本文将评估分为面向预测结果、面向真实结构和面向全集三种类型,共提出了19个指标来衡量预测距离的准确性。利用tr Rosetta预测的距离以及结构模型,本文在三个数据集上对提出的指标进行比较与讨论。实验结果证明,距离精度等指标与模型质量评估指标TM-score之间有着较强的相关性,相应的皮尔逊相关系数大于0.7。除此之外,本文提出的指标也被用于为CASP14距离预测参赛组进行排名。APD排名结果与官方公布的排名高度一致,充分显示了该方法的客观性与有效性。IPro Align是一个RNA结构预测同源建模算法。该方法首先将RNA的二级结构图进行简化,通过求解整数规划问题来确定所有碱基对之间的比对关系,然后再将二级结构比对信息加入打分函数,进而构建两个序列之间完整的比对。在此过程中,经过预处理的多重序列比对以序列谱的形式被加入算法的打分函数。在TE80数据集上的结果证明,在排除序列一致性大于40%的近同源模板后,IPro Align的比对质量优于覆盖率相近的方法Foldalign,并且两者的差距在包含假结的RNA上更加明显。在PUZ30数据集上的结果证明,IPro Align优于被比较的方法Loc ARNA、CARNA、RNAmount Align和Foldalign。通过对不同的多重序列比对使用策略进行比较,本文证明IPro Align实现了对多重序列比对的合理利用。除此之外,二级结构预测精度、比对覆盖率也在某种程度上影响了基于IPro Align比对生成的模型质量。最后,本文对所有算法的运行时间进行比较,结果显示IPro Align和被比较的方法相比速度更快,并且运行时间受序列长度影响较小。对于包含约5000个RNA的非冗余模板库,IPro Align通常能够在2小时内返回比对结果。上述结果证明,IPro Align算法实现了对RNA模板库的快速高效搜索。
其他文献
哺乳动物早期胚胎发育,尤其是围着床期到原肠胚形成,经历了多个层次的细胞命运决定,是整个胚胎发育过程中的关键事件之一。胚胎着床到原肠胚形成过程需要将谱系祖细胞特化和组织到胚体发育中,任何发育上的错乱都会影响个体发育,并产生深远影响。了解人类植入后早期胚胎发育的机制对基础发育生物学和再生医学都有着重要意义。虽然以小鼠为研究模型,已有多篇研究成果揭示了啮齿类动物原肠胚形成的分子机制。但小鼠和灵长类动物之
学位
铜绿假单胞菌是一种分布广泛的人类条件致病菌,能够适应包括宿主环境在内的多种环境。有效感知宿主环境并相应调整全局基因表达的能力对铜绿假单胞菌感染至关重要。细菌可以响应宿主体温触发其毒力基因表达,增强感染过程。在感染过程中,细菌必须能够有效利用宿主体内的能源物质实现长期定殖,然而,对于铜绿假单胞菌对宿主温度以及特定环境下能源物质的反应机制还知之甚少。冷激蛋白家族是细菌内保守的调控基因表达的RNA结合蛋
学位
大气中氮氧化物(NOx)以及重金属汞(Hg~0)的存在会引起一系列的人类健康以及环境问题,因而受到了世界各国的密切关注。其中煤炭燃烧是大气中氮氧化物和重金属汞的主要来源之一。根据我国能源体系现状,煤炭在未来很长一段时间内依然是我国使用最广泛的能源,因此如何降低煤炭燃烧产生的氮氧化物和重金属汞就成为了人们重点关注的问题。基于目前的脱硝除汞技术,催化氧化法是一种高效且具有广泛应用前景的技术之一,它是在
学位
正则回归模型能够较好地克服过拟合问题,在学习理论中是一种具有良好泛化能力的经典机器学习模型。在数据科学急速发展的今天,随着集成学习,多示例学习,深度学习等一系列学习框架的诞生,对正则回归模型在这些学习框架下的性质的研究也变得日益重要。本篇文章主要研究了正则回归模型在分布式学习,分布回归和神经网络这三类学习框架下的理论分析。本文的内容分为六个章节。在第一章我们阐述了研究的背景与动机,介绍了学习理论作
学位
卵巢恶性肿瘤是女性妇科肿瘤中最为常见的死亡原因之一。全球每年将近22万女性被诊断为上皮性卵巢癌(Epithelial ovarian cancer,EOC),其中约14万女性患者死于该疾病,是女性癌症相关死亡的主要因素,也是致死率最高的妇科恶性肿瘤[1]。MUC16/CA125(Mucin 16,粘蛋白16)糖蛋白作为上皮性卵巢癌经典的生物学标志物和肿瘤恶变的主要驱动因子,靶向MUC16/CA12
学位
滑膜肉瘤已经被证明仅含有染色体易位t(X;18)(p11.2;q11.2),该易位表达框内融合蛋白SS18-SSX。迄今为止,对癌融合蛋白SS18-SSX如何介导滑膜肉瘤发生发展的分子机制研究已经取得了很大的进展。然而,作为SS18-SSX的重要融合成员,SS18的功能机制在很大程度上仍不清楚。在本论文中,我们应用尺寸排阻色谱、分析型超速离心等一系列方法,证明了人源SS18-SSX1或SS18和B
学位
<正>[课前慎思]问题一:面积单位公顷和平方千米,是分两课时教学,还是放在一个课时?现实中许多老师将公顷和平方千米的认识放在两个课时进行教学,即第一课时认识公顷,第二课时认识平方千米。实际教学后常常大吐苦水:为什么分开认识的时候感觉学生掌握挺好的,一合并就摸不着北了?我们冷静分析后发现,这两个较大的面积单位主要是测量土地面积的单位,学生生活经验太少,感知起来有一定的困难,
期刊
中国西南地区(简称西南地区)极端降水受多个气候系统的影响,并且内部相互作用复杂,具有典型的复杂系统时空关联特征和非线性动力学行为。近年来,基于气候系统的复杂网络理论和应用研究方兴未艾。运用复杂网络方法可将复杂的气候动力系统转化为气候网络形式,通过网络的拓扑参数和动力学刻画原系统中复杂的相互作用和非线性行为。将系统科学中复杂网络理论运用于西南地区极端降水的研究,能够捕捉到影响西南地区极端降水的大尺度
学位
教学《一亿有多大》一课,要引导学生经历丰富的实践、体验活动,自主提问,设计方案,分组开展数学实验,积累用小数量推算大数量的经验,感知一亿有多大。以“米”为媒,设计“数米”“称米”“晒米”等数学活动,可以引导学生从时间、质量、长度、体积等方面多维体验1亿粒米的大小,对1亿有多大形成丰富、多元、立体的感知。
期刊
本文主要包含如下三部分内容:李群上的不变共形向量场、左不变伪黎曼Einstein度量以及3-李代数簇上的moment映射.第一部分研究符号为(p,q)的伪黎曼李群(G,<·,·>)上的不变共形向量场,即,(i)左不变非Killing共形向量场;(ii)由导子诱导的共形向量场.对于左不变非Killing共形向量场:首先,证明若伪黎曼李群(G,<·,·>)上存在一个左不变非Killing共形向量场,那
学位