蛋白质残基接触与距离预测的关键技术研究

来源 :中国科学院大学(中国科学院深圳先进技术研究院) | 被引量 : 0次 | 上传用户:jplang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质结构预测可以帮助研究人员低成本且高效率地从原子水平了解蛋白质的功能,而准确的残基接触和距离预测对基于序列的蛋白质结构预测具有十分重要的意义。残基接触和距离预测还被广泛应用到了蛋白质结构无序区域的识别、蛋白质结构域的分割、分子动力学模拟加速、蛋白质-蛋白质相互作用预测和蛋白质设计等诸多领域。残基接触预测方法经历了基于局部相关性分析、直接耦合分析和机器学习等模型的演化过程,并随着深度学习技术的引入而取得了快速发展。然而,当前的残基接触和距离预测研究还存在一定局限。首先,目前尚缺乏对领域内方法的大规模基准测试和全方位性能评估。其次,不同的残基接触预测方法的预测结果存在差异性和互补性,但仍缺乏优化效率且性能俱佳的残基接触预测方法集成策略;最后,基于深度学习的残基接触/距离预测虽然发展迅速,但在基于复杂场景下的残基接触/距离预测的性能仍有待进一步提升。因而,本文研究了残基接触和距离预测领域亟需解决的几个基本问题,开展了如下三个方面研究:1.对现有残基接触/距离预测方法开展了大规模基准测试和全方位性能评估。本研究首先构建了同时满足蛋白类型多样性和高度非冗余性的大规模基准测试蛋白质数据集,继而使用基准测试集对基于传统机器学习、进化耦合分析的残基接触/距离预测方法进行了回顾性分析,同时对当前迅速发展的深度学习方法从多维度开展了系统研究。本研究的主要发现包括:残基天然接触密度和多序列比对(multiple sequence alignment,MSA)质量分别是影响接触/距离预测的关键内在和外在因素;不同类型的残基接触/距离方法适用于不同的应用场景,预测结果也存在差异性和互补性。基于深度学习的预测方法在整体预测性能上处于领先地位,但仍有很大的改进空间:(1)当多序列比对中有效序列数量较少时,预测性能将受到很大影响;(2)对于多结构域蛋白,各结构域的域内预测精确率较为不平衡;与结构域内接触预测相比,当前方法的域间预测精确率较低;(3)当前深度学习方法之间的预测结果存在强相似性,需要开发更加多样化的特征和预测模型。本部分研究的主要贡献在于通过大规模基准性能评估,研究发现了影响接触预测性能的关键因素,讨论了不同方法的最佳适用场景,并探索进一步改进的前瞻性方向,该研究将为新的接触/距离预测方法的开发提供有价值的指引。2.针对蛋白质残基接触预测,本论文提出了一种基于混合整数线性规划的集成预测方法COMTOP。首先,本论文针对预测方法的性能评估研究发现基于机器学习、进化耦合分析与深度学习的不同类型的接触预测方法在预测结果上存在相似性和差异性。针对这些特性,COMTOP利用混合整数线性规划技术融合了七种不同类型的子方法,并在构建模型和搜索最优参数时充分利用现有方法的差异性和互补性进一步提高残基接触预测精度。COMTOP不仅可以克服传统机器学习和进化耦合分析方法预测精确率较低的问题,还可以有效避免传统机器学习和深度学习模型的过拟合问题;针对不同类型蛋白的接触预测,COMTOP与子方法相比具有更高的鲁棒性,且其性能提升随着预测接触数量的增加而愈加明显。本研究在四个独立验证集上对所提出的方法进行了评估,实验结果表明:COMTOP与性能最好的子方法相比,预测精度平均提升13.6%,最高提升27.1%。3.针对蛋白质残基距离预测,本论文提出了一种基于深度残差网络的残基距离预测方法Duet Dis。Duet Dis方法首先将挤压激励和空洞卷积引入深度残差网络;利用宏基因组数据库构建训练集的多序列比对文件;有针对性的在训练集中融入多结构域蛋白,并强化对域间区域的训练;模型融合了使用不同训练策略和不同特征集获得的子模型。Duet Dis对多序列比对文件中有效序列数量的依赖性较小,同时针对多域蛋白的域间距离预测较为稳健。实验结果显示:(1)当多序列比对中仅包含一条有效序列时,Duet Dis预测精度可达到60%,比同类方法Raptor X和tr Rosetta精度分别高6.7%和10.5%;(2)在训练过程中仅使用训练数据总量六分之一的多结构域蛋白进行域间区域的加强训练,针对多结构域蛋白的域间距离预测对比Raptor X和tr Rosetta即可提升7.3%和9.4%。
其他文献
水力旋流器由于其结构简单、无运动部件、操作维护方便,分离效率高、速度快等优点,近一个多世纪以来越来越广泛的应用于石油化工、环境、选矿、医学等诸多领域中非均相介质的分离。对于待分离混合液中的微细离散相(颗粒或液滴),采用常规旋流器时分离效率较低。上世纪90年代初,研究人员针对该问题开始通过减小常规旋流器尺寸,设计出微旋流器(主直径小于35 mm)并开展了相关研究,发现相同入口速度条件下的液流在微旋流
学位
精准医学的发展为肿瘤的临床诊疗提供了新的思路和策略。其中光学诊疗模式因其非侵入、高效可控的优势,为肿瘤的原位诊疗一体化提供了可行的手段。而优异的光学性质,使得功能纳米材料在肿瘤的早期诊断、介入治疗和预后监控等领域展现出广阔的应用前景。本文通过探究功能纳米材料的制备及界面调控方法,基于生命必需元素,构建了面向肿瘤光学检测、成像和治疗的功能无机纳米材料。构建高分子包覆的超顺磁四氧化三铁纳米颗粒,可以高
学位
松辽盆地北部地区是一个大型的中-新生代陆相沉积盆地,深层发育有广泛的非常规油气储层。随着勘探开发进行,研究发现,松辽盆地深层非常规储层岩性致密,裂缝发育特征复杂且岩石力学差异性显著,需要通过合理的储层改造才能实现油气的高效开发。复杂的地质裂缝特征与高强度的岩石力学性质成为制约着非常规储层开发的重要因素。针对上述问题,本文从储层的裂缝性特征入手,通过野外露头观测、取芯观察、测井解释等获得了研究区块的
学位
储罐是重要的化石能源储存装备,由罐内储存介质挥发出的可燃气体在意外点火源作用下将会发生燃烧爆炸,由此引发的储罐结构破坏事故时有发生。储罐燃爆形成的爆炸冲击波、辐射热和爆炸碎片不仅仅会造成储罐自身的破坏,还会对临近储罐的安全运行形成威胁,因此,对于储罐内爆引发的罐群响应问题是储罐安全运行的关键技术问题。为此,本文针对罐内可燃气体内爆的两种模式:爆燃与爆轰载荷进行计算,建立储罐在不同载荷形式作用下的塑
学位
原油维温对保障浮顶油罐安全经济运维至关重要。锅炉加热是目前常见的原油储备维温方式,但此方式消耗能源大、排放温室气体多,直接影响原油储备效益。根据原油维温及用能特点,以清洁低碳的太阳能作为原油维温热源,利用高储热密度相变材料(Phase change material,PCM)平抑能量供求侧动态波动,提出太阳能协同储能原油加热维温技术。然而,发展此技术尚存在各单体内流体流动传热及系统能流输运特性不清
学位
球场观众不良行为治理是我国学界关注的重点议题之一,从乱扔垃圾到观众暴力事件,不同程度的不良行为一直充斥着球场,呈现出普遍化与多样化的趋势。观众不良行为屡禁不止,不仅阻碍了体育赛事的健康发展,对社会精神文明建设与城市发展也会产生负面影响。因此,提出球场观众不良行为的有效治理策略对维护我国赛场环境及进一步促进赛场精神文明建设具有重要意义。在观众行为的约束过程中,仅仅依靠自律是不够的,增强他律可以有效弥
学位
目的:观察雌激素受体(ER)拮抗剂、孕激素受体(PR)拮抗剂及中药散结镇痛胶囊(SJZTC)对各类鼠子宫内膜异位症(EMs)模型的治疗效果,为EMs的临床治疗提供新的思路及可供选择的药物。方法:1.将EMs患者在位子宫内膜种植于重度联合免疫缺陷病(SCID)小鼠腹壁皮下,建立EMs鼠模型,分设治疗组和对照组,接种后第14天治疗组分别给予背部皮下注射ER-拮抗剂(Faslodex,5mg/kg/d)
学位
第一部分乳腺癌改良根治术后不同大分割放射治疗的近期临床观察目的分析乳腺癌根治术后不同大剂量分割模式放射治疗的急性及晚期毒副反应,并分析患者放疗的生存情况。方法此为前瞻性I-II期临床研究,自2010年10月至2015年5月共计入组患者162例,其中42.5Gy/16F(2.66Gy/F)组77例,36.5Gy/10F(3.65Gy/F)组85例。所有患者均采用静态调强放疗(IMRT)计划设计,并每
学位
序列运动学习是人类获得新技能的重要能力之一,如日常生活中说话、写字、弹琴、开车等行为的流畅完成都基于序列运动学习,而一些功能性脑病患者因学习及执行序列的能力受损,给生活带来了极大的不便,但目前我们仍不能很好地解释大脑是如何计划、执行和调控动作序列的。之前有研究表明,前额叶皮层是计划序列行为的关键区域,但相关的神经机制并不清楚。为了探究这一问题,我们以非人灵长类猕猴为实验对象,设计了包含多个层级的序
学位
将统一科学视作科学哲学中的一个重要论题并对其内容和类型加以研究的著作并不少见,逻辑经验主义的几位主要代表均有过高论。但研究其意义的著作却并不多。本文意欲用科学与哲学的双层尺度对统一科学进行思想史考察,阐明统一科学不仅是科学哲学中的重要论题,就其本意而言,统一科学是科学与哲学的统一:自古希腊始,统一科学便成为西方哲学思想的内在形式。潜藏于其中的科学知识作为哲学思想的基础,影响甚至决定其论证方式、建构
学位