基于混合序列复杂度方法的蛋白质无序区域预测模型构建

来源 :华中农业大学 | 被引量 : 0次 | 上传用户:chen17981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物体依靠蛋白质行使各式各样的生物学功能,蛋白质科学研究向来都是生物学研究的核心领域之一。传统的蛋白质科学研究遵循“序列-结构-功能”的研究范式,即氨基酸序列决定其三维结构,三维结构决定其生物学功能。然而,自上世纪90年代人们开始零星地发现,某些蛋白质不具备稳定的三维结构,但依然能参与特定的生物学过程。随着时间的推移,研究者发现了更多的此类蛋白,逐渐形成了一类与传统蛋白质不同的无序蛋白(Intrinsically Disordered Protein,IDP)。IDP在整体或者部分上包含无法形成稳定三维结构的氨基酸残基片段,称为无序区域(Intrinsically Disordered Region,IDR)。过去的二十年,IDR被报道在细胞信号转导、蛋白质磷酸化、染色质结构重塑、超级增强子(Super Enhancer,SE)等众多生物学过程中发挥关键作用。更重要的是,近两年的前沿研究表明,参与生物学过程的蛋白通过IDR形成液滴冷凝物而最终形成液液相分离现象,而液液相分离被报道与某些神经退行性疾病的联系极为密切。例如,FUS蛋白和hn RNPA1蛋白的IDR在肌萎缩侧索硬化疾病中参与形成液滴冷凝物,随着液滴粘性增强并最终形成纤维状固体,从而导致疾病的发生。因此,IDR已成为当前生物学前沿研究的热点之一,此领域的研究进展和成果不仅具有重要的科研价值,而且在人类复杂疾病机制解析方面具有潜在的应用前景。当前识别蛋白质IDR的研究方法大致分为两类:一类是实验方法,另一类是计算方法。实验方法是基于现有的物理或者化学手段,包括X射线、核磁共振、蛋白酶水解实验等。在实验条件不具备时,准确性高的计算方法是一种较好的替代。过去的二十年,研究者们已开发出数十种计算方法用来识别蛋白质IDR,如IUpred、DISOPRED3、Pr DOS、POODLE等。本文使用混合序列复杂度算法刻画IDR的序列特性,兼顾采用磷酸化和亲水性刻画IDR的物化特性综合构建IDR的计算预测模型。首先,因为IDR含有大量重复的氨基酸残基片段,具有明显的低复杂度特征,这启发我们使用数学中因子复杂度和Abelian复杂度的概念来描述氨基酸序列的复杂度特征。其次,鉴于已有文献报道相分离与磷酸化、亲水性之间的密切关系,我们在序列特征基础上引入序列位点的磷酸化信息和亲水指数信息来反映IDR的物化特性,以期望进一步提高预测精度。实验表明,基于混合序列复杂度和物化特性的特征表征获得了较好的预测效果。首先我们选用Uniprot90作为训练数据集,选用混合复杂度作为算法,选用随机森林、支持向量机、朴素贝叶斯和K近邻作为备选分类器,并选用5-折交叉验证来选取模型及最优参数,并初步评价模型。结果表明,最优分类器为RF,相应的最优参数为:最优滑动窗口为4,RF的森林树的数目为210,每棵树最大特征为2。5-折交叉验证下,准确度为0.875、马修斯相关系数为0.745、ROC曲线下面积AUC为0.931。随后,我们选择CASP9和CASP10两个黄金数据集作为独立测试集进一步评价模型优劣。结果表明,上述三个指标在独立测试集上的表现略有下降,ACC分别为0.788和0.780,MCC分别为0.601和0.582,AUC分别为0.835和0.857。更进一步,我们在上述基础上引入磷酸化位点信息和亲水指数信息重新建模,利用CASP9和CASP10独立测试集来评价新的模型。结果表明,各个指标都有一定程度的提升。特别是AUC指标从0.835和0.857,提升到0.878和0.902。我们的方法在与已有方法的全面比较中显示出优越性。我们将本方法与已有的计算方法如IUpred(long)、IUpred(short)、SPINE-D、Diso Pred3、Deep CNF-D、Deep CNFD(ami_only)等进行了全面比较。本方法在MCC(0.601)指标上取得了最佳的预测效果,在AUC(0.835)这一指标上,比最佳的预测结果0.855稍差,排名第二。重要的是,加入了磷酸化位点信息和亲水指数信息后的改进方法在上述ACC、MCC、AUC三个指标上都取得了最佳的预测表现。这说明,混合序列复杂度算法结合磷酸化位点信息和亲水指数信息更能有效表征IDR,并在和已有方法的比较中显示出较强的优势。最后,作为本模型的一个应用,我们对在三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)的SE形成机制方面进行了预测研究,并在一定的依据上给出了我们的合理猜想。总而言之,我们的研究结果表明,基于混合序列复杂度与磷酸化和亲水信息的IDR表征方法具备直观合理性和预测有效性,并且在和已有计算方法的全面比较中显示出优越性。最后我们希望本方法可以成为预测IDR领域的一个重要计算方法,不仅为计算生物学家在此方面的后续研究提供参考,而且为实验生物学家在IDR功能和结构研究和药物设计学家在相关疾病的药物研发方面提供有力帮助。
其他文献
随着生物技术的发展,以基因重组技术为基础的基因工程制药成为医疗行业的重要发展方向。其中,豹蛙抗瘤酶(ONC)是一种对肿瘤细胞有很强杀伤力的核糖核酸酶。但临床试验用的豹蛙
拉索是索支承桥梁中的关键结构构件,其使用安全性直接影响整个桥梁的运营安全,其耐久性往往直接影响了桥梁的总体使用寿命。在工程实践中,拉索腐蚀病害是影响拉索安全性和耐久性的最直接因素。大量的钢结构腐蚀研究表明,点蚀形态是影响钢构件损伤后力学性能的关键模式;针对拉索钢丝腐蚀影响的研究,需要对点蚀坑的形态及其参数特征进行细致的分析。本文针对拉索钢丝的腐蚀发展规律,进行了室内模拟加速腐蚀试验,研究了不同腐蚀
无线传感器网络是一种由许多小型的,便宜的,电池供能的无线传感器构成的网络。无线传感器网络无预置基础设施的特点,导致了无线传感器网络的网络拓扑结构时常动态地发生变化。网络中无线传感器间通信的能量是由电池提供的,这使得节能成为研究的重点之一。为了稳定网络的拓扑结构以及节约通信消耗的能量,研究者们提出了虚拟骨干的概念。为了便于研究,通常无线传感器网络被抽象为单位圆盘图,相应地虚拟骨干被抽象为单位圆盘图中
整数阶偏微分方程表达的经典模型不能很好地解释反常热传导、扩散等复杂现象,调整经典方程中的参数或非线性化处理往往未能奏效,而包含分数阶导数的反常扩散却与这类实验现象
高寒草甸是高寒地区特有的植被类型,对于高寒地区水土保持、土壤修复、畜牧业发展以及生态系统的服务功能具有至关重要的作用,而冻融循环是高寒地区冻土生态系统所特有的一种生境,影响着高寒草甸的生长、生存。随着气候变暖影响的不断深入,冰川融化、冻土退化,冻融循环特征也在发生着显著的改变,而这一系列的改变势必会影响到高寒草甸的生长,因此气候变化下冻融特性演变规律、冻融特性改变对高寒草甸生长影响机理以及应对策略
指导性案例的类型化分析以及在类型化的基础上对指导性案例进行效力区分,是案例指导制度发展的必然趋势。新类型指导性案例为指导性案例的一种案例类型,在法律适用方式、功能以及遴选和适用的概率上具有区别于其他案例类型的特征。通过对新类型指导性案例的辨别可以从指导性案例中明确提取新类型指导性案例。现行案例指导制度所面临的发展困境,以及新类型指导性案例的独特性,成为赋予新类型指导性案例以强制效力的支撑性理由。赋
随着城市基础设施建设的快速发展,燃气管道早已接入了每家每户。但是,对于许多早期安装燃气管道的小区,正面临着抄表工定期上门抄表的问题,该抄表方式不仅效率低下,而且抄表数据也难以分析统计,不能准确的采集一个月的用气量。为解决该难题,本研究室在对现有各抄表方案进行研究后提出了一种由燃气表表头光学读表装置采集表头数据,编码后定期经无线传输到楼道口采集点,用手持式采集装置连接采集点后译码读数的新型抄表方式。
随着5G万物互联和大数据应用的普及,室内定位成为国内外学术界的研究热点。一方面室内定位技术将人和物与大量虚拟数据信息相结合,推动万物互联的发展;另一方面室内定位环境复杂,墙壁、家具等物体的遮挡导致卫星室外定位系统的定位精度下降。本文提出了非视距误差抑制改进算法,研究了典型室内场景下定位结果的均方根误差等参数,定位精度得到有效提高。本文的主要研究内容和成果如下:(1)本文总结了室内定位技术的研究背景
IVA-VIA(PbS、PbSe等)半导体具有窄禁带、激子波尔半径大的特性,在光学和电学等方面展现出了其优异的性能,使得其量子点掺杂玻璃在激光光源、生物应用和近红外发光材料中具有潜
校园足球是我国足球发展战略的重要组成部分,也是其他项目进校园的先行者。国家政策的推动、财政投入的加大、社会的关注和支持为校园足球创造了良好的发展空间。在这一发展环境下,场地、师资、竞赛等校园足球发展的相关要素配备提上日程,在此过程中,通过合理的配备要素,尽可能充分的激发学生足球的兴趣,促进学生广泛参与足球成为工作的重心,即哪些因素会影响到学生的足球参与行为是实施校园足球工作的基础所在。本文通过查阅