论文部分内容阅读
生物体依靠蛋白质行使各式各样的生物学功能,蛋白质科学研究向来都是生物学研究的核心领域之一。传统的蛋白质科学研究遵循“序列-结构-功能”的研究范式,即氨基酸序列决定其三维结构,三维结构决定其生物学功能。然而,自上世纪90年代人们开始零星地发现,某些蛋白质不具备稳定的三维结构,但依然能参与特定的生物学过程。随着时间的推移,研究者发现了更多的此类蛋白,逐渐形成了一类与传统蛋白质不同的无序蛋白(Intrinsically Disordered Protein,IDP)。IDP在整体或者部分上包含无法形成稳定三维结构的氨基酸残基片段,称为无序区域(Intrinsically Disordered Region,IDR)。过去的二十年,IDR被报道在细胞信号转导、蛋白质磷酸化、染色质结构重塑、超级增强子(Super Enhancer,SE)等众多生物学过程中发挥关键作用。更重要的是,近两年的前沿研究表明,参与生物学过程的蛋白通过IDR形成液滴冷凝物而最终形成液液相分离现象,而液液相分离被报道与某些神经退行性疾病的联系极为密切。例如,FUS蛋白和hn RNPA1蛋白的IDR在肌萎缩侧索硬化疾病中参与形成液滴冷凝物,随着液滴粘性增强并最终形成纤维状固体,从而导致疾病的发生。因此,IDR已成为当前生物学前沿研究的热点之一,此领域的研究进展和成果不仅具有重要的科研价值,而且在人类复杂疾病机制解析方面具有潜在的应用前景。当前识别蛋白质IDR的研究方法大致分为两类:一类是实验方法,另一类是计算方法。实验方法是基于现有的物理或者化学手段,包括X射线、核磁共振、蛋白酶水解实验等。在实验条件不具备时,准确性高的计算方法是一种较好的替代。过去的二十年,研究者们已开发出数十种计算方法用来识别蛋白质IDR,如IUpred、DISOPRED3、Pr DOS、POODLE等。本文使用混合序列复杂度算法刻画IDR的序列特性,兼顾采用磷酸化和亲水性刻画IDR的物化特性综合构建IDR的计算预测模型。首先,因为IDR含有大量重复的氨基酸残基片段,具有明显的低复杂度特征,这启发我们使用数学中因子复杂度和Abelian复杂度的概念来描述氨基酸序列的复杂度特征。其次,鉴于已有文献报道相分离与磷酸化、亲水性之间的密切关系,我们在序列特征基础上引入序列位点的磷酸化信息和亲水指数信息来反映IDR的物化特性,以期望进一步提高预测精度。实验表明,基于混合序列复杂度和物化特性的特征表征获得了较好的预测效果。首先我们选用Uniprot90作为训练数据集,选用混合复杂度作为算法,选用随机森林、支持向量机、朴素贝叶斯和K近邻作为备选分类器,并选用5-折交叉验证来选取模型及最优参数,并初步评价模型。结果表明,最优分类器为RF,相应的最优参数为:最优滑动窗口为4,RF的森林树的数目为210,每棵树最大特征为2。5-折交叉验证下,准确度为0.875、马修斯相关系数为0.745、ROC曲线下面积AUC为0.931。随后,我们选择CASP9和CASP10两个黄金数据集作为独立测试集进一步评价模型优劣。结果表明,上述三个指标在独立测试集上的表现略有下降,ACC分别为0.788和0.780,MCC分别为0.601和0.582,AUC分别为0.835和0.857。更进一步,我们在上述基础上引入磷酸化位点信息和亲水指数信息重新建模,利用CASP9和CASP10独立测试集来评价新的模型。结果表明,各个指标都有一定程度的提升。特别是AUC指标从0.835和0.857,提升到0.878和0.902。我们的方法在与已有方法的全面比较中显示出优越性。我们将本方法与已有的计算方法如IUpred(long)、IUpred(short)、SPINE-D、Diso Pred3、Deep CNF-D、Deep CNFD(ami_only)等进行了全面比较。本方法在MCC(0.601)指标上取得了最佳的预测效果,在AUC(0.835)这一指标上,比最佳的预测结果0.855稍差,排名第二。重要的是,加入了磷酸化位点信息和亲水指数信息后的改进方法在上述ACC、MCC、AUC三个指标上都取得了最佳的预测表现。这说明,混合序列复杂度算法结合磷酸化位点信息和亲水指数信息更能有效表征IDR,并在和已有方法的比较中显示出较强的优势。最后,作为本模型的一个应用,我们对在三阴性乳腺癌(Triple Negative Breast Cancer,TNBC)的SE形成机制方面进行了预测研究,并在一定的依据上给出了我们的合理猜想。总而言之,我们的研究结果表明,基于混合序列复杂度与磷酸化和亲水信息的IDR表征方法具备直观合理性和预测有效性,并且在和已有计算方法的全面比较中显示出优越性。最后我们希望本方法可以成为预测IDR领域的一个重要计算方法,不仅为计算生物学家在此方面的后续研究提供参考,而且为实验生物学家在IDR功能和结构研究和药物设计学家在相关疾病的药物研发方面提供有力帮助。