论文部分内容阅读
固有无序蛋白是普遍存在的一类天然蛋白,通常缺乏稳定空间结构,且与人类重大疾病密切相关,是目前蛋白质科学研究的热点之一。由于没有稳定三维结构,用实验方法测定固有无序蛋白质比较困难,因此通过计算手段基于序列特征分析及预测固有无序蛋白是重要的有效途径。本文对固有无序蛋白的研究主要包括以下两部分:一是对固有无序蛋白有序区和无序区的序列差异特征进行深入挖掘,探索能够有效区分两种区域的序列特征参数;二是在序列分析基础上,进一步融入序列多位点特征发展对固有无序蛋白有序区/无序区的分类预测算法,为今后固有无序蛋白预测提供新方法。 1.固有无序蛋白序列信息挖掘 本文基于固有无序蛋白数据库Disprot,建立了由序列长度大于30个氨基酸的749条有序区序列和387条无序区序列组成的数据集。对有序区和无序区的序列复杂度分析表明,有序区序列复杂度普遍高于无序区,表明无序区具有更明显的氨基酸使用偏好特征,进一步分析表明两者的复杂度差异与序列长度无关。为了揭示有序区和无序区的氨基酸偏好,基于本文构建数据集进行了系统的序列分析,结果发现无序区偏好使用 A、D、E、G、K、P、Q、S、T,有序区偏好使用C、F、H、I、L、M、N、R、V、W、Y,两者具有不同的序列特征。为了进一步说明有序区和无序区中氨基酸的分布差别和两者间二联体氨基酸的使用偏好,本文将氨基酸分类和CGR(Chaos Game Representation)分析方法结合,对有序区和无序区的序列差异特征进行了深入分析,研究结果表明,固有无序蛋白的无序区和有序区之间具有明显的序列差异,CGR可视化分析指出,无序区和有序区的CGR点状图密集程度具有差异,无序区含有较多的由重复残基组成的序列。以上研究结果为固有无序蛋白预测奠定坚实理论基础。 2.基于序列特征的固有无序蛋白有序区/无序区分类方法 基于固有无序蛋白有序区和无序区的序列差异特征,分别应用序列复杂度、20种氨基酸的频率、400种二联体氨基酸的频率作为分类算法的输入特征参数,同时首次引入伪氨基酸组成(PseAAC)作为描述多位点特征的输入参数,并结合支持向量机(SVM)发展了有序区/无序区的分类预测算法。研究结果表明,使用PseAAC参数可以更有效的提取固有无序蛋白无序区和有序区的信息,以该参数作为主要分类参数,结合SVM算法进行分类预测,结果显示使用Pse AAC进行分类预测时效果最好,ACC为79.22%,Sn为89.31%,Sp为59.70%,MCC为0.5211,AUC为0.8467。此外,我们通过对分类参数的缩放发现还可以提高分类的效果。因此以后值得进一步研究数据缩放对分类结果的影响。 综上所述,本文对固有无序蛋白质有序区和无序区的序列分析及分类算法进行研究,揭示了两者之间的固有差异特征,引入的伪氨基酸组成模型进一步表明从多位点方面对固有无序蛋白序列特征进行信息挖掘,可以更好的研究序列关联性,为固有无序蛋白的预测提供新方法和思路。