论文部分内容阅读
与核酸结合的蛋白质称为核酸结合蛋白,根据结合对象是RNA或是DNA,分为RNA结合蛋白(RBP)和DNA结合蛋白(DBP)。通过与RNA或DNA相互作用,核酸结合蛋白在多种细胞过程中起到重要作用,比如基因的转录、转录后调控、翻译等。由于用实验手段识别核酸结合蛋白需要大量的金钱和时间的投入,因此需要开发能够大规模、高精度地预测哪些蛋白质可能与RNA或DNA有相互作用的计算方法,进而对实验设计有指导作用。本文对于核酸结合蛋白的预测问题进行了深入的研究,包括对RNA结合蛋白的预测、DNA结合蛋白的预测以及核酸结合蛋白的多类预测。为了具有更广的适用性,我们从蛋白质序列出发,结合支持向量机分类,开发了RBPPred方法,进行RNA结合蛋白的预测。采用的蛋白质特性包括:氨基酸的疏水性、极性、标准化的范德瓦尔斯体积、极化性、预测的二级结构、预测的溶剂可及性、侧链的带电性和极性以及蛋白质的进化信息。结果显示,RBPPred在2078个RBPs和7093个non-RBPs采用十倍交叉验证,取得的灵敏度为83%,特异性为96%,马修相关系数为0.808。并且,在独立的人类蛋白质数据集上进行测试,RBPPred取得的灵敏性为84%,特异性为97%,马修相关系数为0.788。通过与其他方法在不同数据集上进行比较,结果表明,RBPPred比目前已知的其他方法取得的结果要好很多。另外,我们还测试了RBPPred方法预测新RBPs的能力,进一步证实了该方法的实用性和预测能力。最后,我们把RBPPred应用到不同物种的蛋白质组上,在每个蛋白质组中都预测了一些可能的RNA结合蛋白,并对蛋白质中含有的保守性RNA结合结构域进行了分析。在RBPPred的基础上,我们进行了进一步的改进和完善,主要包括数据集的更新、增加了3个重要的属性特征、探索了不同序列比对数据库对RNA结合蛋白预测的影响,开发了RBPPred2.0。结果表明,RBPPred2.0相对于RBPPred在预测性能上有进一步提升。鉴于RBPPred2.0在RNA结合蛋白预测中的优异表现,我们把RBPPred2.0中用到的所有属性特征扩展到DNA结合蛋白和核酸结合蛋白的多类预测中,开发了DBP-Pred和NABP-Pred方法。经测试,DBP-Pred在含有1244个DBPs和1244个non-DBPs的非冗余的独立测试集上取得的预测灵敏度、特异性、MCC值分别为66%、87%和0.548,比其他方法的预测性能要好。在核酸结合蛋白的多类预测中,根据蛋白质与核酸的结合情况,我们定义和构建了四个新的蛋白质数据集(分别是DRBP、o DBP、o RBP、non-NABP),可以在一个模型上进行DBPs和RBPs的预测。这种全新的数据集定义方式,在核酸结合蛋白的预测算法中是第一次。通过在含有212个DRBPs、1939个o DBPs、1314个o RBPs和4993个non-NABPs的数据集上进行五倍交叉验证,NABP-Pred取得的总体预测准确度为76.08%。