论文部分内容阅读
蛋白质的生物学功能与其空间结构密切相关,要了解和掌握蛋白质的功能首先是分析蛋白质的结构。如何预测蛋白质结构是生命科学中重大的研究课题之一,然而,通过实验手段确定蛋白质的结构,不但成本高、耗时,而且实验中还会碰到一些目前无法克服的技术困难,因此理论预测成为蛋白质空间结构获取的一个重要途径。从蛋白质一级结构直接预测三维空间结构非常困难,蛋白质超二级结构正是两者之间的重要桥梁,因此蛋白质超二级结构的预测有着重要的研究意义。 本文,首先我们选取序列同源性均低于30%的123个蛋白质,然后提取5类简单蛋白质超二级结构和β-发夹模体作为基准数据集,在两个基准数据集中分别提取6个原子化学位移作为特征参量,应用多种预测算法实施预测。其中在5类简单蛋白质超二级结构预测中,应用二次判别法取得结果最好,7折交叉检验获得的平均敏感性、平均特异性、总精度分别是81.8%、95.19%、82.91%;在β-发夹模体数据集中,3折交叉检验获得的敏感性、特异性、总精度以及马修斯相关系数分别是92%、94%、87%以及0.85。结果可见:化学位移作为特征参量和二次判别法结合可以有效的对蛋白质超二级结构进行预测。 疟疾是一种由疟原虫引起的严重危害人类健康的感染性疾病,疟原虫线粒体蛋白被视为有效的抗疟药物靶。近年来,随着生物信息学的飞速发展,越来越多的理论预测工作者投入到精确识别疟原虫线粒体蛋白的研究中。 本文,我们首次将蛋白质3种二级结构加入到疟原虫线粒体蛋白的预测工作中。我们选取序列一致性小于25%的pfM233数据集,通过提取蛋白质3种二级结构组份、20种氨基酸组份,400种二肽组份分别作为的特征参量,并使用方差分析对400种二肽组份进行特征筛选,然后应用支持向量机对pfM233数据集进行预测,最后我们发现:1)蛋白质二级结构的加入的确能够提高预测精度,此结果表明:对于疟原虫线粒体蛋白的预测,蛋白质二级结构组份的加入是一个有效的参数;2)特征参量的结合能够改善预测结果,但是在信息冗余的情况下,特征筛选能够降低维度,简化计算。当3类特征参量组合起来作为特征参量时,15折交叉检验获得敏感性、特异性、总精度以及马修斯相关系数分别是98.16%、97.64%、97.88%以及0.957,此结果与之前类似工作相比较,显示了我们工作的优越性。