论文部分内容阅读
蛋白质识别研究是生物信息领域的一个重要研究分支,所要完成的任务是能够对未知的蛋白质所属种类进行正确的分类。我们完成的相关研究是对于DNA结合蛋白和蛋白质结晶两个方面的蛋白质识别研究。首先由于DNA结合蛋白在多种生物分子功能中起着重要的作用,而蛋白质结晶是通过X射线晶体学确定蛋白质结构的关键步骤,所以对于DNA结合蛋白和蛋白质结晶的识别与预测就显得尤为重要。传统的生物实验方法虽然较准确,但是却有耗时、费力且昂贵的缺点,且随着蛋白质序列数目爆发式的增长,生物实验方法已经不能满足人们的需求,于是迫切需要高精度、高速度与低消耗的计算方法来进行相关工作。由于大部分蛋白质并没有关于它的结构信息,所以基于蛋白质序列信息的蛋白质识别研究更适用于现在的具体情况。在本文中,我们详细介绍两个方面的研究工作:首先在DNA结合蛋白识别研究工作中,我们为蛋白质样本设计了三种特征提取算法,分别是归一化的Moreau-Broto自相关属性(NMBAC)、位置特异打分性矩阵-离散余弦变换(PSSM-DCT)和位置特异性打分矩阵-离散小波变换(PSSM-DWT)。对特征使用结合了相关性偏见减少策略的支持向量机递归特征消除算法(SVM-RFE+CBR)进行特征选择,在训练集PDB1075和PDB594上使用留一法进行评估,在测试集PDB186上使用独立测试进行评估,使用的模型算法是支持向量机(SVM)。接下来在蛋白质结晶识别研究工作中,我们采用了六种特征提取算法,分别是均分块-位置特异性打分矩阵(AVBlock-PSSM)、均分块-二级结构(AVBlock-SS)、全局编码(GE)、伪位置特异性打分矩阵(PsePSSM)、Protscale和离散小波变换-位置特异性打分矩阵(DWT-PSSM)。提取的特征经过线性结合后建立SVM模型进行预测。我们总共使用了两组数据集,训练集是TRAIN3587和TRAIN1500且它们通过五折交叉验证的方法获得预测结果,它们各自对应的测试集是TEST3585和TEST500且用于独立测试中。最终,在DNA结合蛋白的识别研究中,我们的方法在数据集PDB1075和PDB594上的留一法实验结果都达到了最高的准确度,在独立测试中我们方法的准确度也达到了76.3%,这个结果是优于绝大多数现存方法准确度的。在蛋白质结晶识别研究中,我们的方法在第一组数据集TRAIN3587和TEST3585上的五折交叉验证以及独立测试取得了最好的预测结果,而且我们的方法在第二组数据集的训练集TRAIN1500上也在五折交叉验证中取得了最好的预测结果。在测试集TEST500上的独立测试虽然不能够达到最优但已经超越了绝大多数现存方法的预测效果。这两个研究工作都表明了我们在DNA结合蛋白和蛋白质结晶的识别研究工作中提出的方法都具有明显的优势且能很好地用于相关蛋白质的识别工作中。