论文部分内容阅读
蛋白质的功能常体现在生物大分子的相互作用中,识别蛋白质相互作用位点对于研究蛋白质功能发挥着重要作用。研究蛋白质的功能还需要深入了解它的结构,因为结构决定功能,有什么样的结构必定有什么样的功能。生命的功能和结构,二者是统一的。通过实验方法确定蛋白质相互作用位点和蛋白质的结构类型,费时、费力、费财,且实验中可能还会遇到一些目前无法解决的困难,因此利用理论及计算方法来研究蛋白质相互作用位点、蛋白质结构类型具有重要意义。有鉴于此,本文基于支持向量机(SVM)、BP神经网络两种机器学习方法,研究了与蛋白质功能息息相关的两个方面——蛋白质相互作用位点预测和蛋白质二级结构预测。主要工作如下: 1.基于支持向量机的蛋白质相互作用位点预测从蛋白质一级序列出发,给出一种以序列上相邻残基的序列谱和信息熵的组合为输入特征向量、以支持向量机为分类器,来预测蛋白质相互作用位点的方法。本文提取出2种特征向量——序列上相邻的序谱、序列上相邻的序列谱及信息熵的组合,分别形成3种不同大小的滑动窗口(Win3、Win7、Win11),构成输入特征向量,采用“留一法”形成训练数据集和测试数据集,使用支持向量机分类器预测测试集中的表面残基是否是蛋白质相互作用位点,得到了较好的结果,说明了实验方法的有效性。最后,采用可视化软件对蛋白质相互作用位点进行了定位。实验结果表明: (1)在两种输入特征向量下的各种评价指标中,对于不同大小的信息窗,采用序列上相邻的序列谱与信息熵的组合作输入特征向量得到的结果,基本高于仅用序列上相邻的序列谱作输入特征向量的结果。这说明,在残基序列谱和信息熵这两个特征中所包含的信息可以互补,且这种互补性对蛋白质相互作用位点的预测是有益的。同时对于相同大小的信息窗,采用以上两种输入特征向量所耗费的运行时间相差无几。 (2)在两种输入特征向量下的分类正确率(Accuracy),Win7、Win11的平均Accuracy较Win3都有不同程度的提高。对于仅用序列谱作输入特征向量而言,Win3、Win7、Win11的平均Accuracy随窗口的增大而提高。 (3)对于用序列谱与信息熵的组合作为输入特征而言,Win7所得的各种评价指标的值均最高,这说明并不是目标残基的相邻残基越多,支持向量机对其分类精确度就越高,目标残基与其相邻残基之间还存在一定的融合问题。 2.基于BP神经网络的蛋白质二级结构预测提取46个蛋白质复合物的非同源单链作为数据集,分别采用5位编码和Profile编码作为输入特征向量,通过不同大小的滑动窗口(Win3、Win5、Win9),对蛋白质二级结构进行预测。实验结果显示,富含“生物进化信息”的Profile编码有着明显的优势,各种精确度均得到了较好的结果,尤其是精确度QE明显高于5位编码的QE。这说明虽然Profile编码较为复杂,但由于它富含“生物进化信息”,因而相对5位编码方式更适合于一致性较低的蛋白质二级结构的预测。