论文部分内容阅读
在生物试验数据积累迅速增加的今天,如何将数据变为知识是一项极富挑战性又十分有趣的事情。因此,希望得到新的分析技术的生物学迅速与如日中天的信息技术相结合,催化了生物信息学的诞生。蛋白质序列信息的积累速度远快于蛋白质结构数据的增长速度,因此,人们非常希望能直接能从序列信息出发预测蛋白质结构。仅仅知道蛋白质结构还不够,人们最终想确定的是蛋白质的功能。因此,蛋白质结构与功能预测是生物信息学研究的重点任务之一。本文利用机器学习方法对蛋白质结构和功能预测中的几个分支问题进行了研究,本文主要工作包括:
(1)提出了一个新的基于支持向量机的预测氢键α转角的方法。讨论了位置特异的进化信息和预测的二级结构信息对预测性能的影响。结果显示当使用相同的输入信息和使用相同的评价方法时,本方法表现出比目前最好的预测氢键α转角的方法更好的预测性能。当使用位置特异的进化信息和预测的二级结构信息作为输入,并使用相同的数据集和相同的5-折交叉验证,该方法取得的MCC为0.26,比到目前为止最好的方法取得的MCC值要高0.1。关于氢键α转角预测,我们还开发了AlphaTurn在线服务。此外,我们还比较了三种处理不平衡数据集的方法,提出用二阶段法来处理不平衡数据集。
(2)在氢键α转角预测的基础上首次对广义α转角的预测进行研究。广义α转角的定义是第I个残基与第I+4个残基的α碳之间的距离小于6.5?,不一定包括氢键。该方法表现了良好的预测性能,多序列联配信息和预测的二级结构信息都有助于提高预测性能。综合多序列联配和预测的二级结构作为输入信息时,预测的MCC值达到0.415。因为依距离定义的α转角在蛋白质中的含量比氢键α转角高,所以依距离定义的α转角的预测性能优于氢键α转角。
(3)首次开发一个基于支持向量机的从氨基酸序列出发预测π转角的可靠方法。使用进化信息(PSSMs)加上预测的二级结构信息作为输入时,SVM分类器达到最终的MCC为0.556。我们也注意到进化信息对π转角预测的贡献大于对β转角预测的贡献。因此,尽管π转角预测训练数据中正负样本数更不平衡,但π转角预测所取得的预测性能却高于β转角预测。关于π转角预测,我们还开发了PiTurn在线服务。此外,我们还计算了640个非同源蛋白中1931个π转角的位置特异的氨基酸出现的频率,这有助于π转角的设计。
(4)综合使用支持向量机和PSSMs来预测蛋白质与RNA相互作用位点。我们考虑了两种情况,仅仅知道与RNA相互作用的蛋白质的序列信息和已知与RNA相互作用的蛋白质的结构信息。当仅已知序列信息时,最好的预测性能是使用PSSMs和预测的二级结构作为输入信息时得到的,MCC值是0.432,是目前从序列出发预测蛋白质与RNA相互作用位点最好的预测性能。进化信息对预测性能的提升起至关重要的作用。当已知与RNA相互作用的蛋白质的结构信息时,预测性能进一步提升。
(5)使用了简单的信息离散性度量方法来区分β-桶形膜蛋白和球形蛋白。当l=2时,经过10-折交叉验证,识别β-桶形膜蛋白正确率是91%,识别球形蛋白的正确率是86%。它还能正确识别跨膜α螺旋蛋白,识别正确率为89%。此外,我们还用简并的氨基酸字符集测试了该方法。当氨基酸字符集减少到15、12和10时,总正确率下降的很少。这说明识别β-桶形膜蛋白和球形蛋白所需的最小信息是10个字符。当用相同的数据集测试时,信息离散性度量方法比以前的方法取得了更好的MCC值。