机器学习在蛋白质结构和功能预测中的应用研究

来源 :华中科技大学 | 被引量 : 7次 | 上传用户:cactusspine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在生物试验数据积累迅速增加的今天,如何将数据变为知识是一项极富挑战性又十分有趣的事情。因此,希望得到新的分析技术的生物学迅速与如日中天的信息技术相结合,催化了生物信息学的诞生。蛋白质序列信息的积累速度远快于蛋白质结构数据的增长速度,因此,人们非常希望能直接能从序列信息出发预测蛋白质结构。仅仅知道蛋白质结构还不够,人们最终想确定的是蛋白质的功能。因此,蛋白质结构与功能预测是生物信息学研究的重点任务之一。本文利用机器学习方法对蛋白质结构和功能预测中的几个分支问题进行了研究,本文主要工作包括: (1)提出了一个新的基于支持向量机的预测氢键α转角的方法。讨论了位置特异的进化信息和预测的二级结构信息对预测性能的影响。结果显示当使用相同的输入信息和使用相同的评价方法时,本方法表现出比目前最好的预测氢键α转角的方法更好的预测性能。当使用位置特异的进化信息和预测的二级结构信息作为输入,并使用相同的数据集和相同的5-折交叉验证,该方法取得的MCC为0.26,比到目前为止最好的方法取得的MCC值要高0.1。关于氢键α转角预测,我们还开发了AlphaTurn在线服务。此外,我们还比较了三种处理不平衡数据集的方法,提出用二阶段法来处理不平衡数据集。 (2)在氢键α转角预测的基础上首次对广义α转角的预测进行研究。广义α转角的定义是第I个残基与第I+4个残基的α碳之间的距离小于6.5?,不一定包括氢键。该方法表现了良好的预测性能,多序列联配信息和预测的二级结构信息都有助于提高预测性能。综合多序列联配和预测的二级结构作为输入信息时,预测的MCC值达到0.415。因为依距离定义的α转角在蛋白质中的含量比氢键α转角高,所以依距离定义的α转角的预测性能优于氢键α转角。 (3)首次开发一个基于支持向量机的从氨基酸序列出发预测π转角的可靠方法。使用进化信息(PSSMs)加上预测的二级结构信息作为输入时,SVM分类器达到最终的MCC为0.556。我们也注意到进化信息对π转角预测的贡献大于对β转角预测的贡献。因此,尽管π转角预测训练数据中正负样本数更不平衡,但π转角预测所取得的预测性能却高于β转角预测。关于π转角预测,我们还开发了PiTurn在线服务。此外,我们还计算了640个非同源蛋白中1931个π转角的位置特异的氨基酸出现的频率,这有助于π转角的设计。 (4)综合使用支持向量机和PSSMs来预测蛋白质与RNA相互作用位点。我们考虑了两种情况,仅仅知道与RNA相互作用的蛋白质的序列信息和已知与RNA相互作用的蛋白质的结构信息。当仅已知序列信息时,最好的预测性能是使用PSSMs和预测的二级结构作为输入信息时得到的,MCC值是0.432,是目前从序列出发预测蛋白质与RNA相互作用位点最好的预测性能。进化信息对预测性能的提升起至关重要的作用。当已知与RNA相互作用的蛋白质的结构信息时,预测性能进一步提升。 (5)使用了简单的信息离散性度量方法来区分β-桶形膜蛋白和球形蛋白。当l=2时,经过10-折交叉验证,识别β-桶形膜蛋白正确率是91%,识别球形蛋白的正确率是86%。它还能正确识别跨膜α螺旋蛋白,识别正确率为89%。此外,我们还用简并的氨基酸字符集测试了该方法。当氨基酸字符集减少到15、12和10时,总正确率下降的很少。这说明识别β-桶形膜蛋白和球形蛋白所需的最小信息是10个字符。当用相同的数据集测试时,信息离散性度量方法比以前的方法取得了更好的MCC值。
其他文献
本文通过对荣华二采区10
学位
在全球能源供应紧张、环境问题凸显的形势下,电动汽车因其具备节能减排、绿色环保等优点,正在蓬勃发展,由此也催生了充电站和充电市场等与电力系统密切相关的新生事物。随着充电
随着铁路信息化建设的不断开展,地理信息系统(GIS)在铁路行业中已得到广泛的应用,给铁路的运营和管理提供了有效的手段。如今,三维可视化已成为GIS的热点研究方向之一,它以立
在解决实际工程问题时,常常会涉及到微分方程定解问题的求解,但微分方程定解问题很难得到解析解,所以数值求解微分方程定解问题对工程实践问题的解决有着至关重要的地位。在很多
随着全球经济的飞速发展,传统化石能源日渐枯竭,同时人类生活环境逐步恶化。在此背景下,风力发电技术成为了各个国家发展的重点战略。由于永磁直驱同步电机(PMSG)风力发电系统具有结构简单、风能利用率高以及可靠稳定的特性,成为目前研究的热点。传统PMSG风力发电系统的研究主要在理想电网下进行,并不适应于电网电压不平衡的情况。当电网出现不平衡、电压闪落时会导致并网功率突变,从而对直流母线电压造成影响,本文
风电场功率短期预测对并网风力发电系统的运行有重要意义。本文针对风电场风速序列的特点,采用奇异谱分析提取风速序列中的趋势成分和振荡周期成分,进行准周期信号分量重建。然后考虑温度、气压对风速的影响,提出了一种基于主成分分析的最小二乘支持向量机短期风速预测方法,以样本数据矩阵的主成分作为最小二乘支持向量机的输入。在此基础上,建立了考虑尾流效应的风电场输出功率预测模型。最后,以某风电场的短期功率预测为例,
在实施素质教育的今天,教师不仅要教学生学会,更重要的是教学生会学,在课堂教学中指导学生自学是一条有效途径。进行课堂自学的指导,目的在于更好地发挥教师的主导作用和学生的主
本文通过对荣华二采区10
期刊
配电系统可靠性对用户有着显著的影响。随着用户对供电质量要求的提高,配电系统的可靠性评估问题也越来越受到人们的重视。配电系统可靠性评估的基本方法有解析法和蒙特卡罗模