论文部分内容阅读
杨树作为我国的速生丰产树种之一,在林业产业和国民经济中具有重要地位,同时它也是木本植物生物信息学研究的模式树种。杨树蛋白质的结构与功能是森林生物信息学在后基因组时代的研究热点。利用BP人工神经网络技术将杨树蛋白质二级结构和磷酸化修饰位点作为森林资源的重要组成部分进行研究,构建了数形统一、简单直观、应用方便的预测模型,把森林资源经营管理对象范围从宏观扩展到微观,为森林生物信息学的研究发展提供了一种新思路。本研究提出了基于蛋白质理化性质的氨基酸V型描述子编码方式,该编码方式下杨树蛋白质二级结构和磷酸化修饰位点的预测研究模型的性能都得到了提升,是一种比较合适的蛋白质编码方式。本研究主要内容和结果如下:(1)当前杨树蛋白质结构数据的获得仍然以实验手段获得为主,杨树蛋白质结构的获取速度比较慢,杨树蛋白质结构的研究发展空间巨大,利用ANN技术进行杨树蛋白质结构的预测研究有利于加快蛋白质结构数据的获取速度,推动森林资源信息化管理水平的提高。利用MATLAB软件实现文本型数据向数值型转变,并借助其超常规的仿真函数表达将所构建的模型存储,方便研究者查阅和调用。(2)以滑动窗口法切取长度为21个氨基酸残基的杨树蛋白质序列片段作为输入数据,以其所对应的二级结构作为输出数据,利用氨基酸V型描述子编码方法编码,构建了基于BP人工神经网络的杨树蛋白质二级结构预测研究模型,最佳模型结构为21:55:7,模型的整体拟合精度为84.66%,对于单个类型二级结构的拟合精度可达90.43%;模型的预测准确率达74.26%,对于单个二级结构的预测准确率最高可达82.02%,相较于前人研究,拟合精度和预测准确率都有所提升,模型具有很强的预测能力。(3)以长度为21个氨基酸残基的杨树蛋白质磷酸化修饰序列片段作为输入数据,以其中心点位氨基酸残基是否被磷酸化修饰作为输出数据,构建了基于BP人工神经网络的杨树蛋白质磷酸化修饰位点预测研究模型,最佳模型结构为21×16:8:4,模型的Acc、Sn、Sp、MCC分别为78%、89%、67%、0.57,除特异度指标Sp外,其余指标都要优于前人的研究,模型具有较强预测能力。(4)杨树蛋白质磷酸化修饰位点多发生为S、T残基的磷酸化,未见Y残基的磷酸化,这是有别于其他生物体内蛋白质磷酸化的一个特点;杨树蛋白质二级结构和磷酸化修饰间存在一定的联系,H型二级结构更容易被磷酸化修饰。B、G和S型二级结构则不容易被磷酸化修饰。综上研究内容和结果,在后基因组时代,将生物信息作为森林资源的组成,从微观上进行森林资源的信息化管理,利用ANN技术进行杨树的生物信息学研究是可行的。这对加快杨树生物信息学发展以及提高森林资源信息化管理水平都具有十分重要的意义。