论文部分内容阅读
随着DNA测序技术的飞速发展,大量的基因和蛋白质序列得到积累,许多研究者开始基于这些海量的基因和蛋白序列进行探索,挖掘它们的价值,这使得生物信息学得到了快速的发展。近年来,越来越多的统计学和机器学习方法也逐渐出现在生物信息学中。深度学习是最近发展起来的机器学习方法,它已经在图像处理和语音识别等领域得到了广泛的应用,并且取得了很好的效果。在生物信息学中,深度学习也有了一定的应用。本文研究了基于深度学习方法预测流感病毒抗原变异以及病毒的宿主,主要工作介绍如下:1)流感病毒抗原变异预测。流感病毒由于突变速率高而经常改变其抗原,这会导致免疫逃逸与疫苗效率降低甚至失效。快速确定其抗原性的变化有助于及时发现抗原变异病毒。本文基于流感病毒的血凝素(HA)蛋白序列建立了一个稀疏自动编码器(SAE)模型来预测人类流感A(H3N2)病毒的抗原变异。该模型在五折交叉验证中的准确率达到了 95%,对比逻辑回归模型、决策树模型、随机森林以及SVM都有更好的结果。对模型的分析表明,隐藏层中大多数对抗原变异贡献较大的节点是由多个氨基酸位点一起决定的,而且参与这些重要节点的氨基酸位点,如189、145和156,也被证实对该流感病毒的抗原变异起到决定性作用。2)病毒宿主预测。病毒对地球的生态平衡、物种的进化和人类的生命健康都有着非常重要的影响。由于病毒的多样性,目前人类对于病毒的了解还远远不够。大多数以人类为宿主的病毒都是在对人类的生命安全造成严重的威胁之后才开始被重视。快速的找到未知病毒的宿主有助于了解病毒与宿主的相互作用以及更好的预防病毒的潜在威胁。本文基于病毒的基因序列提出了 HDeep深度学习模型来预测病毒的五种宿主(古生菌、细菌、真菌、植物以及动物),同时对比了随机森林、K近邻等模型都展现出了更好的预测效果。此外在五分类的预测结果中,对于预测宿主为古生菌和细菌的病毒使用CRISPR spacer等方法继续预测其特定的宿主;对于预测宿主为动物的病毒则建立动物病毒的HDeep模型预测其宿主是否为脊椎动物;对于预测宿主为脊椎动物的病毒建立脊椎动物病毒的HDeep模型预测其宿主是否为人。通过这种方式快速的确定未知病毒是否可以感染人,从而有针对性对病毒进行预防和控制。综上,对于流感病毒抗原变异预测的研究不仅有助于快速识别流感抗原变异病毒,而且通过分析SAE模型可以理解抗原变异背后的分子机制;对于病毒宿主预测的研究有利于快速的确定未知病毒的宿主,为病毒的防控提供科学指导。因此,本工作的完成不仅是对于深度学习在生物学问题中应用的探索,而且得到的成果有助于病毒的防控,具有一定的实际应用价值。