论文部分内容阅读
蛋白质的分类预测问题是生物信息学中一类比较重要的问题。以蛋白质的泛素化为例,这是一种与各类生命活动有着重要关联的特异性修饰的过程。泛素化在蛋白质的定位、代谢、调节和降解中都起着十分重要的作用。传统的生物实验的方法来判断泛素化蛋白并检测泛素化位点需要大量的人力物力,若能使用其它方法事先筛选出可能表现出泛素化的蛋白质,再进行生物学实验,就能节省大量的成本,产生巨大的价值。而目前的相关研究主要是基于传统机器学习算法的预测模型,大都集中在泛素化位点的预测上而不能判断未知蛋白能否被泛素化,并且还存在着准确率低,模型检验不合理等问题。同时,这类算法还需要大量人为标注的额外属性信息,无法适用于那些属性不全或者全新的蛋白。而深度学习是机器学习的一个重要分支,神经网络模型又是深度学习中的主要模型之一。这类相关方法是当前利用计算机来研究医学和生物信息学的重点方法,并在多个相关领域都获得到巨大突破。本文从大量的蛋白质序列样本中筛选出正负样本,并对正样本进行扩征。根据蛋白质的性质和生物信息学相关工具,对蛋白质的序列进行了预处理,让其能够分割成等长的部分。并且在不影响未知蛋白预测的前提下,在判别标签中加入了可泛素化位点信息。结合独热编码和AAindex蛋白质信息库对序列数据进行编码。基于这类问题的特殊性和深度学习的空前成就,本文结合卷积神经网络的相关结构和特点,设计了一种仅使用蛋白质序列信息的分类预测模型。此外,还实现了基于循环神经网络的预测算法,并将其和本文提出的模型进行了比较与分析。在实现了多种数据处理方法和深度学习模型之后,本文提出了一种用于蛋白质序列分类的通用流程。在面对其它蛋白质性质时,只需要根据这类性质的特点对输入的数据做一些简单的改动,就能将该模型整体迁移到新的问题上来。最后,为了广大研究者可以便利地使用本文产出的成果,设计并实现了使用本文模型构建的蛋白质序列泛素化在线分类预测网页平台。根据可能的使用场景,对该平台进行了优化,并进行了相关的压力测试。在蛋白质的泛素化预测这一具体的问题上,和传统的机器学习方法相比,在数据的复杂性上有了明显的下降,数据处理的难度的变得更加简单。在各个模型都使用了各自的全量数据时,本文提出的模型和最好的SVM算法在准确率上接近,明显优于其它机器学习模型。在数据信息量接近时,本文提出的方法在准确率等各项指标上均优于现阶段的传统机器学习方法。