论文部分内容阅读
蛋白质是生物的重要组成成分,是生命活动的主要承担者,如何从基因序列中找到编码蛋白质的区域对于我们研究生命活动至关重要。生物学中我们把编码蛋白质的基因序列叫做蛋白质编码区,不同基因在长度、含有的编码区个数、编码区的长度都存在差异性,编码区和非编码区的特征也不明确,这给我们对蛋白质编码区的识别带来很大困难。基于此本文构建了基于人工神经网络的蛋白质编码区识别模型,依赖神经网络的自组织能力自动提取已知蛋白质编码区和非编码区的特征,进而对未知基因中的编码区进行识别。本文针对蛋白质编码区识别问题构建了六种解决方案,总体可以分为两类模型:一是基于MLP、CNN、RNN三种网络结构的蛋白质编码区识别模型,二是利用模型间的差异性构建了基于投票、再学习、模型合并的蛋白质编码区识别集成模型。首先,本文构建了基于MLP的蛋白质编码区识别模型,经过理论分析和实验我们选择了具有一层隐藏层的模型结构;其次,鉴于CNN通过权值共享、池化等操作即能提取样本中的主要特征又能减少模型参数的特征,构建了具有两个卷积层和两个池化层的基于CNN的蛋白质编码区识别模型;然后,根据基因序列类似于时间序列的特征,而RNN能够很好地处理时间序列这一问题,构建了基于RNN的蛋白质编码区识别模型;最后,为了提高对蛋白质编码区的识别准确率,本文利用MLP、CNN、RNN三个人工神经网络的差异性,将基于MLP、CNN、RNN作为基础识别模型,在此基础上构建了基于投票、再学习、模型合并的蛋白质编码区识别集成模型。通过对MLP、CNN、RNN三种蛋白质编码区识别模型在精度、可靠性、运行时间等方面的比较,可以得到RNN在编码区识别问题上耗时最长,但是其准确率最高。而结合了MLP、CNN、RNN的三个集成模型的性能都优于每一个基础识别模型,其准确率分别达到了90.84%、90.72%,89.99%,证明了集成模型的有效性。