论文部分内容阅读
蛋白质二级结构预测是蛋白质结构预测和理解蛋白质结构和功能的重要课题,主要工作是依据蛋白质氨基酸序列的编码特征正确识别出对应的蛋白质二级结构标签。本文采用25PDB蛋白质序列数据集,采用PSSM编码﹑正交编码和滑动窗口方法将氨基酸处理成伪图像对蛋白质二级结构预测做了研究,在研究过程中选定了三种训练模型,分别是卷积神经网络﹑LSTM神经网络和随机森林。每个训练模型对应一个分组实验,在每个分组实验中对训练模型做了训练模型的优化设计:在基于卷积神经网络的分组实验中,设计了一个包含两个网络结构单元的一般卷积神经网络,每个网络单元包含主要的卷积层和下采样层,因为蛋白质氨基酸的伪图像对于卷积神经网络来说相对于真正的图像而言数据量较少,所以本文设计了一个可以增加输入冗余,解决一般卷积神经网络梯度偏离的残差卷积神经网络,实验证明这种卷积神经网络更加稳定,预测更准确。在基于LSTM神经网络的分组实验中,分别对伪图像在两个维度上切片生成序列数据对于一般的LSTM神经网络做了实验,因为直接切片会破坏蛋白质氨基酸序列的上下文特,所以本文采用滑动窗口操作在蛋白质序列维度生成了多个BP神经网络隐层,将这些BP神经网络隐层神经元的输出当作序列数据输入LSTM神经网络,实验证明添加BP神经网络隐层的LSTM神经网络能更好的提取蛋白质序列的上下文特征。在基于随机森林的分组实验中,本文将残差卷积神经网络在最后一个平均池化层提取的样本特征作为随机森林的输入,相当于为随机森林做了一个特征提取器,实验证明添加了特征提取器的随机森林预测结果会有很大提升。在分组实验结束之后,本文利用ensemble方法将实验中三种优化设计之后的模型进行了整合,将残差卷积神经网络﹑加入了BP神经网络隐层的LSTM神经网络和添加了特征提取器的随机森林模型在每个蛋白质二级标签上的输出概率相加,取最大概率对应的标签作为ensemble模型的输出,实验证明ensemble模型相对于三类成员模型的预测结果均有提高。