基于分组式的多分类器的蛋白质二级结构预测的算法研究

来源 :齐鲁工业大学 | 被引量 : 0次 | 上传用户:sujie0888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质二级结构预测是蛋白质结构预测和理解蛋白质结构和功能的重要课题,主要工作是依据蛋白质氨基酸序列的编码特征正确识别出对应的蛋白质二级结构标签。本文采用25PDB蛋白质序列数据集,采用PSSM编码﹑正交编码和滑动窗口方法将氨基酸处理成伪图像对蛋白质二级结构预测做了研究,在研究过程中选定了三种训练模型,分别是卷积神经网络﹑LSTM神经网络和随机森林。每个训练模型对应一个分组实验,在每个分组实验中对训练模型做了训练模型的优化设计:在基于卷积神经网络的分组实验中,设计了一个包含两个网络结构单元的一般卷积神经网络,每个网络单元包含主要的卷积层和下采样层,因为蛋白质氨基酸的伪图像对于卷积神经网络来说相对于真正的图像而言数据量较少,所以本文设计了一个可以增加输入冗余,解决一般卷积神经网络梯度偏离的残差卷积神经网络,实验证明这种卷积神经网络更加稳定,预测更准确。在基于LSTM神经网络的分组实验中,分别对伪图像在两个维度上切片生成序列数据对于一般的LSTM神经网络做了实验,因为直接切片会破坏蛋白质氨基酸序列的上下文特,所以本文采用滑动窗口操作在蛋白质序列维度生成了多个BP神经网络隐层,将这些BP神经网络隐层神经元的输出当作序列数据输入LSTM神经网络,实验证明添加BP神经网络隐层的LSTM神经网络能更好的提取蛋白质序列的上下文特征。在基于随机森林的分组实验中,本文将残差卷积神经网络在最后一个平均池化层提取的样本特征作为随机森林的输入,相当于为随机森林做了一个特征提取器,实验证明添加了特征提取器的随机森林预测结果会有很大提升。在分组实验结束之后,本文利用ensemble方法将实验中三种优化设计之后的模型进行了整合,将残差卷积神经网络﹑加入了BP神经网络隐层的LSTM神经网络和添加了特征提取器的随机森林模型在每个蛋白质二级标签上的输出概率相加,取最大概率对应的标签作为ensemble模型的输出,实验证明ensemble模型相对于三类成员模型的预测结果均有提高。
其他文献
印度枣俗称枣子,属鼠李科枣属植物,原产于印度及云南,是台湾南部最重要的经济果树之一.近年栽培面积维持在1700~2000公顷之间,产区主要集中在高雄和屏东两县,两地栽培面积约占
道路施工是推进城市化建设的重要途径,也是城市交通的基础。本文以道路施工中的技术应用为研究视点,结合现实道路施工过程中遇到的问题分析其技术应用。随着我国基础设施建设和
期刊
自学能力是学生能力发展中的关键内容,不仅对学生的课程学习有着深刻的意义与价值,对学生日后的工作发展也大有裨益,因此,在课程教学中,以自主学习能力为中心,建构教学模式就
针对实际被控对象结构复杂且难以控制的特点,为了提高系统动态品质,本文在水轮机调节系统数学模型的基础上,分别利用BP神经网络、Fuzzy控制方法对PID参数进行整定并利用MATLA
首先,研究了非奇异的AGP-内射环的正则性.证明了设R是右非奇异右AGP-内射环,如果R是右CF-环且每个主右理想都是双边理想,则R是正则环.其次,讨论了右AGP一内射环的非奇异性.证明了①
本文综述了红火蚁在台湾的入侵、发生和控制情况,简要介绍了红火蚁的形态学、入侵生物学、危害性、检疫和防治方法,为大陆预防红火蚁入侵提供借鉴.
路基作为整个公路工程施工中的重点部分,可以说路基施工的质量,就直接影响了整个公路工程的稳定性和使用寿命,因此在公路工程施工过程中,就要不断加强对于公路路基的施工,尤其是软
孙中山是民初开国一代领袖中与美国渊源关系最为密切的政治家,无论是他的革命思想或建国理念,都与美利坚合众国的经验密切关联。即便是他晚年的政治转向,也是他对美国某种程度上