论文部分内容阅读
固有无序蛋白自身结构的松散性使得它可以与多种生物大分子结合,在细胞功能调节与信号传导中占据重要的角色,与许多人类重大疾病存在着密切关系,成为当前研究热点。然而由于无序蛋白自身结构的松散性,在自然状态下无法形成一个稳定的三维结构,使得它通过生物实验方法测定变得十分困难,通过计算方法进行预测成为无序蛋白研究中的有效途径。为此,本文引入深度学习算法,与传统机器学习算法进行比较,为固有无序蛋白的预测方法研究提供有效途径。本文首先基于Disprot无序蛋白数据库完成了数据集的构建和特征值提取,在此基础上通过对已有预测算法使用的特征集的优化组合,选取了进化保守性矩阵PSSM、氨基酸的物理化学性质与氨基酸的组成三种特征,构建了无序的组合特征编码模型。通过对传统机器学习算法(逻辑斯特回归、线性判别分析、K最近邻、朴素贝叶斯、决策树与支持向量机)和深度学习算法(卷积神经网络与循环神经网络)在无序蛋白预测算法中的应用进行了对比分析,基于不同的数据集应用不同的特征组合进行无序蛋白的预测实验,结果表明深度学习算法的准确度要明显优于传统机器学习算法,相较于支持向量机则有着更好的效率,可应用于无序蛋白的分类预测。论文最后基于包括深度学习在内的机器学习算法,给出了固有无序蛋白预测系统的设计与实现,为固有无序蛋白预测方法的进一步研究提供相应服务。