论文部分内容阅读
蛋白质是所有生物体的基石,除少数以单体的形式发挥作用外,大部分都与其他蛋白质协同发挥作用。基于机器学习的蛋白互作预测结合蛋白序列特征提取方法和机器学习算法,采用大规模数据统计方式,从整体水平上揭示蛋白质功能、了解蛋白间相互作用机制以及发现新的蛋白结合规律,对“破译分子机制”、“构建蛋白相互作用网络”、“开发药物”和“治疗优化”等蛋白质研究领域具有非常重要的指导意义。蛋白序列特征提取是蛋白互作预测首要解决问题之一,其性能的优劣直接影响机器学习算法处理蛋白序列数据的性能。因此,如何改进特征提取方法和如何优化机器学习算法是目前机器学习在生物信息领域研究中亟待解决的问题。目前,人们在采用蛋白序列特征提取与机器学习模型训练分步开展的方式研究蛋白互作预测方面取得一系列的进展。但是,这种割裂蛋白序列特征提取与机器学习模型训练关系的方式,未能有效提取蛋白序列的全序信息及长距效应,导致难以提高蛋白互作预测性能。本文从改进蛋白序列特征提取方法、引进机器学习模型优化技术以及端对端蛋白互作预测等方面开展研究,以有效提高蛋白互作预测性能,促进蛋白互作预测技术在蛋白相互作用相关研究领域的应用推广。主要工作概括如下:1、针对现有蛋白序列特征提取方法未考虑整个氨基酸序列的有序关系这一问题,提出一种新的特征提取方法-序列矩阵(Matrix of Sequence,MOS)。该方法在基于偶极子和侧链体积的氨基酸分类的基础上,将蛋白序列抽象成维数不一致的向量,并充分利用蛋白序列中每个元素的前后顺序关系,将蛋白序列编码成维数一致的向量,以解决不能直接把蛋白序列输入机器学习算法中进行分类识别的问题。2、以提高蛋白互作预测性能为目标,采用K-近邻算法(K-Nearest Neighbor,KNN)、决策树(Decision Tree,DT)和随机森林(Random Forest,RF)等三个传统机器学习模型以及深度神经网络(Deep Neural Network DNN)来研究基于氨基酸序列的蛋白互作预测,同时结合三元组(Conjoint Triad,CT)、自协方差(Auto Covari-ance,AC)、局部描述符(Local Descriptor,LD)以及序列矩阵(Matrix of Sequence,MOS)等方法,构建了十六种蛋白互作预测模型。结果表明,引入了 Dropout等网络优化技术的深度神经网络模型取得最佳评价指标,和现有结果相比,提高了蛋白互作预测性能。其中,CT、AC、LD在基准数据集上分别获得98.12%、98.17%和95.60%的最优准确率,MOS获得了 96.34%的准确率、99.28%的召回率和98.79%的受试者工作特征曲线下面积(Area Under the Receiver Operating Characteristic Curve,AUC),和现有特征提取方法相比,MOS可减少损失率,大幅节省训练时间。3、针对蛋白互作预测过程中存在的蛋白序列特征提取方法与机器学习模型训练过程割裂问题,提出基于长短时记忆网络(Long Short-Term Memory,LSTM)的端对端蛋白互作预测模型。该模型将蛋白序列特征提取作为机器学习模型的一部分,使特征提取与模型训练融为一体,通过训练获得较优的蛋白序列特征提取方法,以提高蛋白互作预测性能。结果表明,端对端蛋白互作预测模型获得了97.46%的最优准确率,提高了蛋白互作预测性能。