论文部分内容阅读
细胞凋亡、免疫应答和代谢途径等一系列重要生命活动,均是通过蛋白质之间的相互作用来实现的。蛋白质相互作用有利于阐明生命活动的分子机制,对疾病治疗和新药开发也具有一定的指导意义。随着后蛋白质组时代的到来,积累了海量蛋白质序列数据,如何处理这些海量的数据,如何从大量的蛋白质序列数据中挖掘出蛋白质之间内在的关系,以及如何构建蛋白质之间的相互作用网络,成为当前蛋白质组学研究中亟待解决的问题。因此,本文以蛋白质相互作用为研究目标,围绕蛋白质序列的编码方法和基于氨基酸序列的蛋白质相互作用预测模型构建及模型优化等问题开展研究工作。论文主要研究内容及结果如下:(1)为了改进蛋白质相互作用的预测性能,基于深度神经网络(Deep Neural Network,DNN)结合联合三元组(Conjoint Triads,CT)、自协方差(Auto-Covariance,AC)、局部描述符(Local Descriptor,LD)三种蛋白质编码方法,构建了 DNN-CT、DNN-AC和DNN-LD三种蛋白质相互作用预测模型,并采用dropout对三种模型的预测性能进行优化。实验结果发现:dropout将DNN-CT、DNN-AC和DNN-LD 的准确率分别从 97.11%、96.84%和 95.30%提高到 98.12%、98.17%和95.60%,将 DNN-CT、DNN-AC 和 DNN-LD 的损失率分别从 27.47%、65.91%和36.23%降至14.96%、17.82%和15.34%。这些结果表明,dropout可以提高预测模型的准确率同时降低预测模型的损失率,为蛋白质相互作用预测模型的优化提供了一个可行的解决方案。(2)基于CT和AC,提出了一种新的特征编码方法:联合三元组自协方差法(Conjoint Triad Auto Covariance,CTAC)。该方法将CTAC编码方法与深度神经网络、支持向量机、自适应提升算法和随机森林等机器学习算法相结合,构建不同的蛋白质相互作用预测模型。实验结果表明,基于CTAC编码方法的蛋白质相互作用预测模型不仅在Benchmark数据集获得较好的预测性能,在四个外部数据集上也分别获得较好的预测结果,和现有方法相比,优于现有的蛋白质序列编码方法。(3)针对现有蛋白质序列编码方法CT、AC和LD没有考虑整条氨基酸序列先后顺序关系这一缺点,提出一种基于序列矩阵(Matrix of Sequence,MOS)的蛋白质序列编码方法,该方法一方面考虑了整条氨基酸序列先后顺序关系,另一方面降低了向量空间的维数,减少了计算量,提高了训练速度。基于DNN和MOS构建了蛋白质相互作用预测模型DNN-MOS,实验结果表明DNN-MOS的预测性能优于大部分现有预测方法,给蛋白质相互作用预测的研究提供了一个新的解决思路。本文针对现有编码方法存在的问题,提出了两种新的编码方法,基于深度学习和传统机器学习结合多种编码方法构建了多个蛋白质相互作用预测模型,并采用dropout对模型进行了优化,为蛋白质相互作用预测提供了技术支持。