论文部分内容阅读
在后基因组时代,蛋白质组学已成为非常重要的研究热点之一。蛋白质作为生命活动的重要载体,对其三维结构进行解析有助于了解蛋白质功能,进而深入理解各种生命现象的本质。蛋白质结构在药物设计和蛋白质设计等方面也有着广泛的应用,然而,相对于已经测定出的蛋白质序列的数量,已知蛋白质结构的数量相对甚少,并且蛋白质序列和结构数量之间的差距日益增大。幸运的是,随着生物大数据的不断积累以及模式识别方法特别是深度学习技术的快速进步,使得直接基于蛋白质序列快速准确地从头预测出蛋白质结构成为可能。由于蛋白质结构预测具有速度快及成本低等优点,它已然成为通过理论实验解析蛋白质结构的一种补充方法。在预测蛋白质三维结构的过程中,空间约束起着关键的作用,如角度和距离约束等,它们可以大幅降低构象空间的熵,以达到优化蛋白质结构的目的。蛋白质残基网络中的相互作用信息,特别是长距离的相互作用,能够协助结构建模算法计算出高质量的构象空间。研究表明,二硫键作为一种特殊的残基相互作用,在蛋白质折叠过程中至关重要。近些年来,科研人员利用各种模式识别方法开发了多种蛋白质残基相互作用预测模型,并成功地把预测结果转化为空间距离约束条件优化三维结构模型。但在实际应用中,对于相似序列较少的蛋白质,如何精确地预测残基之间的相互作用信息,一直困扰着研究人员,因为从序列中提取到的特征并不准确。当前,绝大多数预测模型仅适用于水溶性蛋白,对于膜蛋白残基相互作用预测的研究相对较少,这是由于已知膜蛋白的结构很少,因而没有足够的样本训练出高质量的预测模型。本文直接从蛋白质序列出发,基于机器学习和数据挖掘技术,主要研究对象是蛋白质残基之间的相关性,包括水溶性蛋白和膜蛋白中的残基相互作用以及二硫键连接模式。除此之外,还研究了空间距离约束在蛋白质三维结构建模中的应用。本文主要的研究内容与创新点如下:一、提出了基于动态决策的蛋白质残基相互作用预测算法R2C。本文研发了一种动态融合策略,充分利用有监督的机器学习法和无监督的相关性分析法的优点,针对不同的输入采取不同的线性融合权重,提高了预测残基相互作用的正确率。全局相关性分析算法能够有效去除因传递噪声带来的假阳性,然而,在其输出中仍然可以观察到高斯噪声,本文首次应用高斯滤波模型进一步优化相关性分析法的输出,强化了长距离残基相互作用的预测正确率。二、构建了基于卷积神经网络的残基相互作用预测模型MemBrain。在膜蛋白中,跨膜螺旋间的残基相互作用信息对结构建模更加重要,因而得到了更多的关注。现有方法只用跨膜螺旋间的残基对训练模型,然而本文则使用全序列的样本训练机器学习模型。一方面可以增加训练样本,另一方面预测模型将有能力计算全序列的残基相互作用。由蛋白质三维结构的固有特性决定了残基相互作用信息是密集分布的,据此,MemBrain预测模型被设计成两级的架构,第一级用于预测序列中每个残基对发生相互作用的概率,第二级则以待测残基对及其邻域内的残基对的初始概率为输入,利用卷积神经网络挖掘隐含在其中的相互作用关联模式,从而大幅地提高了预测残基相互作用的正确率。三、开发了基于降阶方法的Cyscon模型以预测二硫键连接模式。二硫键可能的连接模式数量与蛋白质序列中二硫键的数量呈指数正相关,当序列中含有5个以上的二硫键时,当前的预测算法都难以正确预测出其连接模式。针对这一难题,本文创新地引入了降阶的思想,即首先基于序列比对的方法找出待测序列中较为保守的二硫键,然后再用传统的机器学习法预测出序列中剩余的二硫键。在该框架下,一方面预测模型能够处理包含更多二硫键的蛋白质序列,另一方面提高了二硫键连接模式的预测正确率。基于Cyscon的预测结果,本文首次系统地验证了二硫键作为空间距离约束能够提高蛋白质三维结构建模的精度。四、设计了基于穷尽约束搜索的算法ExSSO用于辅助核磁共振(NMR)实验解析膜蛋白结构。与蛋白质残基网络中的相互作用信息不同,利用NMR技术测得的NOE(Nuclear Overhauser Enhancement)距离约束非常可靠,但是却具有双向不确定性。本文在已知跨膜多聚体的单体结构以及单体数量的条件下,利用不确定的NOE约束穷尽地筛选跨膜多聚体的构象空间。ExSSO通过对欧拉角的均匀采样,实现了对单体结构朝向近乎完全地搜索,最后通过聚类的方法计算出具有代表性的结构,有效地避免显式求解每个NOE约束的方向。