论文部分内容阅读
随着后基因组时代,蛋白质组学的相关研究已经如火如荼的展开。由于高通量实验技术的发展,科研人员已经获得了大量的蛋白质组学数据。过去的十余年内,大量的基于计算手段的研究方法已经被开发和使用。这些计算工具可以分析和研究已有蛋白质相互作用数据,为生物实验提供了可信度较高的分析预测结果,从而提高了生物科研人员的实验效率,减少了不必要的人力和财力。蛋白质是生命活动的主要载体,是功能的主要执行者。蛋白质之间的相互作用,以及蛋白质与其他分子、离子之间的相互作用,是蛋白质组学领域研究的热点和难点问题。传统生物实验方法用于测定大量蛋白质相互作用耗时耗力,并且有些实验结果会出现假阳性和假阴性。近些年,研究人员设计出了基于计算模型的预测方法,可以分析蛋白质相互作用的大量数据(包括:蛋白质之间相互作用,蛋白质与药物分子、核苷酸分子、离子等相互作用作用)。但是,其中很多计算方法有着计算量大、不能大规模预测、预测精度低、所需要的先验信息(如,蛋白质组的三维结构信息)难以获取等缺点。因此,本文从计算角度研究蛋白质相互作用,主要研究基于氨基酸序列的蛋白质相互作用预测方法。本文的工作包含以下几个点:(1)蛋白质-蛋白质相互作用关系预测。本文提出了两种有效的序列特征提取方法。第一种为基于互信息的计算方法。蛋白质序列上20种氨基酸的排列组合,在一定程度上决定了蛋白质的二级结构。二级结构又反应了蛋白质三维结构的部分信息。所以,氨基酸的排列组合频率可以描述蛋白质的部分二级结构表达。在此基础上,本文首次利用信息论理论,计算并描述蛋白质序列特征。通过计算氨基酸在蛋白质序列中的多元互信息,描述各种氨基酸组合在该序列中的组分。计算后的数值构成这一蛋白质的特征向量,利用机器学习算法,进行训练和识别。第二种方法为基于氨基酸连接概率矩阵的方法。从大量蛋白质相互作用的复合物三维结构中,构建20种氨基酸间相互接触的能量熵矩阵。利用该矩阵把蛋白质序列表示成一个等尺度的矩阵。利用梯度直方图算法和奇异值分解方法分别提取该蛋白矩阵的纹理细节和矩阵特征值。结合上述两种特征,利用随机森林构建预测模型,分析和预测蛋白质相互作用关系。上述方法在12种公共蛋白质-蛋白质相互作用数据集上进行测试和验证。结果表明,本文提出的方法在大部分数据集上超过了前人的优秀方法。同时,本方法还在三个真实的蛋白质作用网络上进行了实际评估。预测结果相比前人工作,有明显提升。(2)基于计算方法的药物-标靶蛋白相互作用预测。该领域大多数方法仅使用药物相似性或靶标蛋白质相似性信息来描述药物分子和蛋白质序列,并不能完全捕获药物-标靶蛋白相互作用的重要信息。为了细化药物、标靶蛋白的描述,本研究利用蛋白质序列的多元互信息特征、药物分子子结构指纹特征和药物-标靶蛋白质相互作用网络的局部拓扑信息,构建药物-标靶相互作用的预测模型。同时,利用特征选择算法,分析特征的重要性,筛选掉噪声特征,以提高模型预测能力。本研究提出的方法在四个金标准数据集上进行了验证。本文利用这四个标准数据集分别进行了平衡和非平衡两种类型的验证手段。结果表明,本文的方法在部分数据集上超过了前人的优秀方法。在其余数据集上与当前主流方法持平。(3)蛋白质-配体结合位点预测。该研究方向的大部分方法都是基于蛋白质三维结构信息。然而,蛋白质已知序列数量远大于已知结构数量,并且有部分蛋白质不能成功结晶,无法用X射线衍射分析,所以本研究采用了基于序列的位点预测方法。首先,利用余弦离散变换,压缩蛋白序列的位置特异性矩阵,以提取有效特征,去除噪音特征,调高模型的计算效率。利用集成加权稀疏表达模型构建分类器,预测配体结合位点。加权稀疏表达模型可以有效剔除噪音样本,集成模型中使用随机欠采样可以提高模型的泛化能力。本文提出的方法在12个包含训练集和独立测试的蛋白质-配体结合位点公共数据集上进行了测试。这些独立测试集内的蛋白质序列与训练集中的序列相似度低于40%。测试过程中,本研究还与当前主流方法做了比较。实验结果表明,本文方法在八个数据集上取得了最好的预测性能。在剩下的四个数据集上,性能也超过了大部分计算方法。本研究提出的基于氨基酸序列的蛋白质交互作用预测和蛋白质-配体结合位点预测方法与基于结构信息的方法相比,具有以下优势:(1)单个蛋白质序列的计算量小,在计算效率上高于基于结构的方法;(2)蛋白质序列数量大于结构数量,相对容易获取,可实现大规模的分析和预测;(3)保证计算效率的前提下,利用氨基酸序列构建的预测模型可以保证一定的预测性能,与基于结构的方法相比区别不大。本文提出的基于多元信息的药物-蛋白质相互作用预测的方法与基于相似度矩阵的方法相比,具有以下优势:(1)较全面的考虑了蛋白质分子的物理和化学属性、药物子结构属性和局部网络拓扑;(2)采用合理的特征选择方法消除噪音特征并获得最优特征子集。