论文部分内容阅读
理解蛋白质-蛋白质相互作用(蛋白互作)是当代生物学的重要挑战任务,蛋白互作的计算预测与分析也已成为近期生物信息学领域的热门研究课题之一。在本研究中,作者首先建立了一个一般性的蛋白互作预测器,这一预测器利用了互作蛋白对间非随机的密码子对使用信息。此后,作者进一步针对两个重要实例——泛素化位点与微管结合蛋白开展了更为具体的研究。泛素化位点是底物被泛素化修饰的位点,它与泛素化酶直接互作。由于泛素化系统的复杂性,目前仍不清楚泛素化位点的哪些特征使其能特异地与泛素化酶结合并被修饰。因此,在第一项实例研究中,作者试图通过统计分析,挖掘人类泛素化位点的结构特征。微管结合蛋白,顾名思义,是微管的互作伙伴。微管作为一种高度动态的蛋白复合体,它与伙伴的互作关系往往不能被一般的二元蛋白互作组所完全覆盖。在第二项实例研究中,作者通过人工文献搜集得到了一个高可信度的微管结合蛋白的数据集,并据此提取特征,构建了全新的微管结合蛋白在线分析工具。最近,借由机器学习技术,不依赖同源性的简单序列编码被越来越多地应用于蛋白互作的预测问题上。初步分析显示,酵母中互作蛋白对间的密码子对使用与随机蛋白对显著不同。受这一现象启发,作者开发了一种基于密码子对频率差异编码与支持向量机分类模型的蛋白互作预测器CCPPI.在正负样本平衡的酵母数据集上进行的十折交叉检验结果表明,提出的编码优于其它简单序列编码。而在更严格的、非平衡的大规模独立测试集上,CCPPI展示出与同类方法可比或更优的精度,其整体预测性能也排名前列。通过对CCPPI真阳性预测结果的统计分析,作者发现它倾向于反映互作蛋白对间蛋白质组水平共表达、功能相似的关系,这一特点或许有利于其对蛋白互作的预测。另一方面,和同类蛋白互作预测器一样,CCPPI也被发现存在假阳性率高的问题。尽管如此,进一步与依赖同源性的蛋白互作预测方法的比较表明,CCPPI与基于保守性或系统发育谱相关性的预测方法能相互补充。因此,当这些依赖同源性的方法失效时,CCPPI将是一个良好的备选蛋白互作预测器。作者构建了CCPPI在线预测服务器,免费对学术界开放使用,具体网址是http://protein.cau. edu.cn/ccppi。对于绝大多数人类蛋白质来说,其存续与功能是受泛素化过程调控的。时至今日,通过高通量蛋白质组学实验,数以万计的人类泛素化位点被鉴定出来。然而,泛素化位点的选择机制仍不明确,这要归因于泛素化位点侧翼复杂的序列模式。作者对一个包含有505个人类蛋白质结构的数据集开展了系统的分析。这一结构数据集覆盖了1330个高置信度的泛素化位点。定量分析结果显示,泛素化位点具有更高的可及性。而一个意外发现是,泛素化位点具有更高的中心性。进一步分析表明,泛素化位点更高的中心性与其能够影响(包括蛋白互作界面在内的)多种蛋白质功能位点的特性有关。作者的分析还表明,在一维序列上,泛素化位点的侧翼呈现出非随机的局部构象模式;而在三维空间上,泛素化位点则被一组非随机的氨基酸残基所围绕。最后,定量分析结果清楚地显示泛素化位点的结构特征与序列模式是能够相互补充的,这实质上暗示了结构水平上的泛素化位点选择机制存在的可能性。微管是真核生物细胞骨架的主要成分之一。它能调控细胞形态、细胞分裂、胞内运输、细胞信号转导等诸多生物过程,而微管的这些生物学功能正是通过一系列微管结合蛋白行使与控制的。领域内专家已经注意到已知的微管结合蛋白具有明显的多样性,而新种类的微管结合蛋白也不断地被鉴定出来。与此产生鲜明对比的是,目前尚没有专门收录已知微管结合蛋白的数据库,也没有专门的预测器以帮助发现新的微管结合蛋白。作者建立了一个以微管结合蛋白为中心的在线分析工具MAPanalyzer,它包括了两个部分:微管结合蛋白数据库与微管结合蛋白预测器。微管结合蛋白数据库的核心数据集是完全由作者人工文献搜集得到的。这些信息与其它通过自动化流程得到的蛋白注释共同组成了微管结合蛋白数据库。人工搜集的核心数据集也使得进一步提取微管结合蛋白的代表性模体成为可能。利用这些代表性模体,设计了一个半监督的支持向量机分类器,并将其与同源序列搜索方法BLAST整合,以构成新的微管结合蛋白预测器。在基于高质量独立测试集和拟南芥全基因组数据集的预测性能评测中,整合的预测器的表现不仅优于其构成组分(即支持向量机分类器与BLAST),还优于该领域内另一个常用的同源蛋白搜索工具PSI-BLAST.和CCPPI一样,MAPanalyzer (http://systbio.cau.edu.cn/mappred/)同样可供学术界免费使用。