论文部分内容阅读
近几年生命科学的研究方向随着基因工程的工作步入尾声之后开始逐渐转向基因的功能,又因为基因的功能在细胞水平上所呈现的全部生命活动都是通过蛋白质之间相互作用方式直接或间接地实现,例如:DNA复制、信号传导、调节机制、DNA转录和基因翻译等活体细胞各个水平上的必不可少活动,所以在后基因组时代中蛋白质之间的相互作用已然成为关键研究方向之一。大量研究证明在蛋白质相互作用网络中只有极少数残基在它形成过程中释放出比较多能量,对于其他大部分残基而言,那些少量残基是在蛋白质结合过程中所产生自由能的主要提供者,后来研究人员将这些主要贡献的残基定义为热点残基(Hot Spots)。热点残基其实是位于蛋白质结合界面上的一小簇残基团,它们是以聚集形式分布在蛋白质界面上,并不是以均匀方式存在。热点残基虽然占据的蛋白表面面积非常小,但是它们在蛋白质-蛋白质的自由结合中充当非常重要的角色。热点残基深刻地影响着蛋白质功能的发挥并且对维护蛋白质结合界面的稳定性有着十分关键的作用。虽然目前通过生物实验技术可以发现蛋白质-蛋白质结合界面上的热点残基,但是这个方法复杂,并且由于昂贵和耗时等原因而不能被广泛的应用。所以很多研究者尝试使用其它预测的方法比如基于计算预测,其中主要包括基于经验公式和机器学习进行热点残基预测,这些方法虽然取得一些成果,依然存在很大提升空间。本文采用机器学习方法进行热点残基的预测,我们从氨基酸理化、蛋白质序列、结构和蛋白质的相互作用等方面上提取了 143个特征,之后,我们采用最小冗余特征选择算法结合前向支持向量机算法从中筛选出41个特征,并且利用随机森林算法构建模型,和其他文章方法相比之下,本文在独立测试集上的预测指标F1和MCC分别达到了 0.625和0.518。我们称这种方法为HPcms。并且经过特征筛选后,本文的新特征依然是预测结果的重要特征。最后,本文将很多热点残基预测工具集成并进行生物上的应用:预测抗体-抗原(抗原是蛋白质情况下)结合中表位上的热点残基,之后使用开源软件RosettaMultigraft模块以计算机模拟方式对我们实验室的蛋白质结构3ztn.pdb上两段表位移植到其他蛋白质支架上,经过计算机层面上的筛选后,进行生物实验。通过生物实验对比和结果上分析,本文提出的集成热点残基预测方法对于抗体-抗原上表位上的热点残基预测和表位移植发挥重要作用。