论文部分内容阅读
蛋白质在生命体的日常活动中扮演着最为关键的角色,大多数细胞正常生理功能最终需要由产生与结合的蛋白质代为实现,蛋白质通过两两间、或多蛋白间相互结合实现蛋白之间的功能。一直以来传统的研究蛋白质结合的实验方案已经积累了相当的各类蛋白质相关信息与相互作用信息,但是这些方法大多存在局限性,尤其是检验速度无法满足进一步研究的要求。近年来研究人员利用机器学习工具结合蛋白质特征编码算法对蛋白质相互结合网络进行预测,不断提出了提高预测精度的方法,然而经过实验,我们发现多数预测方法在更严格的数据集面前效果并不理想。本文使用幽门螺杆菌、酵母菌和拟南芥的蛋白质数据库,结合小波变换对蛋白质序列信息提取的编码算法,研究利用多种机器学习方式预测同物种中的蛋白质相互作用及迁移学习下不同物种中蛋白质相互作用。主要内容如下:在第二章中,首先使用Database of Interact Protein(DIP)蛋白数据库的幽门螺杆菌、酵母菌和拟南芥的蛋白质相互作用正负数据集,然后用小波变换的方法转化了蛋白质一级结构从而对数据集中的蛋白质作用对进行编码,使用stacked generalization结合四种广泛使用的基分类器以及logistic regression算法综合输出了对幽门螺杆菌、酵母菌以及人类的蛋白质相互作用预测,最后对预测结果进行了分析。实验结果显示新的集合算法体现出了良好的预测性能,并在不同数据集上工作稳定,是值得进一步发展运用的良好算法。第三章中,我们将新算法与学界广泛认可的Tradaboost算法,在自制的蛋白迁移数据库上进行测试。从测试结果上看,我们新提出的算法同样的取得了较好的预测能力,在本实验的几项评估标准中同样展现出了优于Tradaboost算法的特点。然而在多组算法的对比中我们发现物种间蛋白相互作用规律并不通行的特点,使得目前的基于序列的蛋白质相互作用预测都无法在跨数据集的条件下进行。