论文部分内容阅读
蛋白质相互作用在新陈代谢、信号传导与识别、细胞周期调整、复杂蛋白复合物的形成、癌症发生等方面都发挥着至关重要的作用。因此,研究蛋白质间的相互作用不仅有助于全面了解生命过程,而且对于发病机制的探索、新药物的研发和寻找药物靶标等方面都具有重要意义。当前随着高通量实验技术的发展,大量的蛋白质序列信息被测出,如何从海量的蛋白质序列信息中判定哪些蛋白质间是发生相互作用的,哪些是不会发生相互作用的,相互作用的蛋白质作用位点在哪些氨基酸残基上等都是目前亟待突破的问题。由于蛋白质相互作用网络十分复杂,同时相互作用的数据呈现规模大、噪声高等特点,这给生物信息学的研究带来了前所未有的挑战。本文从蛋白质一级序列信息出发,利用智能算法,对蛋白质间的相互作用进行预测研究,所做的主要工作和创新点有以下几个方面:(1)在蛋白质相互作用位点预测方面,提出了基于组合特征集成的预测方法。蛋白质相互作用位点预测的研究对象是单个的氨基酸残基,通过提取氨基酸残基的某些生物特征来判定其是否是相互作用位点是直接有效的方式。本文中在提取了蛋白质氨基酸残基的序列谱信息、熵值和溶剂可及表面积三种特征的基础上,对其进行了不同方式组合,组成了四组样本集,分别用四组样本集训练基本RBF神经网络分类器,最后采用GASEN集成方法对四种基本本分类器进行集成学习。实验结果表明不同的特征组合方式对分类器预测结果有影响,在氨基酸基本特征序列普的基础上增加溶剂可及表面积比增加熵值对分类器预测精度的提高更有效。同时使用不同特征组合样本集训练的基本分类器在训练集上就增大了基本分类器间的结构差异性,以这种方式进行最后的集成使预测精度由只有序列谱输入时候的66.79%大幅度上升到了81.37%,证明这种基于组合特征集成的预测方法是有效的。(2)在蛋白质-蛋白质相互作用预测方面主要进行了基于不同编码方式的BP神经网络集成和基于不同负样本集的RBF神经网络集成的预测方式。针对不同的蛋白质对编码方式不同可导致不同的预测结果,文中主要创建了三种不同编码方式的样本集,分别是向量加、向量减和直接连接的编码方式,通过比较证明直接相连的编码方式效果最好。基于不同编码方式训练的基本分类器用GASEN集成方法进行集成,结果表明这种方式的集成也能较大幅度的提升预测精度。(3)针对当前在蛋白质-蛋白质相互作用研究中没有标准的非相互作用集的现状,使用不同的方法创建了四组蛋白质非相互作用样本集即负样本集,在四组不同的样本集上分别进行RBF神经网络学习,结果表明在生物体内,距离越远的负样本集预测效果越好,为生物学家构建蛋白质非相互作用数据集指明了方向。同时这种使用不同负样本集训练基本分类器来集成的方式也是有效的,因为这种训练方式也增加了基本分类器的异构性。根据以上实验可以看出,使用不同的方式增加集成分类器的异构性都可以提高集成分类器的预测能力。