论文部分内容阅读
随着人类基因组计划的完成,生命科学研究进入后基因组时代,研究基因所表达的蛋白质成为研究的热点。蛋白质的功能往往体现在与其它蛋白质或其它的生物大分子之间的相互作用之中。近年来,以蛋白质间相互作用研究为重要内容的蛋白质组学研究逐渐形成。构建模式细胞系统中全部蛋白质相互作用网络,即蛋白质相互作用组(interactome),对于蛋白质的功能预测及新药研发等提供理论依据,从而揭示一切生命活动的规律。 贝叶斯方法建立在贝叶斯统计学和贝叶斯决策理论基础上,能够有效的处理不完全(或部分数据丢失的)数据集,是一种将(专家)先验知识和数据进行综合的理想表达模式。目前,贝叶斯方法已经广泛应用于医疗诊断、生物信息学、金融分析等各个方面。本文以蛋白质相互作用组学的内容为研究对象,将贝叶斯方法应用到蛋白质相互作用位点预测和相互作用对象预测中去,主要研究内容如下: 1、提出了一种新的进行蛋白质表面模拟的算法。研究表明,蛋白质间的相互作用通常发生在两个相互作用的蛋白质表面间。对蛋白质表面的模拟不仅是蛋白质相互作用研究的基础,更可以有效的指导蛋白质对接的研究。我们以蛋白质三维结构的分子表面为研究对象,根据蛋白质的三维几何特征设计了一种提取蛋白质表面原子的几何算法PSAGA(Protein Surface Atom Geometrical Algorithm)。在提取出的表面原子基础上,引用球函数具有的旋转不变性的特点,进行蛋白质表面形状的模拟,模拟出的蛋白质表面可以有效克服蛋白质在空间变换过程中需要不停进行重新计算表面问题,从而有效地提高了计算效率。实验结果验证了所用方法的准确性。 2、从蛋白质相互作用的生化特征出发,基于朴素贝叶斯分类器属性条件独立性的要求,提出了一种新的蛋白质相互作用位点预测算法模型。我们选取蛋白质的20维序列谱这个序列信息和溶剂可及表面积这个结构信息,构成相对独立的21维条件独立属性作为朴素贝叶斯分类器的输入信息,在一个由90条蛋白质链构成的典型的异源蛋白质复合物数据集上采用留一法进行训练测试。与其它方法相比,由于我们采用先验概率分布的形式将不等量的正负样本信息融合到预测模型中,从而充分克服了其它方法为平衡数据集而导致的信息丢失,同时也充分的利用了朴素贝叶斯分类器结构简单计算复杂度低的特点。实验结果与其它方法相比取得了更高的性能,3维结构可视化的结果更进一步的证实了我们方法的有效性。 3、基于序列邻近信息对蛋白质相互作用位点预测的影响这一实验结果,提出了一种新的作用位点预测的贝叶斯算法模型。已有的研究表明,蛋白质序列中残基通常都是聚集成团形成作用位点,因此,仅考虑目标残基的生化特征并不能有效的反映作用位点的特性。而要考虑邻近残基的影响,必然要破坏朴素贝叶斯分类器的结构。为此,我们基于TAN分类器设计了一个新的作用位点预测算法模型ATAN算法模型:该模型通过固定的图结构来反映序列邻近信息,而结点间的参数概率表则通过训练数据学习得到。该方法既考虑了邻近信息对结果的影响,又没有改变算法的时间复杂度。在一个由81条蛋白质链组成的异源蛋白质复合物数据集上,我们采用10-fold方法进行训练测试,实验结果表明,该方法相比于其它方法取得了更好的实验结果,3维结构可视化的结果也证实了方法的有效性。 4、提出了一种新的仅基于蛋白质序列信息的低维特征向量构成,并基于此构建了一个自动实现蛋白质相互作用对象预测的贝叶斯算法模型。作用对象预测是构建蛋白质相互作用网络的基础,我们基于pseudo-氨基酸组成,设计了一个新的仅基于蛋白质序列信息的低维特征向量,该向量既可以有效的反映蛋白质的序列生化信息,又具有低维的特征,从而充分发挥了贝叶斯方法在低维数据处理时的高效性,适应生物信息海量数据处理的要求。算法以K2算法进行网络结构学习,算法的时间复杂度仅为多项式时间。在一个由6459对酵母核心数据集组成的数据集上进行训练,并在DIP数据库中的6类种群上进行预测,结果获得了平均93.67%的预测准确率。实验表明我们的方法无论在预测准确率还是在计算时间上均取得了比别的方法更好的效果。