基于贝叶斯方法的蛋白质相互作用预测研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:dongxiaohu123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的完成,生命科学研究进入后基因组时代,研究基因所表达的蛋白质成为研究的热点。蛋白质的功能往往体现在与其它蛋白质或其它的生物大分子之间的相互作用之中。近年来,以蛋白质间相互作用研究为重要内容的蛋白质组学研究逐渐形成。构建模式细胞系统中全部蛋白质相互作用网络,即蛋白质相互作用组(interactome),对于蛋白质的功能预测及新药研发等提供理论依据,从而揭示一切生命活动的规律。  贝叶斯方法建立在贝叶斯统计学和贝叶斯决策理论基础上,能够有效的处理不完全(或部分数据丢失的)数据集,是一种将(专家)先验知识和数据进行综合的理想表达模式。目前,贝叶斯方法已经广泛应用于医疗诊断、生物信息学、金融分析等各个方面。本文以蛋白质相互作用组学的内容为研究对象,将贝叶斯方法应用到蛋白质相互作用位点预测和相互作用对象预测中去,主要研究内容如下:  1、提出了一种新的进行蛋白质表面模拟的算法。研究表明,蛋白质间的相互作用通常发生在两个相互作用的蛋白质表面间。对蛋白质表面的模拟不仅是蛋白质相互作用研究的基础,更可以有效的指导蛋白质对接的研究。我们以蛋白质三维结构的分子表面为研究对象,根据蛋白质的三维几何特征设计了一种提取蛋白质表面原子的几何算法PSAGA(Protein Surface Atom Geometrical Algorithm)。在提取出的表面原子基础上,引用球函数具有的旋转不变性的特点,进行蛋白质表面形状的模拟,模拟出的蛋白质表面可以有效克服蛋白质在空间变换过程中需要不停进行重新计算表面问题,从而有效地提高了计算效率。实验结果验证了所用方法的准确性。  2、从蛋白质相互作用的生化特征出发,基于朴素贝叶斯分类器属性条件独立性的要求,提出了一种新的蛋白质相互作用位点预测算法模型。我们选取蛋白质的20维序列谱这个序列信息和溶剂可及表面积这个结构信息,构成相对独立的21维条件独立属性作为朴素贝叶斯分类器的输入信息,在一个由90条蛋白质链构成的典型的异源蛋白质复合物数据集上采用留一法进行训练测试。与其它方法相比,由于我们采用先验概率分布的形式将不等量的正负样本信息融合到预测模型中,从而充分克服了其它方法为平衡数据集而导致的信息丢失,同时也充分的利用了朴素贝叶斯分类器结构简单计算复杂度低的特点。实验结果与其它方法相比取得了更高的性能,3维结构可视化的结果更进一步的证实了我们方法的有效性。  3、基于序列邻近信息对蛋白质相互作用位点预测的影响这一实验结果,提出了一种新的作用位点预测的贝叶斯算法模型。已有的研究表明,蛋白质序列中残基通常都是聚集成团形成作用位点,因此,仅考虑目标残基的生化特征并不能有效的反映作用位点的特性。而要考虑邻近残基的影响,必然要破坏朴素贝叶斯分类器的结构。为此,我们基于TAN分类器设计了一个新的作用位点预测算法模型ATAN算法模型:该模型通过固定的图结构来反映序列邻近信息,而结点间的参数概率表则通过训练数据学习得到。该方法既考虑了邻近信息对结果的影响,又没有改变算法的时间复杂度。在一个由81条蛋白质链组成的异源蛋白质复合物数据集上,我们采用10-fold方法进行训练测试,实验结果表明,该方法相比于其它方法取得了更好的实验结果,3维结构可视化的结果也证实了方法的有效性。  4、提出了一种新的仅基于蛋白质序列信息的低维特征向量构成,并基于此构建了一个自动实现蛋白质相互作用对象预测的贝叶斯算法模型。作用对象预测是构建蛋白质相互作用网络的基础,我们基于pseudo-氨基酸组成,设计了一个新的仅基于蛋白质序列信息的低维特征向量,该向量既可以有效的反映蛋白质的序列生化信息,又具有低维的特征,从而充分发挥了贝叶斯方法在低维数据处理时的高效性,适应生物信息海量数据处理的要求。算法以K2算法进行网络结构学习,算法的时间复杂度仅为多项式时间。在一个由6459对酵母核心数据集组成的数据集上进行训练,并在DIP数据库中的6类种群上进行预测,结果获得了平均93.67%的预测准确率。实验表明我们的方法无论在预测准确率还是在计算时间上均取得了比别的方法更好的效果。
其他文献
随着机场信息化程度的不断提高,在当今大型机场的资源管理系统中,实时准确的机场业务监控系统、多主机共享的到离港控制系统、实时更新的机场运营数据库服务器、复用性强的资源
粒子群优化算法(Particle Swarm Optimization,PSO)经过十多年的研究与发展,已经成为科学研究和工程实践中重要的全局优化和复杂问题求解技术,PSO的应用几乎渗透到了任何领域,
孤立词语音识别实现简单、技术成熟,有着广泛的应用领域,是深入进行语音识别研究的基础。隐马尔可夫模型(HMM)是目前最流行的语音识别技术,许多成功的语音识别系统都是基于该技
独立分量分析(Independent Component Analysis,ICA)是一种从多元混合信号中分离出独立分量的算法,其通过运用统计学原理,揭示出混合信号中的隐藏成分和内在因子,在生物医学、声音
混淆是一种用来增加逆向分析难度的软件保护技术。开展面向逆向分析的程序关键属性混淆技术研究,对优化混淆技术的理论模型,拓展混淆技术的应用领域,以及促进软件反逆向分析技术
近年来,社交网络呈现爆炸性增长,用户活跃程度越发提高,产生的信息量也越来越大,有着对传统互联网取而代之的趋势。在这种情形下,学术界和产业界也纷纷开始研究社交网络中用户和信
互联网的发展推动了全世界的交流,需要开发出满足不同地区语言、文化、生活习惯要求的WEB应用,因此,软件的国际化已成为必须要考虑并解决的问题。然而,传统软件多使用本地化
SIMD扩展部件以其实现成本低、部件功耗少、计算效率高等特点,逐渐成为高性能计算机的必备计算加速部件,其应用领域也从最初的多媒体处理,扩展到科学计算、信号处理、密码分析等
入侵检测技术(IDS)是一种主动保护自己免受攻击的网络安全技术。作为防火墙的合理补充,入侵检测技术能够帮助系统应对网络攻击,扩展了系统管理员的安全管理能力(包括安全审计
P2P的关键技术之一是在物理网络之上构建一层覆盖网络,根据覆盖网的拓扑结构,分为结构化(Structured)和非结构化(Unstructured)。结构化系统对象定位需要知道确切的名字或关