论文部分内容阅读
蛋白质是生命体功能真正的执行者,而蛋白质之间的相互作用在大多数的生物学过程比如细胞代谢、转录、调控机制、信号传导中发挥着重要作用。拟南芥基因组的测序完成后,有关功能基因组的研究已经全面展开。研究拟南芥蛋白质相互作用,特别是识别那些拟南芥特有的蛋白质,对于了解拟南芥蛋白质功能有着非常重要的作用。后基因组时代的到来为生物信息学在全基因组范围预测拟南芥蛋白质相互作用提供了丰富的数据和信息。近年来随着大规模实验技术、比较基因组学、生物信息学的发展,在蛋白质相互作用研究领域涌现出了各种预测方法,但是不同方法之间存在巨大差异,有其内在的偏好性。有机地整合不同的方法,对每种方法取长补短成为现阶段的研究热点。 本论文中首先收集了有助于预测拟南芥蛋白质相互作用的基因组数据以及蛋白质组数据,包括4种模式生物的共14987对蛋白质相互作用数据、3020对蛋白质功能域相互作用数据、拟南芥蛋白质功能域组成数据117090条、5组实验的445张芯片的不同拟南芥生物样本的基因表达谱数据、1960组拟南芥蛋白质生物功能注释数据、以及261种其他物种基因组序列数据。同时使用了现阶段在全基因组范围内预测蛋白质相互作用的方法,如基于蛋白质相互作用跨物种的保守性理论(Ortholog)、基因表达谱相似理论(Co-Expression)、功能结构域相互作用理论(Domain Pair Interaction)、最小共享生物途径理论(Share BiologicalProcess)、基因系统发生谱理论(Gene phylogenetic profiles method)、基因融合理论(Gene Fusion method)、基因邻近理论(Gene Neighbors method)等预测理论。 论文中对以上理论进行检验并针对朴素贝叶斯分类器进行优化。朴素贝叶斯分类器是一种简单高效的分类算法,被广泛应用于整合离散型数据类型。本论文中搜集的DIP、Bind、IntAct、TAIR等数据库、文献搜集到的拟南芥蛋白质相互作用集合同4666对相互作用作为正极数据和基因本体论注释数据库的亚细胞定位数据构建196855对蛋白质相互作用作为负极数据构成朴素贝叶斯分类器的训练集。本文使用朴素贝叶斯分类器,结合构建的训练集,对拟南芥全部蛋白质进行相互作用预测。最后预测得到了22622对相互作用的蛋白对,并通过预测的拟南芥蛋白质相互作用构建了拟南芥蛋白质相互作用数据库(ATPID)。结合拟南芥盐碱胁迫蛋白质构建了拟南芥盐胁迫下的蛋白质相互作用网络,揭示了其中重要的功能模块,同时还运用预测的蛋白质相互作用网络结合亚细胞定位的信息构建了拟南芥叶绿体中的蛋白质相互作用网络。