论文部分内容阅读
RNA聚合酶的主要功能是利用DNA来制造RNA。在转录过程中,RNA聚合酶使用DNA作为模板并使用腺嘌呤脱氧核苷酸(A)和胸腺嘧啶脱氧核苷酸(T),胞嘧啶脱氧核苷酸(C)、尿嘧啶脱氧核苷酸(U)四种碱基来作为产生RNA的原料。细胞为了适应不同的环境、执行生物体内独特的角色以及维持生存所需的代谢过程,需要通过转录过程来控制RNA的形成,从而控制蛋白质的合成,进而来控制生物的各种性状。并且RNA聚合酶存在于所有的生物、细胞及病毒中,因此,RNA聚合酶是一种非常重要的酶。RNA聚合酶的核心酶包含5个亚单位(β,β,αⅠ和αⅡ和ω)。sigma因子识别特定的DNA序列与RNA核心酶构成RNA聚合酶全酶,sigma因子作为RNA聚合酶全酶的一个单位,是基因转录调控过程中的关键因素。它识别特定的DNA位点并将RNA聚合酶的核心酶带到靶基因的上游区域。所以,原核生物中启动子的类型是根据sigma因子的类型来定义的。目前,已知的sigma因子主要属于两类:一个是sigma-70,它调控了正常情况下大多数管家基因的转录;另一个是sigma-54,它负责调控与环境相关的特定基因的转录。正因为转录是基因表达的第一步,而sigma因子又在转录起始中起着关键作用,所以近年来对sigma因子的研究已经成为研究基因表达调控的关键点之一,也受到了各国生物学家的密切关注。sigma-54家族中的许多成员在细胞的多个代谢过程中(例如:固氮调控过程,精氨酸的分解过程等)都起着重要的作用。因此,了解基因表达的后续步骤,建立基因转录网络来揭示sigma-54启动子转录的机制是至关重要的。本文介绍了一种预测细菌基因组sigma-54启动子的新方法。新方法有机地结合了模体识别和机器学习策略,来获得sigma-54启动子的内在特征。我们通过三种数据集来验证了我们的新方法。首先在大肠杆菌基因组中的基准数据集上进行模型训练。在大肠杆菌数据集上的基准测试表明,本文的新方法可以很好的区分sigma-54启动子与周围的非功能DNA序列或随机选择的DNA序列。其次,我们将训练好的模型运用到三个不同基因组的计算预测数据上进行进一步的测试,包括:枯草芽孢杆菌(NC_000964),丙酮丁醇梭菌(NC_003030)和短乳杆菌(NC_008497)三个样本集。在其他三种细菌基因组的应用表明了我们的方法在大量细菌基因组上具有潜在的稳健性和应用能力。最后,将本文中的方法运用到了其他启动子的识别中,同样取得了不错的效果。同时,我们构建了启动子预测网络服务器,针对原核生物的5个不同的sigma因子提供预测服务。