基于模体识别和机器学习的细菌基因组中sigma-54启动子预测

来源 :山东大学 | 被引量 : 0次 | 上传用户:abczxhzxh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
RNA聚合酶的主要功能是利用DNA来制造RNA。在转录过程中,RNA聚合酶使用DNA作为模板并使用腺嘌呤脱氧核苷酸(A)和胸腺嘧啶脱氧核苷酸(T),胞嘧啶脱氧核苷酸(C)、尿嘧啶脱氧核苷酸(U)四种碱基来作为产生RNA的原料。细胞为了适应不同的环境、执行生物体内独特的角色以及维持生存所需的代谢过程,需要通过转录过程来控制RNA的形成,从而控制蛋白质的合成,进而来控制生物的各种性状。并且RNA聚合酶存在于所有的生物、细胞及病毒中,因此,RNA聚合酶是一种非常重要的酶。RNA聚合酶的核心酶包含5个亚单位(β,β,αⅠ和αⅡ和ω)。sigma因子识别特定的DNA序列与RNA核心酶构成RNA聚合酶全酶,sigma因子作为RNA聚合酶全酶的一个单位,是基因转录调控过程中的关键因素。它识别特定的DNA位点并将RNA聚合酶的核心酶带到靶基因的上游区域。所以,原核生物中启动子的类型是根据sigma因子的类型来定义的。目前,已知的sigma因子主要属于两类:一个是sigma-70,它调控了正常情况下大多数管家基因的转录;另一个是sigma-54,它负责调控与环境相关的特定基因的转录。正因为转录是基因表达的第一步,而sigma因子又在转录起始中起着关键作用,所以近年来对sigma因子的研究已经成为研究基因表达调控的关键点之一,也受到了各国生物学家的密切关注。sigma-54家族中的许多成员在细胞的多个代谢过程中(例如:固氮调控过程,精氨酸的分解过程等)都起着重要的作用。因此,了解基因表达的后续步骤,建立基因转录网络来揭示sigma-54启动子转录的机制是至关重要的。本文介绍了一种预测细菌基因组sigma-54启动子的新方法。新方法有机地结合了模体识别和机器学习策略,来获得sigma-54启动子的内在特征。我们通过三种数据集来验证了我们的新方法。首先在大肠杆菌基因组中的基准数据集上进行模型训练。在大肠杆菌数据集上的基准测试表明,本文的新方法可以很好的区分sigma-54启动子与周围的非功能DNA序列或随机选择的DNA序列。其次,我们将训练好的模型运用到三个不同基因组的计算预测数据上进行进一步的测试,包括:枯草芽孢杆菌(NC_000964),丙酮丁醇梭菌(NC_003030)和短乳杆菌(NC_008497)三个样本集。在其他三种细菌基因组的应用表明了我们的方法在大量细菌基因组上具有潜在的稳健性和应用能力。最后,将本文中的方法运用到了其他启动子的识别中,同样取得了不错的效果。同时,我们构建了启动子预测网络服务器,针对原核生物的5个不同的sigma因子提供预测服务。
其他文献
前馈神经网络中最常见的一种学习算法为误差反向传播算法(Back Propagation,BP),因此也称BP网络.BP网络虽然应用广泛,但却有一个缺点.实际应用中,常常没有一个很好的准则来选
“互联网+”时代催生了众多崭新的金融模式和金融产品,加之国内外政治和经济环境的不断变化,防范金融风险逐渐成为政府与实业界的工作重心。随着云计算、大数据等新技术的发展,对金融高频数据进行收集、分析的技术日益成熟,基于已实现测度的波动率预测和风险度量逐渐成为研究热点,但是基于Realized EGARCH模型对中国股市进行风险度量的研究亟待补充。本文对已实现EGARCH模型的残差分布进行拓展,尝试利用
学位
哈密顿函数在平衡点处的二次部分定号时,哈密顿函数在平衡位置有局部极值,可得这个平衡点是李雅普诺夫稳定。哈密顿系统在平衡点处非谱稳定时,必然非李雅普诺夫稳定,但谱稳定不能
行为金融学的发展,为我们研究金融市场中一些无法用传统金融学解释的情况,以及金融市场中存在的异象,提出了新的思路。投资者情绪属于行为金融学范畴,它会导致投资者对股票价格的认知偏差,从而导致股票价格偏离其基本价值,即投资者情绪对股票价格决策及其在股票市场上的变化产生重大影响。因此,对投资者情绪的研究有助于投资者更好地理解自己的情绪,使投资者能够更理性地面对金融市场的波动,从而做出合理的投资决策。本文将
在此论文中,主要介绍图中一定条件的不交团及独立的圈在一些二分图中的相关结果.  本文令G代表一个图,它的顶点集和边集分别用V(G)和E(G)来表示.设v∈V(G),则点v在G中的度数表
随着分数阶微分的发展以及它所具备的优点,它逐渐被广泛应用到各个领域,且在图像处理领域也得到了发展并取得了一些成果。图像处理在信息表达、交流等方面占有很重要的地位。
随着科技的快速发展,图像越来越成为人类生活和工作中用于传递信息和进行交流的重要数据载体,图像的有效表示是进一步处理图像的重要基础。用各种观察系统取得的图像很多都是纹
在语言型多属性决策中,处理语言信息的方法主要有扩展原理法,符号法,语言变量直接运算法和二元语义方法.虽然二元语义的应用较为广泛,但是二元语义的研究理论还不是很成熟.二
图论是数学的一个分支.它以图为研究对象.通常通过研究一个图存在什么样的子图以及这个图具有什么样的性质来了解这个图的结构.本文主要研究图中点不交的星图,小阶完全图,圈以