论文部分内容阅读
在基因表达的过程中,启动子是其必不可少的调控元件,它决定了基因表达的开始时机和表达强度。启动子在改变基因表达、研究代谢调控、构建表达系统等方面都有着举足轻重的作用。随着后基因组时代的到来,大量的基因组测序数据的产生,如何研发出能够快速、有效地辨别启动子位置的方法,是目前表观遗传学的重点研究内容。目前存在的一些计算方法中通常存在一定的局限性,比如没有考虑DNA物理结构特征、没有考虑全局关联关系、没有进行特征筛选分析等,因此本文开发一种新的预测方法来进行启动子的识别。本文针对原核生物σ54启动子识别进行了生物信息学的研究,在引入新的特征提取方法的基础上,分类预测精度得到了较大的提高,而且根据本文使用的方法,开发了在线服务软件i Pro54-Pse KNC,以供相关的研究人员使用。首先,我们使用了一种新的特征提取方法——伪k联体核苷酸组分,即把碱基对的六种物理空间结构参数引入进来,而不是仅仅提取DNA序列的k联体频率数据。然后,我们采用支持向量机的分类算法对启动子识别进行预测,jackknife交叉验证的结果显示i Pro54-Pse KNC在σ54启动子的预测上取得了较高的精度。为了验证本文所开发软件的性能优越性,我们做了一些对比试验,选取了实验已经证实的启动子序列,将其进行了全面的对比后发现,本文研究的方法在各项衡量指标上均取得了较高的精度,从而证明本文所研究的方法具有良好的性能。为了在σ54启动子预测相关领域的研究人员方便地使用本文所开发的软件,我们把i Pro54-Pse KNC软件做成一个在线服务软件,用户可以通过访问http://lin.uestc.edu.cn/server/i Pro54-Pse KNC来免费使用该软件。为了更好地了解m RNA上非翻译区的信息学意义,我们对转录起始位点与翻译起始位点之间的距离分布进行了研究。通过统计和数学证明,我们发现该距离分布符合伽玛分布,这与生命科学中其他的一些分布有着同样的性质,揭示了距离分布的神奇面纱。最后,为了方便其他研究人员对于σ54启动子的研究,我们构建了一个关于σ54启动子的数据库Pro54DB。Pro54DB收集了目前实验上已经证实的σ54启动子序列,并且补充了如调控基因、产物及功能、物种等与其相关的信息。此外我们还提供了关键词搜索、BLAST序列比对、预测、统计等相关功能,完成了数据库的基本需求。