论文部分内容阅读
在DNA序列中获取有用的信息和知识的首要一步就是从基因识别开始。随着全基因组序列数据呈指数级增长,从而导致依靠传统的实验方法无法跟上测序的速度,因此就产生了运用计算机算法来识别基因。在2003年,诞生了一个以DNA序列的Z曲线理论为基础的原核生物基因识别程序ZCURVE 1.0,随后又在2006年,基于同样的Z曲线理论出现了病毒通用性的新算法ZCURVE_V 1.0。基于实验数据的积累、机器学习理论的发展以及计算机配置的提高,我们有必要对ZCURVE 1.0和ZCURVE_V 1.0程序分别进行升级,同时还开发了相应的网络服务系统,用户可以访问http://cefg.cn/zcurve/和http://cefg.cn/zcurve_v/免费使用。原核生物基因识别程序ZCURVE 3.0是在ZCURVE 1.0程序基础上改进更新的。改进的地方如下:(1)替代Fisher线性判别为支持向量机(SVM);(2)受ORFs核酸分布的花瓣模式启发,将在训练集中产生六类负样本,进行六次SVM判别,如此改进,将会大大降低算法的伪正预测;(3)在原来的0阶和1阶Z曲线变量基础上加入了2阶和3阶变量,从45个变量增加到765个;(4)对于排除重叠误判的部分,重新对内部参数进行了调优。同理,病毒基因识别程序ZCURVE_V 1.0更新到了2.0版本。算法中主要改进如下:(1)根据全基因组序列中碱基之间相邻特性扩展特征变量,从最初的33个参数提高到45个参数;(2)基于ORFs分布的花瓣模型原理,根据第一、第二、第三相位构造出六类样本,使得识别算法中进行六次判别;(3)通过逐步调试程序,找出一套最佳的排重叠参数。我们使用ZCURVE 3.0程序测试了337个原核生物全基因组,发现它的准确率(94.0%)比ZCURVE 1.0程序(89.6%)提高了将近4%。与Glimmer 3.02程序相比,ZCURVE 3.0程序的准确率比Glimmer 3.02程序(93.5%)还高,而且ZCURVE 3.0的附加预测率(8.0%)比Glimmer 3.02(11.3%)低3.3%,因此说明,更新后的识别程序ZCURVE 3.0的识别效果不但比ZCURVE 1.0程序提高了,而且还好于Glimmer3.02程序。同理,对于ZCURVE_V 2.0程序,我们使用了24个病毒基因组进行了测试,ZCURVE_V 2.0程序(5.79%)的附加预测率比ZCURVE_V 1.0程序(10.83%)降低了很多,最终与GeneMark S 4.28程序(5.21%)的附加预测率相差不大,并且ZCURVE_V 2.0程序的准确率(93.94%)比GeneMarkS 4.28程序(88.95%)高很多。最后,我们基于特征变量的基础上还对翻译起始位点预测做了一些研究工作。