原核生物蛋白质编码基因预测算法的研究

来源 :电子科技大学 | 被引量 : 2次 | 上传用户：zhanghua_it

【摘要】

：

在DNA序列中获取有用的信息和知识的首要一步就是从基因识别开始。随着全基因组序列数据呈指数级增长,从而导致依靠传统的实验方法无法跟上测序的速度,因此就产生了运用计算

【作者】

：

华志刚

【出处】

：

电子科技大学

【发表日期】

：

2015年01期

【关键词】

：

基因识别 ZCURVE程序 ZCURVE_V程序准确率附加预测率

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在DNA序列中获取有用的信息和知识的首要一步就是从基因识别开始。随着全基因组序列数据呈指数级增长,从而导致依靠传统的实验方法无法跟上测序的速度,因此就产生了运用计算机算法来识别基因。在2003年,诞生了一个以DNA序列的Z曲线理论为基础的原核生物基因识别程序ZCURVE 1.0,随后又在2006年,基于同样的Z曲线理论出现了病毒通用性的新算法ZCURVE_V 1.0。基于实验数据的积累、机器学习理论的发展以及计算机配置的提高,我们有必要对ZCURVE 1.0和ZCURVE_V 1.0程序分别进行升级,同时还开发了相应的网络服务系统,用户可以访问http://cefg.cn/zcurve/和http://cefg.cn/zcurve_v/免费使用。原核生物基因识别程序ZCURVE 3.0是在ZCURVE 1.0程序基础上改进更新的。改进的地方如下:(1)替代Fisher线性判别为支持向量机(SVM);(2)受ORFs核酸分布的花瓣模式启发,将在训练集中产生六类负样本,进行六次SVM判别,如此改进,将会大大降低算法的伪正预测;(3)在原来的0阶和1阶Z曲线变量基础上加入了2阶和3阶变量,从45个变量增加到765个;(4)对于排除重叠误判的部分,重新对内部参数进行了调优。同理,病毒基因识别程序ZCURVE_V 1.0更新到了2.0版本。算法中主要改进如下:(1)根据全基因组序列中碱基之间相邻特性扩展特征变量,从最初的33个参数提高到45个参数;(2)基于ORFs分布的花瓣模型原理,根据第一、第二、第三相位构造出六类样本,使得识别算法中进行六次判别;(3)通过逐步调试程序,找出一套最佳的排重叠参数。我们使用ZCURVE 3.0程序测试了337个原核生物全基因组,发现它的准确率(94.0%)比ZCURVE 1.0程序(89.6%)提高了将近4%。与Glimmer 3.02程序相比,ZCURVE 3.0程序的准确率比Glimmer 3.02程序(93.5%)还高,而且ZCURVE 3.0的附加预测率(8.0%)比Glimmer 3.02(11.3%)低3.3%,因此说明,更新后的识别程序ZCURVE 3.0的识别效果不但比ZCURVE 1.0程序提高了,而且还好于Glimmer3.02程序。同理,对于ZCURVE_V 2.0程序,我们使用了24个病毒基因组进行了测试,ZCURVE_V 2.0程序(5.79%)的附加预测率比ZCURVE_V 1.0程序(10.83%)降低了很多,最终与GeneMark S 4.28程序(5.21%)的附加预测率相差不大,并且ZCURVE_V 2.0程序的准确率(93.94%)比GeneMarkS 4.28程序(88.95%)高很多。最后,我们基于特征变量的基础上还对翻译起始位点预测做了一些研究工作。

其他文献

60例2型糖尿病并高脂血症的营养治疗

<正>目的：观察营养治疗对2型糖尿病并高脂血症的作用。方法：观察2005年10月～2006年6月收住我院的2型糖尿病并高脂血症患者60例,严格控制饮食,观察饮食营养治疗前后的体重指数、

会议

2型糖尿病高脂血症饮食治疗

把自主创新推向新阶段：哈尔滨工业大学：积极自主创新创建一流团队

2007年7月，国防科技工业自主创新工作座谈会在陕西召开，会上，国防科工委进一步坚定始终坚持自主创新战略基点不动摇，同时强调要扎实工作，重点突破，把自主创新推向新阶段。西北工业

期刊

自主创新战略哈尔滨工业大学中国兵器工业集团中国航天科技集团国防科技工业中国船舶重工集团西北工业大学

浅谈应用型本科院校Adobe Illustrator软件教学的特色

应用型本科教育的特征之一是不偏重于理论研究,强调教学的实践性、技术性、应用性。应用型本科院校的课程设置的主要依据是行业的就业热点,开设的 Illustrator 课程是高等院

期刊

应用型本科教育的特征AI课程教学综合实践能力实例与技术

当代国际筹资的主要形式——欧洲债券

<正> 欧洲债券市场是一个以欧洲为主体的全球资本市场,由初级市场和二级市场组成。伦敦和卢森堡是二级市场中心,其它重要市场还有法兰克福、苏黎世等。亚洲的新加坡和巴林也

期刊

欧洲债券国际筹资中期债券投资者固定利率债券二级市场发行人

让我过把“法官瘾”——借助“俗规语境”消解岐义

近来有一条新闻炒得颇热,几乎各类文摘类报纸上都转载了。不妨摘引一处如下: “还”字两意引发官司1997年9月15日,济南市居民张某骑自行车行驶时被王某驾车撞伤。经交警部门

期刊

语境文摘类报纸欠条岐义调解处理济南市欠款收条自行车消解

感谢生活——记《红脸老师》的写作

《红脸老师》是我的一篇周记,曾经发表过。我也曾品尝过创作之苦,但这篇文章确实是轻轻松松的一气呵成,因为我只是用每个人会写的句子忠实的记录了生活中值得赞美的三个片断

期刊

每个人轻轻松松生活中班主任片断老师记叙文写作周记文章

乡村聚落的生态审美诠释——以浙江传统村落为例

以浙江传统村落为例,基于生态审美语境下的认知,分析了聚落景观生成的审美背景,探讨了此在与共在、边界与领域、异质空间、原型同化与变异以及生活与空间耦合这些核心概念与

期刊

乡村聚落生态美学传统村落

必需基因理论预测的多种算法研究

研究必需基因对于构建最小基因集、发现潜在的药物靶标和广谱抗菌药物的研发有着非常重要的作用。由于这些基因对于机体生存、繁殖和发育有着不可替代的作用,许多科研工作者

学位

必需基因病原菌人类癌症细胞系生物学特征机器学习算法

把风飞留住——国防科技工业风力发电产业发展思路研究报告

国防科技工业风电装备发展现状整机发展状况国防科技工业系统目前有8家企业引进欧洲技术或与欧洲风电设备制造企业合资的方式研制生产600kW、850kW、1．0MW、1．5MW、2．0MW风力发

期刊

国防科技工业系统风力发电机组产业发展企业合资风电机组装备发展设备制造欧洲

江南民兵奋战抗洪抢险第一线

连日来，南方地区普降暴雨，持续不断的强降水使部分地区遭受了严重的洪涝灾害。而湘江湘潭段水位已经超出了历史警戒水位，防汛形势异常严峻。江南机器集团公司积极备战，随时听候上

期刊

民兵预备役抗洪抢险江南集团公司南方地区洪涝灾害应急分队湘潭市

原核生物蛋白质编码基因预测算法的研究

与本文相关的学术论文