基于双链特征的真核生物启动子识别与预测

来源 :烟台大学 | 被引量 : 0次 | 上传用户:laiyq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现阶段生物信息学的很多工作都是针对基因组DNA序列的,真核启动子的预测则是DNA序列分析的一个重要组成部分。针对真核启动子预测,本论文中提出了一种新的解决思路,并将此应用于三种不同的学习算法之中。   本文基于DNA双链特征词的统计策略,提出了一种与现有的其他真核启动子预测算法思想不同的新算法。众所周知,转录因子结合位点包括TATA盒、CAAT盒和GC盒等一致序列,但不同个体同一基因的同一个转录因子结合位点一致序列的碱基组成成分存在差异。如对于TATA盒,它的一致序列为TATANAN,此处N代表A或T。对于现有的其他算法这些一致序列是作为不同的特征来分别对待处理,这对提高识别精度影响很大。而本文利用基于双链特征词的统计策略,根据碱基对互补原则,部分一致序列可以作为相同的特征看待。与其他算法相比基于双链特征词的统计策略具有更明显的统计特征。   本文基于双链特征,对DNA序列进行词频统计,并利用KL-Boosting算法和PWM-Boosting算法进行预测验证。KL-Boosting算法与PWM-Boosting算法采用相同的训练和测试策略,但特征提取的方式不同,KL-Boosting算法使用散度距离确定两个类之间的特征,PWM-Boosting算法使用位置权矩阵来统计词的出现频率。在本论文中提出了一个新的算法PWM-RF算法,PWM-RF算法和PWM-Boosting算法使用的特征提取方式相同,所不同的是PWM-RF算法使用随机森林算法进行训练和预测。   本论文中利用三种算法对六种不同长度规模的基因序列进行了测试,并将测试结果与五种对启动子预测效果较好的算法进行比较,结果显示三种算法都有较好的敏感性和特异性。然后将三种算法进行比较,得出结论——三种算法各有其优越性。
其他文献
近年来,垂直微博平台的兴起,为垂直行业的信息交流带来了很大的方便。但就目前来讲,面向垂直领域的大量有用信息资讯仍隐藏在互联网上的海量数据中,用户需要在不同数据源间切
综合了无线通信技术,嵌入式计算技术,分布式信息处理技术和传感器技术的无线传感器网络(Wireless Sensor Network,WSN)能够协作地完成信息的实时监测、感知和采集,并对这些信
大型企业经过多年发展,其IT部门往往产生了大量体系结构相对独立、缺乏统一规划的遗留信息系统。将这些系统中的知识进行有效集成管理,可以节约企业资源,提供增值服务,对企业意义
随着因特网的高速发展,当今网络安全形势日趋严峻,木马、病毒等网络入侵对网络安全构成了严重威胁,隐私及敏感信息很容易在未经授权的情况下被泄露或窃取。具有较高网络安全
现阶段国内各种工业自控环境中应用的高精度智能型压力或差压变送器几乎是国外品牌。原因是国外的数字智能式变送器采用了先进的检测技术,消除了潮气、粉尘及其它现场恶劣环
设计模式是对在软件开发过程中经常遇到的设计问题的可再现的解决方案。它使设计人员可以更加简单地复用成功的设计方法和体系结构。在软件设计和开发中,恰当地应用设计模式,有
随着经济和社会的飞速发展,各行各业的计算机应用变得非常普遍,积累了大量的历史业务数据,并且随着时间的增长,数据量还在不断的膨胀,面对这种海量数据,或者说是数据资产,传统数据挖
学位
虚拟现实是近年来十分活跃的技术领域。目前,其应用已广泛涉及众多领域,并带来了巨大的经济效益。虚拟实验是根据现代教育理念需求而产生的,具有智能指导和教学管理的作用。
随着计算机网络技术的普及和发展,人们的生活和学习方式都发生了巨大的变化,将人们带入到信息化的时代,与此同时,网络安全方面所显露出来的问题也日益突出。入侵检测作为信息
视觉跟踪技术,是机器视觉领域一个重要的研究方向,是更高层次的动作识别、行为理解的基础,无论在安防监控、交通管制、自动汽车驾驶,还是在军事侦查、机器人自主导航方面,都