基于小波变换技术预测DNA序列编码区

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:any_ray
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人类基因组计划的发展,近年来GenBank里的碱基数目呈指数增长,如何从大量的数据中挖掘出有用的生物信息是生物信息学领域今后几十年都需要致力解决的问题,其中基因识别问题——通过计算的方法识别DNA序列中编码蛋白质的基因更是迫切需要解决的研究课题之一。目前基因识别常用的方法有:人工神经网络方法、复杂度分析方法、傅立叶分析方法、密码学方法和统计学方法等。概括起来,基因预测方法大致分为两类。一类是基于编码区所具有的独特信号,比如起始密码子、终止密码子等;另一类是基于编码区的碱基组成与非编码区的差异。对于原核生物,其基因结构较为简单,一些研究小组已经在这方面取得了很好的结果,目前预测准确率可达到98%左右。对于真核生物,它们的基因结构远比原核生物的复杂,因此,要从具有较多内含子的真核生物基因组序列中正确识别出编码区是个相当困难的问题,仍然有大量的工作要做。  DNA序列蛋白编码区的一个显著的特征就是1/3周期性——在DNA序列的频谱中,如果在f=1/3处存在一个尖峰,这就可能对应于三联密码子。这种周期性在蛋白编码区序列中是普遍存在的,而在大多数非编码序列中却是不存在的。因此,基因组序列的傅立叶频谱中在f=1/3处是否存在峰值,可作为判断该序列是否是编码序列的一个简单可行的标准。  本文首先利用傅立叶技术分析DNA序列的三周期性,并提出一种快速计算方法。但是由于傅立叶技术分析核苷酸序列不可避免的带来随机涨落,会在频域内引入高频噪声,因此仅仅根据傅立叶分析的结果还难于达到准确识别基因的目的。小波变换是一种新的变换分析方法,具有多分辩分析的特点,而且在时频两域都有表征信号局部特征的能力,被誉为分析信号的显微镜。小波变换在一定的滤波尺度下可有效地除去随机涨落引起的高频噪声,所以本文提出以傅立叶变换为基础,再利用小波变换将随机涨落和有用信号分开,建立一种基因识别的新方法,以达到简便、快速,准确识别基因组序列编码区的目的。通过对来自于 Genbank数据库的DNA序列以及标准DNA序列集ALLSEQ进行大量实验证明,基于小波变换的方法对DNA序列编码区进行预测可以取得良好效果,探测率可达到81%,优于其他方法,正确率可达到75%。新方法十分容易应用,不需要基因组序列的任何先验知识;运算十分快速,运算速度比基于快速傅立叶变换的预测方法还要提高很多倍;同时,该方法可实现对编码区的初步定位,为进一步用实验方法精确定位编码区作指导,节省大量人力和物力。
其他文献
环境问题和资源问题是决定我国钢铁工业能否进一步发展的限制性环节。钢铁企业的固体废弃物资源化对于保护环境和节约资源均具有重要意义。本论文全面研究了宝钢高炉瓦斯泥资
综述了国内外不锈钢AOD精炼过程的一些控制模型,介绍了这些应用于工业生产中控制模型的主要功能和特点。 在魏季和教授等建立的120 t侧顶复吹条件下AOD精炼过程数学模型的
学位
农村饮水安全关乎广大农村居民的生命安全和身体健康,是改善农村居民生活健康水平的重要标志之一.本文对北票市农村饮水安全现状进行分析,应通过加大投资力度、科学规划,改变
一、为什么要创设思想平台rn1.评判优秀作文的标准之一,是作文的思想性 人们常说,文如其人,意思是说,一篇文章的风格就如这个人的为人.反过来也可以理解为:若把人做好了,人的
期刊
通过合理的成分设计和工艺参数的优化,利用粉末冶金低温烧结原位固相反应技术生成VC颗粒增强铁基复合材料,并采用准热等静压技术,以石英砂作为传递压力的介质,在较低温度下完成反
本文提出的灰色理论GM(1,N)模型应用于钢铁企业固体废物产生量的预测预报上,结合高炉排污量计算,实现优势互补,使钢铁厂固体废物的产量统计趋于明朗化。建议环保部门加快国内对钢
Mg-Li系列合金由于其卓越的机械和物理性能,如低密度、比强度高、尺寸稳定性好及良好的屏蔽性等,它将被广泛地应用于航空航天、汽车工业、电子工业等各种领域。近年来由于节能
在AOD生产过程中氩气占冶炼费用的很大一部分用,因此在AOD中用廉价的氮气代替氩气既NOD工艺被国内外不锈钢生产企业广泛的采用:近年来随着对含氮不锈钢性能的研究发现氮在提高
溶剂萃取法具有处理容量大,反应速度快,分离效果好等优点,因此,工业上稀土元素的分离与提纯95%采用溶剂萃取法。由于稀土元素性质非常相近,相邻元素之间分离因素非常低,为了提高稀土