论文部分内容阅读
科技的飞速发展使得生物信息学被人们广泛关注,随着人类基因组测序的完成,生物信息学迎来了它的新篇章。从测序工作中得到的海量的DNA序列数据亟待分析、处理。目前常用的预测方法之一是将信号处理的方法应用到基因序列的生物特性中,根据基因序列编码区的周期特性来预测序列中的外显子。本文在前人的基础上,探讨了不同物种的最佳阈值选取,通过小波变换的方法保证了模型的独立性,旨在提高外显子的预测精度。本文主要研究了生物信息学领域的基因外显子预测问题。根据DNA预测的原理和基本模型,介绍了预测过程中常用的谱分析方法,离散傅里叶变换,短时傅里叶变换,Gabor变换以及小波变换,并给出了几种变换方法的演变过程以及各自的优缺点。结合当前滑动窗检测中存在的缺点和不足,给出了本文的核心观点一一基于小波变换的基因预测模型。首先,本文介绍了生物信息学领域的相关背景知识,介绍了基因预测的研究现状及研究意义。继而介绍了DNA序列检测的基本原理,给出了几种序列的数值映射方法,并对编码区的周期三特性作了说明。周期三特性作为文章研究的分类基础,在探讨如何界定分类阈值的基础上,给出了常用的时域和频域特征提取方法,在时域的特征提取中,对反陷波滤波器的特性和优势进行了说明,并给出了一种功率谱提取的快速算法——基于时域抽取(DIT)的快速Hartley变换算法。频域的特征提取中,给出了三种映射条件下功率谱与信噪比的计算,并对三种方法进行了分析比较。最后,本文探讨了阈值的确定方法和实验结果分析。以哺乳动物为例,给出了人类和鼠类的阈值确定。同时,对文章中用到的基于小波变换的基因预测模型进行实验结果分析。本文用到了ROC曲线对方案进行评估,采用大量的数据来支撑前文提出的观点。总之,通过小波变换的方法保证了模型的独立性,并由试验结果证明了该模型在提高预测精度上的有效性。