论文部分内容阅读
真核生物的DNA序列结构较原核生物更加复杂,因此尽管在过去几十年间种类繁多的基因预测算法有了很大的发展和进步,并且持续受到关注,但迄今为止,在蛋白质编码区(外显子,特别是短外显子)的预测准确率仍然不能满足对DNA片段或基因组序列进行标注的需求。 本文分别对以滤波器、假设检验和Fisher判别分析为核心的编码区预测算法进行研究,以提高预测准确率。以下列出本文的主要创新点。 首先从对SDFT的研究出发,提出了多滑动窗周期图编码区预测算法。该算法结合了长窗选频特性好和短窗时域定位能力强的优点,对与滑动窗长度相关的频谱分辨力与时域分辨力相矛盾的问题,给出了一个较好的折中方案。 其次,研究了使用线性相位FIR和IIR窄通带滤波器作为核心的预测算法,提出了窄通带滤波器NPBF(NarrowPass-BandFilter)编码区预测算法。对频率采样、窗函数和全相位三种FIR窄通带滤波器在编码区预测中面临的问题,如滤波器输入输出序列长度不等、群延迟和功率谱密度曲线不平滑等分别提出了改进的方法。其中,全相位窄通带滤波器是全相位理论在基因预测研究中的首次应用。在对线性相位IIR窄通带滤波器的设计与应用研究中,将从FIR滤波器设计和应用中得来的NPBF预测算法推广,使之也适用于线性相位IIR窄通带滤波器。对IIR窄通带滤波器系统由于累积误差的存在而造成的预测系统的不稳定,从滤波器设计参数选择方面加以改善。为了提高算法对编码区的敏感性,还提出了双阈值编码区识别算法。 第三,在NPBF预测算法的基础上研究了映射方法与预测准确率的关系。针对众多研究人员提出或采用不同映射方法获得了较高的预测准确率的结论,用NPBF算法对当前的十多种DNA序列的映射方法与预测结果的关系作了研究。在HMR195和ALLSEQ两个数据集上的实验结果表明,Voss法和Z曲线法同为最优选择,为选用映射方法提供依据。 第四,研究了新近提出的基于T检验和Z检验的TZT编码区预测算法,对该算法的适用范围进行了研究。研究结果发现,TZT算法对编码区较长而非编码区较短的序列能够以较高的准确率区分出编码区和非编码区,但对编码区较短而非编码区较长的序列则效果欠佳。对TZT算法进行完善是一个很有价值的研究课题。 最后,基于Z曲线DNA序列特征参数,研究了用Fisher判别分析对编码序列和非编码序列进行分类。在用Fisher判别分析研究分类问题时,分类阈值一般有5种不同的选取方法,论文在选定的测试训练集上采用七重交叉验证的实验方法对不同阈值获得的预测分类结果做了研究和分析,给出了适用于编码DNA序列预测分类的Fisher判决分析阈值选择方案。 本文的工作提高了独立预测预测算法对编码区预测的准确率,为解决实际应用中的问题提供了有参考价值的研究成果和方案。