论文部分内容阅读
DNA序列是遗传物质的载体,它由四种碱基按照一定顺序组合而成。在一整段DNA序列中,只有其中一部分能够被编码成蛋白质,称为基因的外显子。而不能被编码成蛋白质的序列称为内含子。基因识别算法的目的是从未知的DNA序列中检测出有效的外显子片段。本文通过信号处理的方法检测未知基因中的编码区的位置。对基因信号做数字信号处理的第一个步骤是对DNA序列做数值映射,通过数值映射将符号序列转化为相应的数值序列,然后通过信号处理方法分析其频域特性。由于基因编码区的频谱具有三周期性,这种性质通常是由编码区密码子的偏性造成的。故可以由此特征来识别基因的外显子与内含子。针对DNA序列的数值映射问题,本文分析并研究了DNA序列的几种常用的数值映射。在三种最常用的且物理意义较明确的数值映射下,推导了DNA序列功率谱与信噪比的快速算法。讨论了三者之间的相互关系,并给出了矩阵形式的闭式表达式。针对基因识别问题,传统的谱分析方法对数据进行截断时会造成频谱泄露,影响基因识别的准确度。为了减少频谱泄露,抑制背景噪声,本文将全相位数字信号处理技术应用到基因识别算法中。此项技术通过对原始数据进行全相位数据预处理,保持数据截断后首尾波形的连续,因而极大程度上减少了截断效应。本文针对基因识别算法设计相应的全相位FFT谱分析结构,以此来提取出基因内部的三周期信号,达到对基因外显子准确预测的目的。同时将多采样率信号处理模型与谱分析结构相结合,在减少计算量的同时可实现流水线操作。为了进一步提取DNA序列中的三周期信号,提高基因识别的准确率。本文将全相位FIR模型与基因识别算法相结合,设计了适合于基因预测的全相位窄带滤波器。由于全相位FIR滤波器具有严格的线性相位,并且具有相位不变性,则又将相位旋转算法与全相位FIR滤波相结合,可以得到更为准确的预测结果。最后一节中引入定量的评价指标来对各种不同基因识别算法的效果做出评价,实验结果证明了该算法在核苷酸水平上有较高的预测准确性。