基于滤波理论和特征统计的蛋白质编码区预测算法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:colawing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
真核生物的DNA序列结构较原核生物更加复杂,因此尽管在过去几十年间种类繁多的基因预测算法有了很大的发展和进步,并且持续受到关注,但迄今为止,在蛋白质编码区(外显子,特别是短外显子)的预测准确率仍然不能满足对DNA片段或基因组序列进行标注的需求。  本文分别对以滤波器、假设检验和Fisher判别分析为核心的编码区预测算法进行研究,以提高预测准确率。以下列出本文的主要创新点。  首先从对SDFT的研究出发,提出了多滑动窗周期图编码区预测算法。该算法结合了长窗选频特性好和短窗时域定位能力强的优点,对与滑动窗长度相关的频谱分辨力与时域分辨力相矛盾的问题,给出了一个较好的折中方案。  其次,研究了使用线性相位FIR和IIR窄通带滤波器作为核心的预测算法,提出了窄通带滤波器NPBF(NarrowPass-BandFilter)编码区预测算法。对频率采样、窗函数和全相位三种FIR窄通带滤波器在编码区预测中面临的问题,如滤波器输入输出序列长度不等、群延迟和功率谱密度曲线不平滑等分别提出了改进的方法。其中,全相位窄通带滤波器是全相位理论在基因预测研究中的首次应用。在对线性相位IIR窄通带滤波器的设计与应用研究中,将从FIR滤波器设计和应用中得来的NPBF预测算法推广,使之也适用于线性相位IIR窄通带滤波器。对IIR窄通带滤波器系统由于累积误差的存在而造成的预测系统的不稳定,从滤波器设计参数选择方面加以改善。为了提高算法对编码区的敏感性,还提出了双阈值编码区识别算法。  第三,在NPBF预测算法的基础上研究了映射方法与预测准确率的关系。针对众多研究人员提出或采用不同映射方法获得了较高的预测准确率的结论,用NPBF算法对当前的十多种DNA序列的映射方法与预测结果的关系作了研究。在HMR195和ALLSEQ两个数据集上的实验结果表明,Voss法和Z曲线法同为最优选择,为选用映射方法提供依据。  第四,研究了新近提出的基于T检验和Z检验的TZT编码区预测算法,对该算法的适用范围进行了研究。研究结果发现,TZT算法对编码区较长而非编码区较短的序列能够以较高的准确率区分出编码区和非编码区,但对编码区较短而非编码区较长的序列则效果欠佳。对TZT算法进行完善是一个很有价值的研究课题。  最后,基于Z曲线DNA序列特征参数,研究了用Fisher判别分析对编码序列和非编码序列进行分类。在用Fisher判别分析研究分类问题时,分类阈值一般有5种不同的选取方法,论文在选定的测试训练集上采用七重交叉验证的实验方法对不同阈值获得的预测分类结果做了研究和分析,给出了适用于编码DNA序列预测分类的Fisher判决分析阈值选择方案。  本文的工作提高了独立预测预测算法对编码区预测的准确率,为解决实际应用中的问题提供了有参考价值的研究成果和方案。
其他文献
OFDM由于其频谱利用率高、成本低、抗多径效应等原因越来越受到人们的关注。然而,峰均值抑制比(PAPR,Peak-to-Average Power Ratio)过高是它的重要缺点,并大大制约了其发展,因此PAP
具有灵活部署特点的中继站(简称中继)能提高系统容量、拓展网络覆盖,这使得多跳中继网络越来越受到研究者们的关注。相对于传统的无线网络,多跳中继网络中需要考虑有更多的因
本文研究基于单电磁矢量传感器的飞行器姿态角估计。在基站和飞行器之间有电磁波信息链的条件下,飞行器安装单个电磁矢量传感器,接收部分极化电磁波信号,获取完备的电磁信息,用以
分布式压缩感知理论(Distributed Compressed Sensing,DCS)是将单信号在某个基下的稀疏扩展到信号群在某个共同基下的联合稀疏,最终实现信号群的联合重构。利用DCS理论解决多输
随着人们对消费类电子产品之间无线通信需求的增长,高吞吐率、低功耗将成为短距离无线通信的新的热点,而超宽带(UWB)技术凭借高带宽和低功耗成为下一代短距离无线通信极具竞争
随着带宽的不断升级和三网融合的快速部署,网络视频监控以它内容直观、信息量丰富的优点越来越受用户的青睐。视频监控在近几十年经历了三个发展阶段,本课题研究第三代监控系统
随着导航技术和空间科学的高速发展,射频信号采集/回放系统开始广泛应用于导航、气象、航空航天、通信等领域。它既可以将复杂的空中信号实时采集记录下来,进行分析和算法研