论文部分内容阅读
在研究现有的DNA序列数据压缩算法的基础上,本文以DNA序列数据的存储效率与直接检索速度综合考虑,设计并实现了称为DNACS(DNACompressionandSearch)的算法。它包括了DNA数据压缩(含解压缩)算法和非解压直接检索算法,分别用于解决存储效率和提高检索速度的问题。DNACS算法的核心是四个方面:重复子串字典建立、字典项筛选、字串压缩编码及非解压检索压缩数据。
本文所涉及的主要内容包括:(1)认识生物信息学及关注DNA数据压缩。(2)研究DNA序列数据已有的压缩算法。(3)描述DNACS算法的总体结构。(4)设计并实现DNACS压缩算法。(5)设计并实现DNACS非解压检索算法。(6)对DNACS算法进行实验及评价。
总之,本文引入“非解压检索压缩数据”的思想,结合传统字典压缩算法技术,搭建DNACS算法框架并进行程序实现。实验数据表明,DNACS算法数据压缩算法压缩效果达到常用DNA序列压缩算法水平,非解压检索算法搜索速度也优于普通模式匹配算法。