生物序列索引结构的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:xiejie_850119
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物技术的发展,许多致力于研究物种基因的项目已取得了很大的成就。大量的物种引起了人类浓厚兴趣,如果能加快序列处理技术的发展,就能从许多新的序列中发现更多的特征。在这样的情况下,研究人员利用索引技术来改进序列的处理。对于较小的序列来说,后缀树索引无疑是一种很好的解决办法,但由于它产生了“内存瓶颈”,不适合大的序列;后缀数组是另一种最具有竞争力的索引结构,与后缀树相比,它需更少的存储空间,但在数据搜索方面却效率较低;基于q-gram和q-sample的索引方法虽然能用于快速搜索,但是不能用于搜索相似度低的数据。本文提出了一种分层的索引结构,使用这种结构能够建立超过内存容量的索引,而且能有效得执行各种数据搜索。分层索引结构是基于后缀树的,它由若干层组成,通常情况下,每一层又包括若干棵子后缀树。本文按照层次递进的顺序依次建立,并独立存储每一层。在索引的建立技术上,本文采用“自顶向下且只写”的思想。整个建立算法包括三个部分:后缀排序,计算最短公共前缀和建立子后缀树。在建立每层索引的过程中,这三个步骤均能在线性时间内完成。在存储策略上,本文把整个索引划分为两部分:第一部分保存子后缀树的信息,子后缀树可以采用多种不同的优化方法存储,每种方法所需的存储空间和性能均不相同。第二部分是索引部分,包括子后缀树的索引和其他信息。利用这部分信息,可以快速定位每棵子后缀树在磁盘中的位置。根据不同的子后缀树存储方法,本文介绍了多种搜索方法。同时,还研究了内存空间中的子后缀树管理方法。在最后的实验部分中,使用本文的索引结构和建立方法建立了比内存更大的索引,并在时间和空间上都获得良好的效果。此外,还用实验验证了存储策略和搜索方法的各种性能。
其他文献
随着网络的迅速发展,在浩如大海的网络信息中,找到需要的信息,越来越费时费力。如何快速有效地找到有用信息成为当务之急,搜索引擎孕育而生,成为当今网络中最重要的服务之一。搜索
迁移工作流系统是近年来工作流管理研究的热点。由于迁移工作流模型的建立和完善贯穿在整个工作流系统从设计到运行结束的全过程,具有动态过程定义和复杂的框架结构,致使其至今
作为目前高性能计算的主流技术,集群系统在各种高性能计算应用领域得到了广泛的应用。而且,随着不同种类网格概念的出现,异构集群系统已经成为网格关键技术的最主要研究测试平台
Internet特有的时效性使得网络新闻正迅速进入人们的日常生活,与传统新闻相比,网络新闻具有多种优势,读者可以在网络上第一时间看到世界各地的新闻,容量大信息丰富,表现形式多样,新
提取和选择最优的特征参数来表示语音信号对任何语音系统的设计都是一项非常重要的工作,它对语音识别系统的好坏起着关键的作用。在语音识别中,特征参数的提取一般是基于信号的
在项目度量领域,软件成本估算模型COCOMO是一个非常具有影响力的模型,它具有原始COCOMO模型和COCOMOⅡ模型两个版本。其中原始COCOMO包含基本、中级和详细模型,COCOMOⅡ包含应用
软件自动化测试已经广泛应用于通用软件测试领域,并已经有了诸多成型的理论、实施规范和商用化的工具。而在嵌入式领域,由于嵌入式系统缺乏通用的软硬件平台,系统的功能和应用环
随着Internet技术的飞速发展,人们越来越多地依赖网络这个巨大的知识平台。作为用户利用网络信息的重要接口,搜索引擎的发展自Web诞生之日起就一直没有停息。同时,计算机的日益
随着全球化竞争的日益加剧,尤其是在资源有限的情况下,企业要获得持续性发展,就必须充分地利用外部力量,以求有效塑造自身的核心竞争力。企业通过开展外协业务来共享制造资源、共
随着Internet技术的持续发展,越来越多的图像、声音、视频等多媒体信息在计算机系统中被广泛的使用,从网络可获得的多媒体信息的数量越来越多。因此,需要有一种相对完美的检索方