生物序列索引结构的研究与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：xiejie_850119

【摘要】

：

随着生物技术的发展,许多致力于研究物种基因的项目已取得了很大的成就。大量的物种引起了人类浓厚兴趣,如果能加快序列处理技术的发展,就能从许多新的序列中发现更多的特征

【作者】

：

张任文

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2006年期

【关键词】

：

后缀树序列索引生物序列基因存储

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着生物技术的发展,许多致力于研究物种基因的项目已取得了很大的成就。大量的物种引起了人类浓厚兴趣,如果能加快序列处理技术的发展,就能从许多新的序列中发现更多的特征。在这样的情况下,研究人员利用索引技术来改进序列的处理。对于较小的序列来说,后缀树索引无疑是一种很好的解决办法,但由于它产生了“内存瓶颈”,不适合大的序列;后缀数组是另一种最具有竞争力的索引结构,与后缀树相比,它需更少的存储空间,但在数据搜索方面却效率较低;基于q-gram和q-sample的索引方法虽然能用于快速搜索,但是不能用于搜索相似度低的数据。本文提出了一种分层的索引结构,使用这种结构能够建立超过内存容量的索引,而且能有效得执行各种数据搜索。分层索引结构是基于后缀树的,它由若干层组成,通常情况下,每一层又包括若干棵子后缀树。本文按照层次递进的顺序依次建立,并独立存储每一层。在索引的建立技术上,本文采用“自顶向下且只写”的思想。整个建立算法包括三个部分:后缀排序,计算最短公共前缀和建立子后缀树。在建立每层索引的过程中,这三个步骤均能在线性时间内完成。在存储策略上,本文把整个索引划分为两部分:第一部分保存子后缀树的信息,子后缀树可以采用多种不同的优化方法存储,每种方法所需的存储空间和性能均不相同。第二部分是索引部分,包括子后缀树的索引和其他信息。利用这部分信息,可以快速定位每棵子后缀树在磁盘中的位置。根据不同的子后缀树存储方法,本文介绍了多种搜索方法。同时,还研究了内存空间中的子后缀树管理方法。在最后的实验部分中,使用本文的索引结构和建立方法建立了比内存更大的索引,并在时间和空间上都获得良好的效果。此外,还用实验验证了存储策略和搜索方法的各种性能。

其他文献

基于属性的元搜索引擎的研究与实现

随着网络的迅速发展，在浩如大海的网络信息中，找到需要的信息，越来越费时费力。如何快速有效地找到有用信息成为当务之急，搜索引擎孕育而生，成为当今网络中最重要的服务之一。搜索

学位

属性过滤元搜索引擎分词算法网络信息

基于Petri网的层次迁移工作流系统模型研究

迁移工作流系统是近年来工作流管理研究的热点。由于迁移工作流模型的建立和完善贯穿在整个工作流系统从设计到运行结束的全过程，具有动态过程定义和复杂的框架结构，致使其至今

学位

Petri网工作流管理迁移工作流模型

Web Services与Agent技术在异构集群系统资源管理中的应用研究

作为目前高性能计算的主流技术，集群系统在各种高性能计算应用领域得到了广泛的应用。而且，随着不同种类网格概念的出现，异构集群系统已经成为网格关键技术的最主要研究测试平台

学位

异构集群系统资源管理Web服务Agent技术异构性屏蔽

个性化网络新闻服务中用户兴趣学习算法的研究

Internet特有的时效性使得网络新闻正迅速进入人们的日常生活，与传统新闻相比，网络新闻具有多种优势，读者可以在网络上第一时间看到世界各地的新闻，容量大信息丰富，表现形式多样，新

学位

Web服务个性化服务矢量空间模型用户兴趣模型

基于小波能量的语音识别特征参数提取

提取和选择最优的特征参数来表示语音信号对任何语音系统的设计都是一项非常重要的工作，它对语音识别系统的好坏起着关键的作用。在语音识别中，特征参数的提取一般是基于信号的

学位

语音识别特征参数提取梅尔倒谱系数信号变换小波能量

关于软件成本估算模型COCOMO的研究与校准的探讨

在项目度量领域，软件成本估算模型COCOMO是一个非常具有影响力的模型，它具有原始COCOMO模型和COCOMOⅡ模型两个版本。其中原始COCOMO包含基本、中级和详细模型，COCOMOⅡ包含应用

学位

软件成本估算COCOMO参数校正估算精度

医用监护仪器的嵌入式软件系统功能自动化测试研究

软件自动化测试已经广泛应用于通用软件测试领域，并已经有了诸多成型的理论、实施规范和商用化的工具。而在嵌入式领域，由于嵌入式系统缺乏通用的软硬件平台，系统的功能和应用环

学位

医用监护仪器嵌入式软件系统功能自动化测试应用层通讯协议

基于服务的元搜索引擎研究

随着Internet技术的飞速发展，人们越来越多地依赖网络这个巨大的知识平台。作为用户利用网络信息的重要接口，搜索引擎的发展自Web诞生之日起就一直没有停息。同时，计算机的日益

学位

元搜索引擎成员搜索引擎查询参数

网络化外协业务系统的研究与实现

随着全球化竞争的日益加剧，尤其是在资源有限的情况下，企业要获得持续性发展，就必须充分地利用外部力量，以求有效塑造自身的核心竞争力。企业通过开展外协业务来共享制造资源、共

学位

外协业务Browser/Server模式ASPweb服务

基于MPEG-7和XMLDB的图像检索系统的研究

随着Internet技术的持续发展，越来越多的图像、声音、视频等多媒体信息在计算机系统中被广泛的使用，从网络可获得的多媒体信息的数量越来越多。因此，需要有一种相对完美的检索方

学位

MPEG-7基于内容检索语义注释图像匹配

生物序列索引结构的研究与实现

与本文相关的学术论文