支持大规模压缩序列的在线子串查询处理与优化技术

来源 :东北大学 | 被引量 : 0次 | 上传用户:hzn_arm
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的进步和科学的发展,信息数据量呈爆炸性增长,特别是基因序列这样的数据,其增长速度已经超出了人们的想象,给数据存储和传输造成了很大的压力,各种压缩技术被提出来解决这样的问题。在压缩序列上进行子串查询处理对于基因序列分析和关键字搜索等实际应用非常有意义。这些序列数据往往以压缩形式存储,给子串查询造成一定的难度,使得该研究领域面临着巨大的挑战。本文所研究的内容是基于最近提出的一种无损压缩技术,对于多个非常相似的字符序列,只需保留一个参照序列,然后利用参照序列上的编辑操作来编码这些相似序列与参照序列的差异。该技术对于基因这种大规模的字符序列能够起到非常好的压缩效果。这种压缩技术是新颖而且重要的,那么如何在这种大规模压缩序列上进行在线子串查询处理是本文要解决的问题。针对上述大规模无损压缩序列,本文针对参照序列是否在线被处理这两种情况,分别提出相应的在线子串查询处理与优化技术。在未索引参照序列的情况下,通过改进经典的BM算法,提出了支持单压缩序列的子串查询算法。利用多个压缩序列在参照序列上拥有许多公共片段的特点,进而提出了支持多压缩序列的子串查询算法。在索引参照序列的情况下,通过建立一个基于q-gram的倒排表索引,提出一个基本的子串查询算法。针对其不足,采用对编辑操作的过滤技术,进而又提出了一个优化查询算法。通过在一个基因数据集上的实验,显示出所提出的技术能够高效地支持大规模无损压缩序列的子串查询处理。
其他文献
在过去的数十年中,关系数据库系统得到了极大的发展,而且被应用到人们生活中的各个角落。同时,人们对数据管理的需求,尤其是数据查找的需求不断增长。但是在这方面,关系数据
Web服务(Web Service)是一种基于XML的Web应用,是一种新的分布式计算模型。Web服务本身具有的一些很好的特性,如:易适应性、松耦合性、开放性、语言独立性、平台无关性等,使其
随着计算机技术的飞速发展和信息化的推进,全球的数据量正在以指数的趋势迅猛增长,而不断增长的数据集对数据查询提出很多新问题,对计算机内存的要求也越来越高,很多情况下,
移动Ad hoc是一种没有中心基础设施的情况下,由节点自组织形成的多跳无线网络,是近年来国际上的研究热点。目前针对移动Ad hoc网络的研究多集中在链路层、网络层和应用层,包
世界范围内,因为汽车数量快速增长加剧了交通事故的发生频率,引起人们对车辆安全的高度关注,而针对汽车辅助驾驶系统的研究越来越受到国内外的重视,由于道路环境下运动车辆的
博客是伴随Web2.0出现的一个典型应用,随着博主越来越多,博客页面的数量迅速增长。由于每个用户自身情况千差万别,面对Internet上指数增长的可用信息,人们越来越难找到自己想
随着多媒体技术和网络技术的迅速发展,视频作为一种主要的媒体类型已成为与人类工作生活密不可分的信息载体。庞大的视频数量和不断彭胀的用户群体急需要一种高效的组织视频
随着互联网的发展,商品的种类越来越多,商品的信息结构也越来越复杂,影响推荐系统性能的附加信息也随之增长。附加信息是指除评分矩阵以外的文本、属性、地理位置、时间等信
随着互联网信息的不断增长,博文成为Web2.0的重要应用,人们使用博文进行发表观点,书写生活等一系列活动。由于网络中蕴含着大量的信息,用户对博文搜索引擎的功能、搜索效果以
随着信息化发展速度的不断加快,XML技术发挥的作用越来越重要。目前,XML在多领域的数据表示、建模分析等方面都有广泛的应用。然而建立在多维度基础上的XML数据查询却比较复