面向Ziv-Lempel压缩文本的多查询处理技术

来源 :东北大学 | 被引量 : 0次 | 上传用户:JIA814418
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的飞速发展和信息化的推进,全球的数据量正在以指数的趋势迅猛增长,而不断增长的数据集对数据查询提出很多新问题,对计算机内存的要求也越来越高,很多情况下,数据集已经无法完全被载入计算机内存了。因此,近些年来对数据压缩以及在压缩数据上进行查询逐渐成为一个全新的研究热点。另外,查询又分单一查询和多查询。在压缩数据上的单一查询已有很多人在这方面做出了突出的贡献,然而在压缩数据上的多查询处理技术至今仍是空白,但是这一处理技术在拼写检查、指纹识别、信息检索、生物计算等诸多领域中都扮演着重要的角色,因此,研究高效的面向压缩数据的多查询处理技术迫在眉睫。本文研究了在Ziv-Lempel压缩文本上的多查询处理技术,开创了这一领域的先例,为后人进行压缩数据上的多查询处理技术的研究奠定了一定的基础。由于大规模系统应用中部分查询之间具有相关性特性,根据这一特性,针对Ziv-Lempel压缩数据,提出了一种多查询处理技术。通过分析多查询之间的相关性,提出了新的公共子串定义,让公共子串满足一定的长度和出现次数。提出提取公共子串的算法以及有效地过滤重复或者存在包含关系的公共子串。基于提取的公共子串,在压缩文本中快速定位多个查询,构造候选集,并加以校验。这种利用公共子串代表多个查询的方法可以大大减少查询代价,从而提高多查询处理技术的效率。最后,在真实数据集上评估了提出的多查询处理技术的性能。实验结果显示,提取公共子串的方法能够快速、高效地获得公共子串集合,过滤掉冗余的公共子串。同时,多查询处理技术能够提供快速、高效的查询性能。
其他文献
随着信息技术的普及和发展,互联网上的网页数量呈指数级增长。人们要想在短时间内准确的得到自己想要的信息,就要预先对互联网信息就行分类整理。由于网页中的信息大部分是文
移动通信领域的飞速发展,3G在中国正式商用一周年,使手机应用领域得到了巨大的发展。3G推动了BREW平台在手机终端应用领域的飞速发展,也推动了与人们日常生活息息相关的移动
随着Internet的发展,传输层单穴的端到端通信协议如TCP.UDP在传输性能、容错性和安全性等方面皆受到了极大的挑战。传输层多穴的端到端通信协议如基于SCTP的同时多路传输CMT(
随着信息时代的到来,人们需要分析处理越来越多的数据,而这些海量数据的背后隐藏着大量的人们所需要的规则和知识,数据挖掘就是随着人们的这一需要应运而生的。虽然最近几十
随着计算机内存的不断增大,内存数据库逐渐成为研究的热点。单线程在线事务处理模型在内存数据库中被广泛使用。单线程在线事务处理模型基于数据库静态的分区信息,为每个分区
随着国内高校规模的迅速扩大和教育体制的不断改革,高校教务管理工作量大幅度增加,其复杂性也越来越大,这使得高校教务管理工作的信息化和网络化势在必行,开发高效的基于网络
语义Web作为当前Web的扩展,旨在使得Web中的信息具有语义,从而能够被计算机理解,便于人和计算机之间的交互与协作。本体是领域知识共享的形式化描述,语义Web的实现很大程度上
近几年来,随着生物信息学迅速发展,产生了大量的生物数据,对这些生物数据的研究和分析对于指导生命科学研究、揭示生命起源和进化的规律有着重大的意义。生物序列与生物序列
在过去的数十年中,关系数据库系统得到了极大的发展,而且被应用到人们生活中的各个角落。同时,人们对数据管理的需求,尤其是数据查找的需求不断增长。但是在这方面,关系数据
Web服务(Web Service)是一种基于XML的Web应用,是一种新的分布式计算模型。Web服务本身具有的一些很好的特性,如:易适应性、松耦合性、开放性、语言独立性、平台无关性等,使其