压缩后缀数组构造算法的改进

来源 :中山大学 | 被引量 : 0次 | 上传用户:Hai123321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
给定一个有穷字符集∑,假设S是由∑中的n个字符组成的文本串,P则是由∑中的m个字符组成的模式串。模式匹配就是查找模式串P在文本串S中符合特定条件的所有出现。在巨大数据集的模式匹配问题中,采用索引机制可以有效地提高匹配速度。在建立索引的过程中,要考虑查找速度和空间开销的平衡,既要保证较高的查找速度又要有合理的空间开销。 后缀数组作为一种常用的文本索引机制,因其简单的结构和较好的空间效率,已成为模式匹配算法的基础数据结构。但是,它也有着文本索引机制共有的缺陷:实现快速查询的算法仍使用了较多的空问。为了解决这一问题,Grossi和Vitter对后缀数组进行压缩,在实现O(m/log∣∑∣n+log∣∑∣εn)的查找时间的同时,最多只需要(ε-1+O(1))nlog∣∑∣位的存储空间。其中ε为任意常数,且0<ε≤1。 本文提出了一种新的构造压缩后缀数组的方法:对原文本串s每logn位一组进行划分,每组只保存一个绝对地址,把后缀数组的存储空间降为O(n)位。同时,结合BWT变换的性质,把BWT(S)数组每logn个字符分为一组,各分组内每个不同字符只保存一个绝对位置,将每个字符平均所占空间降为O(1)位,从而有效解决空间瓶颈问题。
其他文献
用于数据分析与挖掘的数据可能包含数以百计的属性,其中大部分属性与数据挖掘任务不相关,是冗余的。尽管领域专家可以挑选出有用的属性,但这可能是一项困难而费时的任务,特别
随着互联网的发展,计算机要处理的文本信息越来越多。人们期望计算机能迅速、准确地理解他们的需求和返回精准的信息。传统的搜索引擎不能完全满足这种需求,而问答系统作为自然
在ERP(Enterprise Resource Planning)实现中,通过物料清单(BOM)配置产品结构是非常重要的一个方面。一个BOM描述了产品的组成结构,它通常以层次化结构在关系数据库中实现。这
图像插值是数字图像处理领域的重要内容,目的在于由低分辨率的图像重建对应的高分辨率图像。图像插值技术在数字摄影、医学图像、计算机视觉等领域有着广泛的应用,多年来一直
公开密钥体系(PKI)支持数字签名和数据加解密,目前被越来越广泛地应用于高速和大数据量的网络环境。其中椭圆曲线加密算法更适用于存储容量小且计算能力有限的系统,如智能卡和
在当今信息技术发展过程中,计算机已经成为人们工作、学习中必不可少的一项工具。计算机技术在其他领域的应用,不但提高了该领域的工作效率,也为计算机应用技术的发展开辟了
光纤通信技术的迅速发展,特别是密集波分复用(DWDM)技术的发展,使单波长上的数据传输率达到80Gbps,单根光纤接近Tbps,从而为利用计算机网络实现有线电视网络、电话交换网络和
近年来,XML正迅速成为万维网上数据交换、集成和表示的标准。而在与时态信息相关的应用下,我们需要查询XML的某个历史版本,以获取在特定时间下的XML数据。简单地保存XML文档的每
惯性器件为飞行器提供位置、姿态等导航信息,是飞行器上的重要设备。惯性器件精度和特性的测试是应用中的重要问题,论文讨论了惯性组件测试评价系统的开发。论文介绍了惯性组
数据仓库的构建是一个复杂,庞大,循环往复的过程。要构建一个优秀的数据仓库平台涉及到很多技术,需要考虑很多方面。本文就数据仓库中的优化问题提出探讨。 本文首先介绍一些