压缩全文自索引算法的研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:vito23
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息检索领域,基于数据库的条目型检索系统和基于倒排表的检索系统能解决一部分需求,但在字符串精确匹配、生物序列分析、任意模式检索等领域,无法通过数据库系统和倒排表完成。全文索引技术(full-text index)可以在一定程度上解决这类问题,但是形如后缀数组(suffix array,SA)和后缀树(suffix trie,ST)这样的全文索引结构需要很大的空间,实用性不强。压缩索引(compressed full-text self-index)技术解决了上述问题,它对原始数据进行压缩表示,所需空间与纯压缩算法相当,而且能够在不需要恢复出原始数据的情况下提供高效的模式匹配功能。本文研究了常见后缀数组构建算法、压缩后缀数组、Bit Map、FM-index、熵与编码等方面的知识。在此基础上,设计和实现了高效的压缩索引方案,包含以下三部分。首先,针对常见后缀数组计算方法内存峰值过大、计算速度慢的问题,提出了高效的SA计算方法DCV,具有省内存、速度快的优点,运行时内存峰值为原始数据的5倍左右,运行时间与知名的LS方法相当,总体性能优越。其次,我们针对压缩后缀数组(compressed suffix array,CSA)设计了两种高效、简洁的结构:CSA和Adaptive-CSA,分别对?数组的差分序列使用gamma编码和自适应的混合编码,理论结果保持了该领域已有理论结果的性能,可以在O(m log n)的时间内完成count查询,m表示模式长度,可以将原始数据压缩到2nHk(T)+n+o(n)比特,Hk(T)表示原文T的k阶经验熵,结合自适应策越、调优的编码方法、查找表等优化手法,使我们的CSA结构在构建时间、压缩率、查询速度上优于常见CSA结构,在Canterbury Corpus和Pizza&Chili Corpus上的各项测试结果优势明显。最后,提出了一种高效的Bit Map索引结构,对每块数据能自动的选择最佳编码方法,并能根据数据的分布选择最合适的块大小等参数,并以此为基础,结合小波树实现了第二种压缩索引方案Adaptive-FM,充分利用数据分布特点,具有数据感知的能力,理论结果保持了该领域已有理论结果的性能,count查询可以在O(m log?)时间内完成,?表示字符表大小,所需空间为2nHk(T)+o(n)log?比特,Canterbury Corpus和Pizza&Chili Corpus数据集上的测试表明Adaptive-FM综合性能优越,特别是压缩率。所开发的压缩索引已工程化,可在https://github.com/chenlonggang/上获取。
其他文献
随着网络与数字产品的快速发展,版权意识与版权保护越来越被人们所关注。数字水印技术作为数字产品身份认证和版权保护的重要方法,也因此受到越来越多的重视与研究。大多数数
随着移动通信的发展,移动通信网络即将从2G(第二代移动通信网)升级到3G(第三代移动通信网)网络。3G网络最显著的特征是在R5(Release 5)中引入了IMS(IP Multimedia Subsystem),
本文将专家系统的技术应用于科技项目评估领域,开辟了评估专家系统的新应用领域。其目的是将已有的评估方法与专家系统结合,开发出科技项目评估专家系统,达到评估过程的科学
人群在现实生活中随处可见。在虚拟环境中,真实的人群运动会使整个环境显得逼真、生动。随着计算机视觉与计算机图形学技术的飞速发展,人群运动仿真技术受到了越来越多学者的
进入二十一世纪以来,移动终端作为一个新兴设备发展非常迅速,尤其是智能终端的问世,极大的方便了人们的日常生活,3G与4G网络的逐渐普及,网络带宽的增加,以iPhone的发布开始,A
本文介绍了一个通用的、可扩展的医学影像处理算法开发平台,该平台不但提供了灵活的算法开发接口,友好的影像操作界面,也为计算机辅助检测/诊断(CAD)系统高效、快速地开发提供了
近几年,以彩铃(Coloring Ring Back Tone,CRBT)为代表的电信增值业务发展迅速。中国移动在2003年成功推出彩铃业务,迅速得到用户的喜爱和使用,随后各大运营商纷纷跟进,使得彩铃在
本文研究分析了交叉认证技术中的信任模型、路径构造与路径验证,提出了一种针对域内为层次结构、域间为网状结构的混合模型下的交叉认证设计,它通过出示默认证书链,并使用加权信
在过去的二十年,神经网络理论研究取得了很大的进展,在各领域的应用也取得了丰硕的成果。作为神经网络的经典模型,BP网络也得到了快速的发展,同时,也存在着收敛速度缓慢、难
搜索引擎是传统的信息检索(InformationRetrival)技术与Web结合的产物,是一个集多种技术于一体的综合性系统。倒排索引是其中的一项重要技术,本文正是围绕倒排索引的核心技术展