论文部分内容阅读
随着社会信息化的不断推进,如何对海量的信息进行有效地组织和管理并进行快速地查找,是全文检索技术面临的一大挑战。全文检索技术给海量文本信息的管理和查找带来了方便,但是也面临着存储空间增加,查询效率降低的缺点。针对涉密文本的密文全文检索技术,除了存在着时空效率较低的缺点,还存在着安全性等风险。索引是全文检索技术的核心,对适合海量化,涉密信息的索引结构进行研究,并对索引进行压缩是一项迫切的任务。
动态后继树(Streamline Dynamic Successive-Trees,SDST)是最近提出的一种新型索引结构,它具有索引创建速度快、查询效率高的特点,并且支持索引的动态更新,但是针对海量及涉密信息,该索引结构的空间效率较低。为实现海量数据存储空间压缩,本文对动态后继树索引结构进行改进,得到一种新的索引结构:改进的动态后继树(Improved Streamline Dynamic Successive-Trees,ISDST)索引结构,并给出其索引创建算法。ISDST索引结构具有与SDST索引结构相同的创建效率。
针对ISDST索引结构,提出一种索引压缩策略——树叶信息表压缩(Compressing Leaf Information List, CLIL),给出CLIL算法的描述;根据查询词数量,分3种情况给出在压缩的ISDST索引上进行查询和解压的算法:CLILSR算法、CLILDR算法、CLILMR算法;对压缩的ISDST索引结构在空间效率和时间效率两个方面进行理论分析,并与倒排文件进行实验对比。结果表明,ISDST索引在压缩效率,查询效率上均优于倒排文件。
为保证索引中涉密信息的安全及空间利用率,本文在密文动态后继树(Streamline Dynamic Successive-Trees of Ciphertext,SDSTC)索引结构的基础上提出改进的密文动态后继树(Improved Streamline Dynamic Successive-Trees of Ciphertext,ISDSTC)索引结构,并给出了其索引创建算法;将ISDST索引的压缩策略推广到密文索引,得到改进的具有压缩特性的密文动态后继树(Improved and Compressed Streamline Dynamic Successive-Trees of Ciphertext,ICSDSTC)索引结构,并给出其创建算法;根据查询词的数量,分3种情况给出ICSDSTC结构上的查询算法:ICSDSTC_ SR算法、ICSDSTC_DR算法、ICSDSTC_MR算法;对ICSDSTC索引在时空效率上进行理论分析,并通过实验与改进的密文动态后继树进行对比。结果表明,ICSDSTC比ISDSTC空间利用率提高了2倍。