动态后继树索引压缩技术研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:wanghao7511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的不断推进,如何对海量的信息进行有效地组织和管理并进行快速地查找,是全文检索技术面临的一大挑战。全文检索技术给海量文本信息的管理和查找带来了方便,但是也面临着存储空间增加,查询效率降低的缺点。针对涉密文本的密文全文检索技术,除了存在着时空效率较低的缺点,还存在着安全性等风险。索引是全文检索技术的核心,对适合海量化,涉密信息的索引结构进行研究,并对索引进行压缩是一项迫切的任务。   动态后继树(Streamline Dynamic Successive-Trees,SDST)是最近提出的一种新型索引结构,它具有索引创建速度快、查询效率高的特点,并且支持索引的动态更新,但是针对海量及涉密信息,该索引结构的空间效率较低。为实现海量数据存储空间压缩,本文对动态后继树索引结构进行改进,得到一种新的索引结构:改进的动态后继树(Improved Streamline Dynamic Successive-Trees,ISDST)索引结构,并给出其索引创建算法。ISDST索引结构具有与SDST索引结构相同的创建效率。   针对ISDST索引结构,提出一种索引压缩策略——树叶信息表压缩(Compressing Leaf Information List, CLIL),给出CLIL算法的描述;根据查询词数量,分3种情况给出在压缩的ISDST索引上进行查询和解压的算法:CLILSR算法、CLILDR算法、CLILMR算法;对压缩的ISDST索引结构在空间效率和时间效率两个方面进行理论分析,并与倒排文件进行实验对比。结果表明,ISDST索引在压缩效率,查询效率上均优于倒排文件。   为保证索引中涉密信息的安全及空间利用率,本文在密文动态后继树(Streamline Dynamic Successive-Trees of Ciphertext,SDSTC)索引结构的基础上提出改进的密文动态后继树(Improved Streamline Dynamic Successive-Trees of Ciphertext,ISDSTC)索引结构,并给出了其索引创建算法;将ISDST索引的压缩策略推广到密文索引,得到改进的具有压缩特性的密文动态后继树(Improved and Compressed Streamline Dynamic Successive-Trees of Ciphertext,ICSDSTC)索引结构,并给出其创建算法;根据查询词的数量,分3种情况给出ICSDSTC结构上的查询算法:ICSDSTC_ SR算法、ICSDSTC_DR算法、ICSDSTC_MR算法;对ICSDSTC索引在时空效率上进行理论分析,并通过实验与改进的密文动态后继树进行对比。结果表明,ICSDSTC比ISDSTC空间利用率提高了2倍。
其他文献
2015年第二季度,中国电子信息产业发展研究院发布了旨在全面梳理总结移动设备产业现状的《移动智能终端产业发展白皮书(2015版)》。文中指出,过去一年移动智能终端产业在全球
在线音乐的快速发展,为用户对音乐的获取提供了极大的便利。为了方便用户选择,在线音乐通常会对音乐进行分类,基于情感的音乐分类是常见的一种分类方式。由于同一首音乐可能
查询纠错属于自然语言处理研究的一方面,随着检索系统(如谷歌、百度、新浪、搜狗等)检索访问量不断增加,查询纠错处理技术受到越来越多的关注。在实际的应用中,用户进行查询
节能是无线传感器网络(WSNs)设计者首要考虑的问题。节点分簇组网方法和网络跨层设计方法是无线传感器网络提高网络性能的技术。本文基于LEACH路由协议进行跨层设计,专门研究
当今伴随着互联网的迅猛发展,各种不同表现形式、不同内容的图像数据也在以几何数量级的速度激增。面对如此纷繁浩大的图像数据库,如何快速而准确地检索到用户满意的图像结果
随着互联网的快速发展,Web上产生了大量与领域相关的信息,这些信息也成了人类获取知识的重要来源。互联网已经成为一个巨大的信息交流平台,大量的信息嵌入在Web页面中。Web页
互联网作为信息的载体已经成为人们获取信息不可缺少的工具。互联网的发展给人类带来了巨大的便利,人们可以跨越时间和空间的距离来共享大量信息。但是,随着互联网的迅速发展
近年来,随着信息技术的不断革新,通信领域的技术发展日新月异,正交频分复用技术(OFDM)作为4G的核心技术受到了广泛关注,已在相关领域取得了重要成果,如WLANIEEE802.11a已选择
随着P2P技术不断发展,尤其是P2P流媒体业务在不断地壮大,给现有互联网带来巨大的威胁,对带宽的巨大消耗就是其中之一。因此,对于P2P流量的管理和控制是非常必要和重要的,而准
随着航天科学技术的不断发展,航天器星载设备系统中的设备数量、种类都急剧增加,对航天器星载设备系统网络的自适应性、数据转发效率和容错性的要求也随之提升。SpaceWire总