论文部分内容阅读
随着计算机技术、数字图像技术以及互联网技术的发展,使人们越来越多的接触到大量的图像信息。传统的图像检索技术面临很大的挑战。为了有效地发现、检索和存取这些图像信息,人们开始提出基于内容的图像检索系统。基于内容的图像检索是利用图像的视觉特征来表征图像,检索则根据这些特征的相似性来进行。实现基于内容的图像检索要对检索的图像进行特征提取,得到的是维数很高的特征向量。我们对这些向量建立高维数据索引,通过这个索引以实现对图像信息的相似性查询。高维索引技术是基于内容的图像检索系统中用到的关键技术,它直接影响到系统的性能。
SA-tree是一种比较成功的高维数据空间索引结构。它在查询过程中是采用空间逼近方法,而不是传统索引结构分而治之的方法,当查询的选择度比较低的情况下,这种索引结构表现出非常好的性能。但SA-tree的根节点选取是随机的,可能造成数据倾斜。另一方面SA-tree是一种空间逼近方法,每一次只能从当前数据点移向它的近邻数据点,而SA-tree中一个数据点到它近邻数据的距离比较小,逼近速度较慢,影响查询性能。
我们设计了一种新的索引结构——XSA-tree。索引树XSA-tree扩展了现有的索引结构SA-tree,提出了卫星数据域的思想,以改善相似性索引的性能。XSA-tree这种索引结构在对根节点中代表数据点选取上进行优化,能够得到相对平衡的索引树,可以有效地避免数据倾斜现象。由于卫星数据域的存在,当前数据点到它近邻数据点的距离变大,使得空间逼近的速度变快,索引的查询性能也随之提高。
本文详细讨论了XSA-tree的设计思想及其基本概念,并给出了建立索引树以及进行范围查询和K邻近查询的相关算法。通过对实验结果进行分析,可以看出XSA-tree的确是一种有效的高维索引结构,能够显著地提高查询性能。