论文部分内容阅读
近年来,随着数据采集手段的日益丰富和发展,可供人们利用的数据资源总量急剧增加。如何有效地管理这些海量的高维数据,使得用户可以方便地从中找出感兴趣的信息,成为学术界的重要研究课题。尽管高维数据索引及其查询处理技术已经得到了广泛的重视和深入的研究,但还存在着如下问题亟待解决:(1)传统降维技术虽然在一定程度上避免了索引空间的大量重叠,但存在实际效果不好或计算维护代价昂贵等问题;(2)目前的轮廓查询基数调整算法只是部分地实现了对轮廓结果数量的控制,未能实现结果数量的精确控制,同时忽略了原始轮廓查询结果数量过少时的处理;(3)传统轮廓查询处理技术均是在确定性数据的前提下提出的,无法直接应用到不确定数据管理当中。本文针对高维数据索引及其查询处理技术的相关问题进行了详细的分析和深入的研究。本文的贡献点可概括如下:(1)研究了高维数据的高效索引及其相似性查询算法,提出了新的降维及索引技术MS-tree。提出了活动子空间和非活动子空间的概念,并通过对高维数据相似性查询进行分析,提出了假活动子空间的概念,并分析了解决假活动子空间访问问题的基本思路——最大间隙空间映射。在这个基本思路的基础上,设计并实现了一种新的索引结构MS-tree, (?)司时介绍了基于MS-tree的相似性查找算法。实验结果表明,较之其他索引及过滤方法,MS-tree减少了对假活动子空间的访问,因而具有更好的查询处理性能。(2)研究了高维数据中的δ-轮廓查询问题。提出了通过在狭义轮廓、普通轮廓和广义轮廓中进行调整来达到控制轮廓结果基数的δ-轮廓查询;并基于改进的SFS的算法,提出了朴素的δ-轮廓查询算法NDA;同时,基于轮廓体的概念,提出了基于轮廓立方体的δ-轮廓查询算法NoS;针对NDA算法中,数据点之间的重复比较问题和NoS算法中轮廓立方体维护代价巨大的问题,提出了改进的δ-轮廓算法ICA。实验结果表明,δ-轮廓可以为用户提供满足一定数量要求的有意义轮廓结果,同时也证明了NDA、NoS和ICA算法是计算δ-轮廓的有效算法。(3)研究了基于模糊集理论的模糊轮廓查询问题。分析了轮廓点和非轮廓点的特征,分别提出了轮廓点的支配度和非轮廓点的隶属度衡量标准,进而明确了模糊轮廓集和模糊轮廓的概念;同时,提出了高效的模糊轮廓计算算法FSCA求解数据集的模糊轮廓集,进而求得任意的模糊轮廓。实验结果表明,模糊轮廓查询及其对应的FSCA算法可以实现查询结果从零到数据集大小之间的任意控制,从而更好地为用户的选择提供帮助。(4)研究了不确定高维数据集的阈值轮廓查询问题。详细地分析了不确定数据集中的阈值轮廓查询的语义和性质,提出了基于R-tree索引的基本的阈值轮廓算法BPS;通过对对象间关系与轮廓概率关系的分析,在BPS算法的基础上加入了有效的剪枝策略,提出了改进的阈值轮廓算法IPS。实验表明,IPS算法的性能可以满足应用需求,是计算阈值轮廓的有效算法。(5)研究了不确定高维数据集的不确定轮廓查询问题。通过对不确定轮廓的特点进行分析,提出了利用状态空间搜索的方式来求解不确定轮廓的基本的不确定轮廓算法BUS。通过对状态间相互关系的深入分析,在BUS算法的基础上,加入了有效的剪枝策略,提出了基于过滤的不确定轮廓算法FUS。实验结果表明,FUS算法与BUS算法相比,性能有了显著的提高。