论文部分内容阅读
空间数据仓库的查询性能严重限制了空间数据仓库的使用。本文以商业银行空间数据仓库系统为实际应用背景,根据空间数据仓库中空间数据和SOLAP查询的特点,针对空间数据仓库中查询性能的问题,展开了基于物化视图技术的查询优化方法的研究。本文对空间区域聚集查询进行了深入的研究,提出了两级物化的方法,该方法能有效地在空间维和非空间维上进行区域聚集查询。其基本思想是先不考虑空间维上的查询区域,把用户常用的非空间维上的区域聚集查询组成一个候选视图集,对候选视图集进行预处理后,利用遗传算法,从中选择出满足存储空间限制的总查询代价最小的视图进行物化,这个过程称为一级物化。针对每一个物化的视图,计算空间维索引R-tree中的每一个中间结点的聚集值,保存到预定义的表中,这个过程称为二级物化。由于二级物化视图中存储了R-tree中间结点的聚集结果,因此查询过程中减少了R-tree中结点的访问次数,以及查询一级视图的时间,从而提高了聚集查询效率。本文在深入研究聚类技术的基础上,给出了一种适用于高维、稀疏、二值型数据的相似性度量函数,用于对可合并的空间对象组进行聚类。然后针对空间贪心算法中间接收益计算量大的问题,提出了基于聚类的空间贪心算法。该算法在每个聚类中计算合并组的收益,而不是在整个合并组集合中计算,同时,保存每个聚类中收益最大的合并组及收益值,每次选择收益最大的合并组后,只需要重新计算该合并组所在类中的其他合并组的收益,其他聚类中的合并组不需要再重新计算收益,因此大幅度减少了合并组的收益计算量。通过仿真实验说明了该算法的有效性和优越性。本文给出了空间数据仓库的代价模型,并在此基础上提出了一种视图的动态选择算法。该算法采用实时调整与定期调整共用的策略,首先预留一部分存储空间,用于存储新的视图,当这部分预留的空间用完后,如果这时还需要存储视图时,就逐个淘汰收益小的视图,直至满足空闲空间要求为止。通过实验说明了算法的有效性,并比较了预留不同空闲空间时的算法性能。