论文部分内容阅读
随着位置感知设备及技术的发展、基于位置的应用的盛行,空间文本数据——同时包含空间和文本属性的数据,也称作空间文本对象(简称对象),正以空前的速度和规模产生。空间文本查询(Spatial-Textual Queries,STQ)是在空间文本对象集上,检索满足查询空间文本约束条件的、高精度的结果集,是基于位置服务的高频关键操作。STQ的求解以及优化是空间数据管理研究领域的一个主要方向。空间文本索引和数据精简技术是两类主要的STQ优化方法,能够快速排除大量不相关的空间文本对象,减少需要验证的对象数量,提高查询效率。对于采用空间文本索引技术提升STQ求解效率的优化方法,需要选取适宜的空间文本索引,构建高效的索引映射机制,把查询的空间和文本属性映射到索引上,提升索引的过滤能力,减少需要验证的对象数量,避免高昂的验证代价。这一途径适用于能够把空间和文本属性映射到索引的STQ,存在的主要问题是:目前大多空间文本索引基于静态数据集构建,侧重过滤能力,忽略了数据变化产生的更新代价,在空间文本数据频繁变化的动态场景下索引更新代价高、缺乏高效性和自适应性。针对这一问题,本文以需要频繁更新索引的空间文本数据流上的连续k近邻查询(Continuous k-Nearest Neighbor Queries over Spatial-Textual Data Streams,Ck QST)为例,构建空间文本索引映射机制自适应模型,平衡索引的过滤能力与更新代价,优化STQ的求解。对于采用数据精简技术提升STQ求解效率的优化方法,STQ的空间或者文本属性通常无法映射到索引上,索引的过滤能力不能充分发挥,需要验证的数据集很大。数据精简技术把求解STQ时关联的数据集分组,在每组中采样满足约束条件的若干数据,其余数据被直接过滤,以较小的精度损失,避免高昂的验证代价。这一途径适用于空间或者文本属性无法映射到索引的STQ,存在的主要问题是:在不同的数据集上查询性能差异较大,无法保证数据处理能力和查询精度,缺乏普适性。针对这一问题,本文以空间属性无法映射到索引的典型NP-Hard——覆盖多关键字的优化路径查询(Keyword-aware Optimal Route Queries,KORQ)为例,建立数据过滤能力和查询精度的关系模型,开发查询性能可调节的数据精简技术,以满足多种查询效率及精度要求。本文主要工作以及创新点如下:(1)针对动态数据流上的Ck QST的求解,提出内存代价模型VUMBCM(Verification and Update of Memory-based Cost Model)和标准分块有序倒排索引的空间和文本索引映射机制,平衡动态环境索引的过滤能力与更新代价。VUMBCM计算查询的空间搜索范围的最佳映射节点集,平衡查询的验证代价与索引的更新代价。标准分块有序倒排索引确定构建有序倒排列表的关键字数量,缩短原始倒排列表长度,并且能够快速定位列表中需要验证的查询。此外,为了提高数据吞吐量,提出批量映射策略,把包含共同关键字的批量对象映射到相应倒排列表的块内,通过共享扫描实现对象的批量处理。针对Ck QST的求解,在Quadtree中集成VUMBCM、标准分块有序倒排索引以及批量映射策略,得到索引OIQ-tree。与先进的索引技术相比,当查询规模达到2000万时,OIQ-tree的对象平均处理时间降低了22%,因数据流中对象变化导致的索引平均更新时间降低了46%。(2)针对对象更新频率很高的高度动态数据流上的Ck QST的求解,提出基于成本的k-skyband重新评估技术和自适应分块有序倒排索引的空间和文本索引映射机制,在高度动态环境保证索引的过滤能力,降低索引的更新代价。基于成本的k-skyband重新评估技术根据查询结果的更新频率及数据负载,自适应地为查询选取空间搜索范围,以减小因数据集频繁更新引起的查询重新评估代价以及索引更新代价。自适应分块有序倒排索引综合考虑查询和对象的文本分布,自适应地确定倒排列表块内查询的数量,以解决数据分布倾斜时,块内查询数量过多或者过少的问题。在OIQ-tree中集成基于成本的k-skyband重新评估技术以及自适应分块有序倒排索引得到索引AOIQ-tree。与先进的索引技术相比,当查询规模达到2000万时,AOIQ-tree的对象平均处理时间降低了36%,因数据流中对象变化导致的索引平均更新时间降低了61%。(3)针对空间属性无法映射到索引的KORQ的求解,根据扩展路径目标值的特点,提出基于分层采样数据精简技术的近似算法,包括基于路径目标值放大的高精度采样技术、基于路径目标值缩小的低精度采样技术以及基于路径目标值聚类的固定采样技术,分别用于精简连接起始顶点和扩展顶点的路径、顶点对间的路径以及覆盖高频关键字的顶点。三项数据采样技术不同程度地精简求解KORQ时需要扩展的路径数量和顶点数量,提升KORQ的查询效率。与先进的数据精简技术相比,该算法查询执行时间平均减少76%以上。本文提出的索引映射机制以及数据精简技术适用于具有类似特性的STQ的求解,对其它查询的优化具有借鉴作用。