空间文本查询优化

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:helloliuhh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着位置感知设备及技术的发展、基于位置的应用的盛行,空间文本数据——同时包含空间和文本属性的数据,也称作空间文本对象(简称对象),正以空前的速度和规模产生。空间文本查询(Spatial-Textual Queries,STQ)是在空间文本对象集上,检索满足查询空间文本约束条件的、高精度的结果集,是基于位置服务的高频关键操作。STQ的求解以及优化是空间数据管理研究领域的一个主要方向。空间文本索引和数据精简技术是两类主要的STQ优化方法,能够快速排除大量不相关的空间文本对象,减少需要验证的对象数量,提高查询效率。对于采用空间文本索引技术提升STQ求解效率的优化方法,需要选取适宜的空间文本索引,构建高效的索引映射机制,把查询的空间和文本属性映射到索引上,提升索引的过滤能力,减少需要验证的对象数量,避免高昂的验证代价。这一途径适用于能够把空间和文本属性映射到索引的STQ,存在的主要问题是:目前大多空间文本索引基于静态数据集构建,侧重过滤能力,忽略了数据变化产生的更新代价,在空间文本数据频繁变化的动态场景下索引更新代价高、缺乏高效性和自适应性。针对这一问题,本文以需要频繁更新索引的空间文本数据流上的连续k近邻查询(Continuous k-Nearest Neighbor Queries over Spatial-Textual Data Streams,Ck QST)为例,构建空间文本索引映射机制自适应模型,平衡索引的过滤能力与更新代价,优化STQ的求解。对于采用数据精简技术提升STQ求解效率的优化方法,STQ的空间或者文本属性通常无法映射到索引上,索引的过滤能力不能充分发挥,需要验证的数据集很大。数据精简技术把求解STQ时关联的数据集分组,在每组中采样满足约束条件的若干数据,其余数据被直接过滤,以较小的精度损失,避免高昂的验证代价。这一途径适用于空间或者文本属性无法映射到索引的STQ,存在的主要问题是:在不同的数据集上查询性能差异较大,无法保证数据处理能力和查询精度,缺乏普适性。针对这一问题,本文以空间属性无法映射到索引的典型NP-Hard——覆盖多关键字的优化路径查询(Keyword-aware Optimal Route Queries,KORQ)为例,建立数据过滤能力和查询精度的关系模型,开发查询性能可调节的数据精简技术,以满足多种查询效率及精度要求。本文主要工作以及创新点如下:(1)针对动态数据流上的Ck QST的求解,提出内存代价模型VUMBCM(Verification and Update of Memory-based Cost Model)和标准分块有序倒排索引的空间和文本索引映射机制,平衡动态环境索引的过滤能力与更新代价。VUMBCM计算查询的空间搜索范围的最佳映射节点集,平衡查询的验证代价与索引的更新代价。标准分块有序倒排索引确定构建有序倒排列表的关键字数量,缩短原始倒排列表长度,并且能够快速定位列表中需要验证的查询。此外,为了提高数据吞吐量,提出批量映射策略,把包含共同关键字的批量对象映射到相应倒排列表的块内,通过共享扫描实现对象的批量处理。针对Ck QST的求解,在Quadtree中集成VUMBCM、标准分块有序倒排索引以及批量映射策略,得到索引OIQ-tree。与先进的索引技术相比,当查询规模达到2000万时,OIQ-tree的对象平均处理时间降低了22%,因数据流中对象变化导致的索引平均更新时间降低了46%。(2)针对对象更新频率很高的高度动态数据流上的Ck QST的求解,提出基于成本的k-skyband重新评估技术和自适应分块有序倒排索引的空间和文本索引映射机制,在高度动态环境保证索引的过滤能力,降低索引的更新代价。基于成本的k-skyband重新评估技术根据查询结果的更新频率及数据负载,自适应地为查询选取空间搜索范围,以减小因数据集频繁更新引起的查询重新评估代价以及索引更新代价。自适应分块有序倒排索引综合考虑查询和对象的文本分布,自适应地确定倒排列表块内查询的数量,以解决数据分布倾斜时,块内查询数量过多或者过少的问题。在OIQ-tree中集成基于成本的k-skyband重新评估技术以及自适应分块有序倒排索引得到索引AOIQ-tree。与先进的索引技术相比,当查询规模达到2000万时,AOIQ-tree的对象平均处理时间降低了36%,因数据流中对象变化导致的索引平均更新时间降低了61%。(3)针对空间属性无法映射到索引的KORQ的求解,根据扩展路径目标值的特点,提出基于分层采样数据精简技术的近似算法,包括基于路径目标值放大的高精度采样技术、基于路径目标值缩小的低精度采样技术以及基于路径目标值聚类的固定采样技术,分别用于精简连接起始顶点和扩展顶点的路径、顶点对间的路径以及覆盖高频关键字的顶点。三项数据采样技术不同程度地精简求解KORQ时需要扩展的路径数量和顶点数量,提升KORQ的查询效率。与先进的数据精简技术相比,该算法查询执行时间平均减少76%以上。本文提出的索引映射机制以及数据精简技术适用于具有类似特性的STQ的求解,对其它查询的优化具有借鉴作用。
其他文献
三阴性乳腺癌(Triple negative breast cancer,TNBC)是恶性程度较高的乳腺癌亚型之一,高发于年轻女性,转移常见且预后较差。目前,TNBC治疗多以化疗为主。近年研究发现肿瘤相关巨噬细胞(Tumor-associadted macrophages,TAMs)在TNBC的发生发展、治疗评价中发挥重要作用.基于TAMs的治疗与预后评价策略已成为当下TNBC的研究热点。本文就T
期刊
超支化聚合物是一种具有低黏度、多反应活性官能团的材料,因其独特的结构和性质而备受关注,聚氨酯(PU)因其优越的性能而得到广泛应用。超支化聚氨酯(HBPU)综合了超支化聚合物独特的结构和聚氨酯优异的性能,是近年来高分子材料领域的研究热点。介绍了不同主链结构和末端官能团数量的超支化多元醇,并利用红外光谱、GPC等仪器对核心原材料超支化多元醇进行表征,随后通过与异氰酸酯、功能性助剂等的化学聚合反应制备得
目的 总结人类表皮生长因子受体2(HER2)基因表达与HER2阳性乳腺癌靶向治疗效果的关系并总结HER2基因拷贝数相关研究的新进展。方法 复习近年来关于HER2阳性乳腺癌与相关靶向治疗的文献并进行综述。结果 HER2基因拷贝数和HER2/CEP17比值与HER2阳性乳腺癌预后有关,且循环肿瘤DNA测序有望成为靶向治疗效果的预测指标。结论 较高的HER2基因拷贝数可能与较好的HER2阳性乳腺癌预后相
合成孔径雷达(SAR)成像技术具有全天时、全天候、分辨率高、探测距离远、穿透云雾植被等优势,是一种先进的雷达信息获取方式,具有重要的军事和民用价值。而SAR图像的特征会随着不同的配置条件发生明显的变化,使得SAR图像的目标识别任务不像光学图像那样容易。此外,随着SAR成像技术的发展,雷达图像所包含的数据量越来越大,给SAR图像的解译增加了难度。如何识别雷达图像中的物体并对目标进行分类是雷达图像解译
基于受激布里渊散射(Stimulated Brillouin Scattering,SBS)的分布式光纤传感技术可实现光纤沿线温度、应变、振动等物理参量检测而广泛应用于大型基础设施结构健康、军事边境安防、深海空天开发等监测领域,长距离精准定位和高精度实时测量的应用需求日趋迫切。然而,传统光时域分析(Brillouin Optical Time Domain Analysis,BOTDA)技术采用脉
畜牧业作为农业的重要组成部分,在国民经济发展中的基础地位不可动摇。综合考量养殖环境、品质及效率等因素,生猪集约化养殖意义重大。目前,现代集约化养猪场已经逐步实现无人值守,对无人值守养猪场中生猪异常行为进行智能监测,是实现安全养殖、高品质养殖和高效养殖的现实需求。本论文运用机器视觉技术、声音识别技术和超声波技术三种监测手段,从多角度对生猪异常行为进行数字化综合监测,最后采用多源信息融合方法对生猪多源
拉曼分布式光纤传感技术可实现温度的大范围高精度监测,在桥梁隧道、油气管线、智能电网等大型基础设施结构健康监测领域具有重大社会需求和应用前景。然而,拉曼分布式光纤传感系统其传感信号为强度极弱的自发拉曼散射信号,且传感光缆多铺设于光纤损耗较大的野外恶劣环境,存在信噪比(Signal-to-noiseratio,SNR)较低的技术瓶颈。增加探测脉冲宽度可提高系统SNR,进而提高系统测温精度和温度分辨率,
随着LoRa、NB-IoT以及5G等通信技术的发展,物联网设备数量与日俱增,物联网安全也日益成为物联网应用关注的热点。物联网设备识别是物联网设备安全评估、防护和升级的必备前提,设备识别的目标是确定设备的类型、品牌、型号和固件版本等属性信息,尤其是细粒度的设备型号和固件版本信息,与设备漏洞直接关联,能够更准确的反映出设备的安全状态。然而面对物联网设备数量庞大、品牌类型繁多以及服务协议混杂等现实存在的