欧式空间与道路网上的Top-K查询处理研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:huruiwangmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
最近十年以来,移动互联网的巨大变革,激发了移动设备,如智能手机的革新以及手机上各类应用的快速发展。在各类应用中,基于地理位置信息的应用(Location-Based Services)就是其中很重要的一大类。Top-K查询就是最经典的一种查询模式。典型的应用场景就是用户使用手机,在某个地理坐标上,表达出查询意图(比如,关键词),系统返回距离用户最近,或跟意图最相关的Top-K结果。在这个问题上,已有不少的研究工作。但是,现有方法存在两方面的缺陷和不足。一方面是查询处理效率上的不足,导致的用户体验较差;另一方面是存储和运算的代价太高,很难支持大规模数据集。本文的研究核心,就是围绕不同的查询方式(是否支持即敲即得),不同空间距离度量(欧式距离,道路网距离),以及不同的文本相似性(是否支持关键词),这三个层面,解决现有方法的以上问题,论文的主要贡献如下:1.欧式空间上即敲即得的关键词Top-K查询:为了实现用户体验更好的即敲即得查询方式,并解决传统查询算法存储代价高,剪枝效果差的问题,论文提出了一种新颖的索引结构,叫做PR-Tree。跟传统方法只基于单个维度构造索引,再增加过滤器的方法的不同之处在于,PR-Tree在构造时候同时考虑了文本和空间这两个维度的信息,从而克服了传统方法在剪枝效果上的缺陷。基于PR-Tree,论文讨论了基于单前缀的查询算法,和基于多关键词的查询方法。与现有方法比较,PR-Tree能普遍快1到2个数量级。2.道路网上的可扩展索引与Top-K查询:基于道路距离的Top-K查询比基于欧式距离的查询更有现实意义,因为无论是行走还是驾车,人们都在道路网络上进行而非直线移动。相比欧式空间,道路网上的Top-K查询处理有两大挑战。第一是如何快速计算点到点最短路,第二是如何做到高效的剪枝。为了解决这两大难题,论文构造了一种平衡树索引,名为G-Tree。G-Tree是通过递归切割道路网构造而成的。为了计算道路距离,在每个G-Tree节点上,会预处理一系列最短路,并开创性的使用“距离拼接算法”,来求解任意两点的最短路。基于这个距离,可以利用最佳优先遍历算法,进行高效的Top-K查询剪枝。G-Tree比当今前沿算法能快2到3个数量级左右,并能轻松支持全美国道路网规模的数据集。3.道路网上基于关键词的Top-K查询:现实中,用户不仅只关心到目标对象的道路距离,还可能通过关键词表达查询意图。论文将查询关键词与目标对象的文本相似度,与道路最短路两者结合起来,加权得到一个新的排名度量进行Top-K查询处理。借助之前G-Tree的框架,论文改造出一种新的索引结构,称为IG-Tree。IG-Tree的每个节点会存储一个关键词的倒排索引,以表示该关键词在这棵子树下可能取得的文本相似性的上界。通过对最佳优先遍历算法的优化,IG-Tree表现出其优秀的剪枝能力和扩展性。
其他文献
胆管癌是一种起源于胆管上皮的恶性肿瘤。根据肿瘤生长的位置,胆管癌可以分为肝内胆管癌和肝外胆管癌[1]。肝外胆管癌又分为上段胆管癌和中、下段胆管癌。上段胆管癌约占肝外
目的:探讨鱼油脂肪乳对重症脑卒中病人康复过程中免疫功能的影响。方法:将86例符合入组条件的重症脑卒中病人随机分为观察组(添加鱼油脂肪乳治疗,n=46)和对照组(常规营养治疗
新时期经济社会的竞争实际上就是高素质人才的竞争,高校图书馆作为传承人类文化和传播知识信息的服务中心,教学和科研的服务基地。大学生的第二课堂,高校的三大支柱之一,在大学生
通过对当前高校开展羽毛球教学当中的师资力量、教学内容、课程设置、器材配备和考核方式等因素的实践调查,分析当前高校羽毛球教学现状当中存在的部分不足,并针对这些不足提出
摘 要 该研究以48名中学生为被试,分别用色块串和色词串为材料,设时间变量(单元)以了解学习的详细进程,研究了中学生颜色内隐和外显学习的特点。结果发现:(1)非言语材料(色块)较言语材料(色词)更适合于内隐加工;(2)时间变量上整体呈递增趋势,称长时功效。内隐学习的长时功效在教学上有重要意义;(3)指导语上存在主效应,内隐学习优于外显学习,即内隐学习在不同材料上的优势效应依然存在。  关键词 内隐
目的探讨成人先天性胆总管囊肿腹腔镜囊肿切除+肝管空肠Roux—en—Y吻合胆道重建微创手术的可行性和近期疗效。方法选择5例成人先天性胆总管囊肿患者(均为女性),在腹腔镜下先行胆
本文通过对格式塔心理学中图底关系理论的解读,分析了颐和园在平面、立面和空间中的图底关系,并试图在图底关系理论和传统园林营造中找到契合点.
2014年11月1日,《中华人民共和国反间谍法》(以下简称《反间谍法》)正式颁布实施了。这是第一部保障反间谍斗争的专门法律。我市各级组织、团体和公民都应做到知法、懂法、用
报纸
随着三维数据采集技术的发展,数字几何数据成为继声音、图像和视频之后的新媒体形式,并在曲面造型、计算机动画与视觉、地理信息系统、物理仿真、虚拟现实、科学计算的可视化
随着CT、MRI等医学断层扫描技术的发展,人体解剖结构三维几何信息能够以医学断层图像的形式很方便地获取。基于医学断层图像进行几何建模与网格生成,在生物医学领域具有重要