空间文本数据的查询处理技术研究

来源 :清华大学 | 被引量 : 0次 | 上传用户:skoda0412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着GPS技术的快速发展和移动智能设备的日益普及,出现了越来越多的基于地理位置的服务(LBS)。这些服务产生了大量的空间文本数据,既包括空间地理位置,又包括文本描述。这给传统的以文本型数据为主的查询处理技术带来了极大的挑战,主要体现在两个方面:(1)查询效果的好坏通常与底层数据的质量密切相关,针对空间文本数据,如何有效的从多个数据源获取数据并去除其中冗余的部分。(2)在处理各类查询请求时,如何充分的利用空间坐标和文本关键词来优化查询算法,提高搜索性能。本文的主要研究内容及贡献点如下:1.空间文本数据的融合:传统的数据融合算法只针对纯空间数据或者纯文本数据。为了解决这个问题,本文提出一种基于混合前缀签名的融合技术。一方面,针对空间部分,设计最小包围矩形(MBR)前缀剪枝算法,利用空间相似性阈值,为每条数据选取特定的子区域来产生空间签名,由于该区域远远小于原有MBR,因此能够更快速的定位到候选数据;另一方面,设计混合前缀签名算法,通过合并非频繁的关键词来增加索引利用率,并根据关键词的地理分布特点产生不同的空间划分,最后自适应的结合空间和文本前缀来产生混合签名,加强剪枝能力,快速的找到在空间和文本上都非常相似的数据。2.空间文本数据的Top-k检索:传统的Top-k检索算法没有针对文本部分进行优化。为了解决该问题,本文提出一种基于划分的检索算法。它利用TA的思想,增量的找到当前空间相似性最高或文本相似性最高的数据,并动态的合并它们得到候选结果。在建立索引时,按照空间区域和文本相似性区间将数据划分成桶,以桶为整体估计数据的相似性,在每个桶内部搜索Top-k结果并进行合并。通过这种方式,优先定位到相似度高的桶,避免访问大量的无用数据。3.空间文本数据的Top-k近似检索:传统的Top-k近似检索算法不能同时支持“字符级别的容错”和“Top-k”这两种需求。针对该问题,本文设计一种混合型层次索引结构(HLtree)。它能够根据数据分布动态的选择路标,并利用路标来指引数据进行层次划分,保证同一划分内的数据在空间和文本上彼此接近。为了支持多关键词检索,算法增量的找到与每个查询关键词相近的数据,并按照一定策略进行合并。此外,为了避免依次计算数据与路标之间的相似性,算法设计了字符删除策略,利用索引结构来产生数据划分,加速建立索引和查询处理的过程。
其他文献
高校成教是提升成人文化素养,对成人进行再教育,培养现代化建设人才的重要阵地。一直以来,国内的大多数高校都忽略了成教学籍档案的管理工作,在很大程度上阻碍了成教学籍档案管理
在用塔机的剩余寿命估算是塔机安全使用和定期检测的依据。本文提出一种基于塔机设计规范的反推算法,简便、实用,可用来对塔机的剩余寿命进行估算。
施工升降机是高层建筑施工中重要的垂直运输设备之一,其运行状况的好坏直接影响施工进度.传统的施工升降机由于运行速度单一,存在以下几个主要问题:(1)起制动过程中加速度过
早期胃癌患者淋巴结转移率较低,所以对其实施标准胃癌根治术可能造成“过度治疗”,影响患者预后.为此,我们需要一种减小侵犯的,提高生存质量的个体化手术,而前哨淋巴结(sentin
目的探讨临床快捷路径应用于宫外孕并休克患者术前急救阶段的效果。方法根据入院时间将63例患者分为2组,实验组33例,采用临床快捷路径施护;对照组30例,予常规护理。比较2组患
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
现代化的图书馆管理不仅仅要满足人们基本的图书借阅需求,在提供的信息范围、深度、便捷程度上更要提升,从而满足不同群体的实际需求,紧跟时代发展脚步,满足时代发展需要。不仅在
目的 探讨落新妇苷对大鼠肝脏缺血再灌注损伤的保护作用。方法 SD大鼠,分为Sham组(假手术组)、HIRI组(缺血再灌注组)、落新妇苷(低剂量组、中剂量组、高剂量组),建立大鼠肝脏缺血再
期刊