论文部分内容阅读
位置服务的广泛应用,已经为科研提供了大量人类基础轨迹数据,一些位置服务系统每天产生的轨迹数据可以达到TB甚至PB,与此同时位置服务业务应用的多样性导致数据的格式不一致(例如GPS数据、手机数据等),所以在对位置服务数据进行多维度检索时需要克服的困难还不只是数据量大、响应时间快还有必须考虑业务数据的半结构化。本文对现有的位置服务数据和6种检索方式提出了形式化定义。首先对位置服务数据提出了形式化的定义,并基于此选择了点对点、点对轨迹、轨迹对轨迹的空间测量标准;然后提出六种检索方式。针对轨迹识别率低的问题提出了Map/Reduce模式下的MultiLayer的时间索引算法,同时从索引的结构定义、存储模式以及原子操作三方面说明了多维度索引机制下的分布式定义与操作,其中详细阐述了特定的索引构建和检索操作。结合Multi_Layer算法和HBase中的索引机制提出了一种Map/Reduce模式下的多维度检索框架。通过实验的比对,新建立的多维度索引框架对TB/PB级位置服务数据的三个维度的(经纬度范围、时间段、车辆编号)检索速度可以达到秒级响应。综上所述,本文提出了MapReduce模式下位置服务数据多维度索引方法,以实现TB/PB级位置服务数据的实时查询需求,包括:分布式索引的定义与操作;如何应用该索引来实现位置服务数据相关查询语句;以及应用实例与对比实验。但是在搭建基于Hadoop的检索框架的过程中对时间维度和空间维度两者索引结合的算法没有进一步讨论,在响应时间方面还有改进空间;另外由于时间的原因无法对更多的类型的位置服务数据进行测试,只是针对两个月的GPS的轨迹数据进行试验性能的对比,进一步要对手机、pad等移动终端轨迹数据进行测试。