论文部分内容阅读
近几年,打车软件日益盛行,行车记录仪的普遍化,为了能快速响应用户的打车需求,也为了能获取行车记录信息协助案件侦破,交通车辆的邻近查询成为解决上述需求的关键。交通车辆的邻近查询可描述为在海量交通数据下,求在时间段T内某一区域内车辆或距地点A最近的N辆车的查询问题,由于交通数据的海量性和时空性,可将问题进一步抽象为海量时空数据下的时空检索问题。针对时空检索问题目前提出的解决方法,大多使用R树、K-d树或四叉树和倒排表相结合的混合索引结构对时空对象进行索引,以此为时空查询提供支持。然而上述索引方案大多基于关系型数据库,如Mysql、Oracle等,而传统的关系型数据库无法有效地对海量数据进行管理,并且内存式索引结构在数据量较大的情况下将会发生频繁的磁盘读写,大大降低了索引的性能。为了解决海量时空数据的检索问题,需要有一套完备的时空数据存储和处理机制。 本文在大量调研工作的基础上,鉴于HBase在大数据管理方面的优良表现,提出了HBase的时空索引设计方案,并将其应用于交通车辆的邻近查询中。本文的主要创新点如下: 1.利用开源的Geohash创建HBase的空间索引,并设计“构建最优Geohash前缀检索集合”算法,提高空间检索效率。 2.汲取多个方案的失败经验,借鉴Geohash的降维思想,在已有的HBase空间索引的基础上,将时间打散并与时空对象的空间描述的Geohash编码再次进行交叉编码,平衡时间和空间在时空查询中的权重,构建HBase一维时空索引,并给出详细的构建步骤。 3.本文设计的HBase时空索引只是数据层面的变换,并未对HBase系统做任何的修改,实现了对原系统的零侵入性。 4.基于HBase时空索引,与实际问题相结合,设计了“基于HBase时空索引的范围邻近车辆查找算法”和“基于HBase时空索引的K近邻车辆查找算法”,并进行实际地系统研发,解决交通车辆的邻近查询问题。 通过实验证实,在数据规模较大的情况下该方案具有较高的查询效率,在海量时空数据的邻近查询上具有一定的应用价值。