论文部分内容阅读
时空数据的有效管理是时空数据建模、时空数据分析和时空数据挖掘的基础。车辆轨迹数据是一种重要的时空数据。车辆轨迹数据不仅是对车辆行驶路径的完整记录,而且可以直观反映交通状况,同时也能直接反映道路网络几何特征。随着各种定位技术和物联网技术的发展,以及车载定位设备广泛应用于各种车辆上,使得车辆轨迹数据的获取难度大大降低,同时也意味着有越来越多的甚至海量的车辆轨迹数据需要管理和分析。这就对车辆轨迹数据的管理方式,以及在此基础上的分析方法提出了更高的要求。传统的单机数据库具有维护、升级成本高等缺点,并且在海量的数据面前已经略显吃力。在这样的背景之下分布式存储悄然而生。本文先介绍了 Hadoop开源分布式生态系统和Hadoop分布式文件系统(HDFS),以及在此基础上的HBase分布式列式数据库。本文使用HBase分布式数据库对车辆轨迹数据进行管理。数据的管理组织形式必然需要考虑应用分析的需求。出行时间预测是智能交通系统的一个重要研究内容。出行时间的预测结果作为一种有效的交通信息,不仅可以帮助交通管理部门控制、调整交通流,而且能帮助出行者更加合理地安排出行计划。本文提出了一种基于Geohash空间编码的可以快速查询拥有相邻近起点和终点的车辆行程集合的行程起讫点数据编码方式,并对这种编码方式的有效性做了实验验证。然后研究了以该编码为HBase行键索引的车辆轨迹数据分布式存储方案,并对海量数据的入库进行了优化,最后对比测试了 HBase分布式存储方案与单机MySQL数据库的数据查询效率,得出在多用户并发环境下,HBase分布式的车辆轨迹存储方案,查询效率更高。为验证本文所提的车辆轨迹数据起讫点编码方法和车辆轨迹数据分布式存储方案的有效性,本文以成都的出租车轨迹数据为例,建立了车辆轨迹HBase分布式数据库,应用上述编码方法对轨迹数据起讫点进行了编码。然后在此基础上,对出行时间进行预测。实验结果表明,本文提出的编码方法易用可行,分布式存储方案检索高效,预测效果良好。