论文部分内容阅读
随着城市人口规模的扩大,人们生活节奏的加快,不断增加了人们对出租车的需求。“打车难”成为城市一大通病,在拥堵路段、上下班高峰时段、重要节假日或是遇上恶劣天气,打车更是难上加难。有研究表明,“打车难”很大程度上是出租车相对供给不足所致,表现在出租车绝对供给满足城市规模对出租车保有量的要求,但出现了出租车空驶率居高不下,而人们又打不到车的奇怪的现象,将这种现象称为出租车供需相对失衡。出租车高空驶率不仅会提高出租车司机的运营成本、减少司机收入,而且会占用道路资源,同时还会加重环境污染和能源浪费。出租车相对供给问题是为了解决特定时间和特定地点出租车供给问题,它的本质是乘客和司机信息不对称,它是微观的、动态的。如何解决出租车供需相对失衡问题,避免出租车因盲目空驶浪费资源,通过有效的方式减少乘客和司机的信息不对称,提高乘客打车效率,这是目前政府亟待解决的问题。现在几乎所有出租车上都装有GPS定位设备,形成了大量的出租车轨迹数据,这些轨迹数据中蕴藏大量有价值的信息。本文旨在将空间分析技术与大数据挖掘技术相结合,研究海量出租车轨迹数据预处理方法和数据挖掘方法,发现轨迹数据中潜在的价值。重点从两方面进行了数据挖掘研究:一是研究利用海量轨迹数据计算出租车空驶率的方法,二是从出租车供需关系角度出发,提取轨迹中空驶点、上车点和下车点三类特征点,对特征点进行热点分析,从而分析出租车供需时空特征。以下是本文主要研究的内容:(1)研究Hadoop核心组件及相关技术基础理论:理解HDFS分布式存储的架构和原理,研究MapReduce并行程序抽象模型、程序运行原理以及MapReduce作业流程。熟悉分布式数据仓库Hive和GIS Tools for Hadoop基本框架。(2)研究海量轨迹数据预处理方法:在总结轨迹数据误差分类的基础上,提出了基于Hadoop的出租车轨迹数据预处理模型,该模型基于Hive实现轨迹错误数据统计分析,编写MapReduce并行程序完成小文件合并和错误数据处理。(3)研究轨迹数据时空特征挖掘方法。研究利用海量轨迹数据计算出租车空驶率的方法。围绕特征点热点分析提出分布式特征点提取核心算法和分布式特征点格网统计算法,研究Getis-Ord Gi*聚类算法,通过实验确定Getis-Ord Gi*热点分析工具参数,利用ArcGIS时态数据可视化表示时空热点数据。(4)实例研究。搭建Hadoop集群,对深圳市13799辆出租车9天的轨迹数据进行数据预处理和时空特征挖掘,计算各时段空驶率,分析空驶率时间分布,通过热点分析得到全天各时段空驶热点、上车热点和下车热点,并对热点进一步分析,包括热点宏观分析、热点分区统计分析和热点叠加分析。实验证明,对大规模出租车轨迹数据进行时空特征挖掘,实时动态获取各时间段空驶热点、上车热点和下车热点,从而分析出租车供给和需求在时间上和空间上的差异,可以有效弥补乘客和司机信息不对称,为研究出租车供需相对失衡提供参考。