论文部分内容阅读
随着我国城市化进程加快,人们物质生活水平提高,城市面临更多的问题。而基于大数据的城市计算成为研究城市发展状况的新兴学科,城市中越来越多的信息,可以通过数据挖掘获得,如交通数据、人口数据等,这些数据能够让决策层做出更合理的决策,从而缓解城市出现的各种问题。 本文依托于深圳市“交委会”及深圳市房地产研究中心的研究项目,主要分析深圳市各区域客流量,以及公交车、出租车、地铁三种交通工具的客流分担情况。目前结果已经提交房地产研究中心,该中心将区域交通流量数据和其它数据结合,评估区域房产价格,涉及的主要工作有以下几个方面。 首先设计了一种无损数据清洗框架,并用该框架实现了对公交车、出租车、地铁等交通数据的清洗。它将不合格数据与合格数据分开存放,而不是如传统 的清洗方案把不合格数据直接丢弃。保存不合格数据具有很多好处,如查找不合格数据产生的原因、统计不合格数据量等。同时还添加了报警部分,当清洗后的数据没有达到预设的标准时,会自动触发报警,给相关负责人发送邮件,直到问题解决,报警才会解除。还设计了基于公交车 GPS数据的活跃公交检测模型,该模型能够检测异常公交车和活跃公交车,已经投入使用。 其次,使用两种方法对深圳市进行分区,一种方法是利用 Voronoi多边形原理,以深圳市的公交站点为离散点设计了基于 Voronoi多边形的分区方法。另一种方法是利用深圳市的矢量路网信息,构建深圳市路网图,采用路径搜索算法寻找路网图中的封闭区域,实现基于矢量路网的分区方法,并对比了两种方法的分区效果,分析了它们的使用场景。 最后基于时刻匹配法使用深圳通IC卡刷卡数据和公交车进站数据实现了公交车 OD矩阵的计算、使用出租车营运数据和出租车 GPS数据完成了出租车OD矩阵的计算、使用深圳通 IC卡数据计算地铁 OD矩阵,并设计了基于距离和 POI吸引权值的地铁站点流量到区域流量的映射模型,将地铁站点流量转化为区域流量。基于区域流量分析了几个代表区域如机场、火车站、商业娱乐区、工作地等区域三种交通工具的客流分担情况。 工作的创新性主要在于数据清洗框架的设计,报警模块的设置提高了系统的鲁棒性和工作人员效率,数据质量出问题可以立即响应,具有很强的应用性。