论文部分内容阅读
深圳市通过智能交通系统(Intelligent Transportation System,ITS)建设,建立了智能交通公用信息平台,信息平台每天采集到海量的交通数据,这些数据蕴含着丰富的交通信息。高质量的交通数据是ITS做出正确决策的保证,然而,实际的交通数据采集过程中,由于设备故障、外界环境干扰、人为操作失误等多种因素的影响使得获取的原始数据不可避免地存在丢失、冗余等质量问题。本文结合项目需求,采用基于Hadoop搭建的云计算平台对深圳市海量出租车数据进行数据质量分析,并面向数据质量进行数据处理,主要工作包括以下几个方面:(1)研究国内外学者数据质量评估和数据清洗方面取得的成果与不足,并在此基础上引出本文的研究内容。(2)根据项目需求设计了基于决策学中层次分析法结合历史数据的评价体系,利用层次分析法计算评价指标权值并以历史数据的期望为基准得到数据质量分数,将数据质量问题量化,直观的反映数据质量状况。(3)针对深圳市出租车数据特征提出了GPS数据和营运数据质量评价方案,首先找到影响数据质量的主要因素,确定各自的评价指标,然后针对数据集中存在的冗余、不完整和错误数据,提出相应的评价规则算法判断是否符合条件。(4)面向深圳市出租车数据质量分析结果,提高数据质量。重点研究了重复数据清洗技术,提出了基于MapReduce的分块去重算法删除重复数据。然后分别对GPS数据和营运数据提出了基于Hadoop平台的出租车数据清洗方案,数据清洗方案主要针对数据不完整、冗余和错误的质量问题,将传统的清洗技术迁移到云平台。(5)将清洗后高质量的GPS数据应用于出租车停靠点研究,提出了基于DBSCAN的停靠点检测算法,从非载客的轨迹数据中找到出租车停靠点,检测算法主要分为三个步骤:候选点获取,候选点过滤和停靠点候选点聚类。候选点的获取是根据候选点检测算法,然后利用时间和空间属性对候选点过滤,最后分析各种聚类算法优缺点,选择DBSCAN聚类算法进行停靠点聚类。通过建立的数据质量评价体系,对出租车的GPS数据和营运数据质量进行评估,最终得到两个数据集的数据质量得分,能够直观的反应数据质量的好坏,为后面的清洗任务提供依据。根据数据质量评价结果研究相应的数据清洗方案,能够有效的提高了数据质量,为ITS做出正确的决策提供支持。根据清洗后的数据研究出租车停靠点,有助于城市管理人员更好的了解出租车驾驶员情况,对司机寻找乘客也有指导意义。