基于Hadoop的出租车数据质量分析与处理

来源 :武汉理工大学 | 被引量 : 8次 | 上传用户:y31aaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深圳市通过智能交通系统(Intelligent Transportation System,ITS)建设,建立了智能交通公用信息平台,信息平台每天采集到海量的交通数据,这些数据蕴含着丰富的交通信息。高质量的交通数据是ITS做出正确决策的保证,然而,实际的交通数据采集过程中,由于设备故障、外界环境干扰、人为操作失误等多种因素的影响使得获取的原始数据不可避免地存在丢失、冗余等质量问题。本文结合项目需求,采用基于Hadoop搭建的云计算平台对深圳市海量出租车数据进行数据质量分析,并面向数据质量进行数据处理,主要工作包括以下几个方面:(1)研究国内外学者数据质量评估和数据清洗方面取得的成果与不足,并在此基础上引出本文的研究内容。(2)根据项目需求设计了基于决策学中层次分析法结合历史数据的评价体系,利用层次分析法计算评价指标权值并以历史数据的期望为基准得到数据质量分数,将数据质量问题量化,直观的反映数据质量状况。(3)针对深圳市出租车数据特征提出了GPS数据和营运数据质量评价方案,首先找到影响数据质量的主要因素,确定各自的评价指标,然后针对数据集中存在的冗余、不完整和错误数据,提出相应的评价规则算法判断是否符合条件。(4)面向深圳市出租车数据质量分析结果,提高数据质量。重点研究了重复数据清洗技术,提出了基于MapReduce的分块去重算法删除重复数据。然后分别对GPS数据和营运数据提出了基于Hadoop平台的出租车数据清洗方案,数据清洗方案主要针对数据不完整、冗余和错误的质量问题,将传统的清洗技术迁移到云平台。(5)将清洗后高质量的GPS数据应用于出租车停靠点研究,提出了基于DBSCAN的停靠点检测算法,从非载客的轨迹数据中找到出租车停靠点,检测算法主要分为三个步骤:候选点获取,候选点过滤和停靠点候选点聚类。候选点的获取是根据候选点检测算法,然后利用时间和空间属性对候选点过滤,最后分析各种聚类算法优缺点,选择DBSCAN聚类算法进行停靠点聚类。通过建立的数据质量评价体系,对出租车的GPS数据和营运数据质量进行评估,最终得到两个数据集的数据质量得分,能够直观的反应数据质量的好坏,为后面的清洗任务提供依据。根据数据质量评价结果研究相应的数据清洗方案,能够有效的提高了数据质量,为ITS做出正确的决策提供支持。根据清洗后的数据研究出租车停靠点,有助于城市管理人员更好的了解出租车驾驶员情况,对司机寻找乘客也有指导意义。
其他文献
前言 大肠癌是发病率最高的恶性肿瘤之一,在我国已位居第四位,死亡率呈逐年上升趋势。探讨有效的诊断和治疗手段是大肠癌研究的重要课题。近年来以单克隆抗体(单抗)作为载体
脱扣器是供电系统中最重要的电器之一,为了保护电力系统和用电设备,智能脱扣器需具有电力电路接通和分断能力、故障诊断和智能保护功能、电网运行的远程网络监控和集中管理等
虚拟加工过程仿真是虚拟制造的底层关键技术,在虚拟制造中占有重要地位。它通过对机床-工件-刀具构成的工艺系统中的各种加工信息的有效预测与优化,为实际加工过程的智能化实
<正> 1957年七、八月份,痢疾曾在我沈阳驻军单位广泛流行,较之1956年同时期约高出10倍左右,我院当时曾对痢疾流行原因进行初步调查并作出如下估计:即部队中痢疾所以常年流行
<正> 我们利用针灸治疗急性细菌性痢疾,经15例的临床观察,疗效十分满意,14例治愈,一例因症状发展,并用药物治疗。症状消失平均数为5-6天,平均住院日为11.5天。1.取穴:天枢、
超载是我国交通运输行业面临的焦点和难点之一,长期困扰着我国运输行业的快速持续发展。构建一个三方动态博弈模型,研究国家、检查部门以及货运企业三者之间的利益分歧,得出监督
有机共轭化合物的分子结构易于设计,使得其性能具有可调性。因此,有机共轭化合物在作为功能材料方面具有很好的发展与应用前景。为了发展新型有机共轭化合物,研究其作为功能
本文通过改质93#汽油增产丙烯的催化裂化反应对实验室合成的纳米ZSM-5催化剂进行了评价,研究了反应温度对催化剂在增产丙烯、降低烯烃含量、增强烷烃异构化和芳构化方面活性的
介绍了养殖肉兔的好处和市场前景。
由于路货买卖中风险转移的特殊性,大多数国家立法都对此予以回避.目前只有<联合国国际货物销售合同公约>,我国<合同法>、<澳门民法典>、<意大利民法典>、<俄罗斯民法典>对此