交通一卡通数据清洗方法研究与实现

来源 :广东工业大学 | 被引量 : 1次 | 上传用户:a103582412
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,随着“绿色出行,低碳环保”理念深入人心、公共交通行业的蓬勃发展以及全国一卡通的迅速推广,交通一卡通的发行量越来越大,现阶段城市交通一卡通已经产生了海量的数据。若能将这些零散的数据聚集起来,从中挖掘出有价值的信息,并利用这些有价值的信息去解决公共交通领域的瓶颈问题,这便是把大数据技术应用到公共交通领域的意义所在。由于受到各种复杂因素的影响,采集得到的交通一卡通数据或多或少都存在数据质量问题。若这些问题得不到足够重视,就会对后期的数据分析以及数据挖掘的结果产生不可估量的影响,从而极大地降低数据的可靠性。所以,研究交通一卡通数据清洗方法的意义重大。交通一卡通数据中通常存在数据缺失、记录重复、数据错误等数据质量问题,而本文关注的重点是交通一卡通数据中的离群点数据。由于传统小规模交通一卡通数据的清洗、存储和分析技术不再适用于海量数据的处理,因而本文首先引入了Spark分布式计算框架。利用Spark基于内存计算的特点,能够极大的提升大数据环境下数据清洗的效率。针对交通一卡通数据量大、数据属性较多、数据类型多样等特点,提出了一种K-means聚类算法与局部离群因子检测算法(Local Outlier Factor,LOF)相结合的离群点检测方法(Clustering-based and LOF Outlier Detection Method,CLOF),即CLOF方法。考虑到LOF算法在计算数据对象离群因子时必须不断地对数据集进行遍历,而实际上,交通一卡通数据中绝大部分数据对象不是离群点。因此,本文利用K-means算法先将数据集进行分类,再将类中心周围离群点可能性较低的数据点进行剪枝操作。这样做的目的是先剔除一部分不含离群点的数据集,再去计算剩下疑似离群点的局部离群因子,从而极大地降低计算的时间复杂度。基于此,本文最终提出了在Spark分布式集群上并行化CLOF算法的数据清洗方案。实验表明,在同样的实验条件下,CLOF算法的检测精度与经典的LOF算法相比有所提升,而在算法检测误差率上CLOF算法的误差率更低;另外,在算法运行时间上CLOF算法远少于LOF算法。同时,实验验证了Spark分布式集群在处理大数据集时具有优越性,在Spark分布式集群上并行化CLOF算法的数据清洗方案具有很强的可扩展性。
其他文献
随着通信技术的发展,MIMO技术得到广泛关注,并被引入雷达研究领域。MIMO雷达技术的研究逐渐成为雷达研究领域的重要分支,随着研究的雷达系统模型越来越庞大,雷达接收信号的组
随着交通和信息科技的进步,汽车的智能化已经成为行业发展的趋势。无人小车作为研究智能驾驶的重要工具,能够在有效感知环境的基础上,在各种场景进行应用。目标识别技术隶属
双相不锈钢是由具有体心立方(bcc)结构的铁素体相和面心立方(fcc)结构的奥氏体相组成的复相金属合金材料。近年来Mn-N节约型双相不锈钢开始大量出现并迅速得到应用,以Mn,N代替Ni在降低成本的同时会降低不锈钢中奥氏体稳定性,使其在变形过程中产生TRIP效应,从而提高塑性。TRIP效应在奥氏体母相中产生,因此,理清奥氏体相特征对TRIP效应的影响至关重要,这不仅可以揭示TRIP效应作用机理,还能
保护未成年人合法权益,关注未成年健康成长,是一个国家和民族可持续健康发展的重要任务。未成年人保护工作是一项涵盖了司法保护、社会保护、学校保护和家庭保护等各方面,需
极化码是一种理论上可以达到香农极限的信道编码方案,因其具有优秀的译码性能而被广泛的研究。在第五代移动通信系统(5th Generation of Mobile Wireless System,5G)中,极化
我国当前正在积极大力推进医药分开和处方外流的改革,将原属于医院的药事服务下放到社会药店,旨在切断错综复杂的医药利益关系链、减少患者排队拿药时间,是剂治疗“看病难”
目录一、引言二、新型全球化的有效推进方案三、"一带一路"建设面临的机遇和挑战四、CCG有关深入推进"一带一路"国际合作共赢的二十条路径建议五、附录:CCG"一带一路"专题研
会议
细胞芯片是指含有二维(2D)或三维(3D)培养细胞的芯片型微反应器,主要包括带有灌流装置的微流控细胞芯片和非灌流细胞芯片(non-fluidic cell chip,例如静态培养的微孔和微阵列细胞芯片)。在众多材料中,水凝胶作为“软而湿”的材料,与人体组织器官的物理特性最为接近,因此成为细胞芯片构建材料的最佳选择之一。然而,传统的水凝胶在水溶液中会发生显著甚至严重的溶胀,一方面大大削弱了其机械性能
在移动互联网快速发展的背景下,新兴商业模式随着技术的发展不断涌现,商业模式价值与地位不断提升,然而与此同时,涉及商业模式的侵权行为也不断增多,既损害了商业模式所有人
Metropolis光线追踪算法是一种基于马尔可夫蒙特卡罗的无偏的全局光照算法,在一些复杂的光照场景中有很高的路径搜索效率,其渲染效果好且鲁棒性强。但是在局部明暗混合位置Metropolis算法会出现采样数量和光照分布不对称的问题,此外在采样过程中忽略了像素内的噪声水平对渲染结果的影响。这些特点都会导致最终渲染图像局部细节位置采样逼真度不够。因此,递进地提出了三种改进方案。第一种是在相对宏观的角度