论文部分内容阅读
随着城市的日益发展,人均出行量的增多,交通的拥挤问题也越来越严重。现阶段虽然已有大量成熟的交通系统来缓解交通压力的问题,但伴随着交通大数据的到来,传统的交通系统对于处理海量的异构数据,不论在存储上还是查询和处理上都已经存在瓶颈,基于此,本文设计并研发了基于大数据的智慧出行平台,使能更好地服务于智慧交通领域。针对传统交通系统的不足之处,本文的主要工作主要从系统性能、数据共享、查询优化和数据挖掘四方面展开,具体如下:(1)在应对公交数据增量大的情况下,借助Hadoop、Spark、Hbase、Flume等技术设计其大数据平台,完成对异构数据的采集和处理;针对各类数据的特性和使用方式的不同,设计采用Redis存储实时数据,非关系型数据库Hbase和分布式文件系统HDFS存储离线数据;使用Kafka消息队列消除上下级消息处理速度的不平衡,保证了系统的稳定性和健壮性。(2)利用前置机抽取的方案,将各业务系统的数据按照压缩格式抽取到其各自的前置机中,通过发布订阅的方式,完成各业务系统之间的数据共享和交换。(3)针对此平台的数据仓库建设中出现的调度任务执行慢的问题,本文提出利用Spark SQL代替之前的Hive SQL和分区优化的方案,并各自进行性能对比实验,确定了最终的技术选型,并经实验表明本文提出的优化方案可以缩短调度任务的执行时间,有效提高了查询效率。(4)本文通过研究影响公交客流量的因素,设计了在Hadoop平台下基于神经网络的客流量预测模块,并利用实验表明了该算法在Map Reduce的并行处理下弥补了效率低的缺陷,提升了客流量预测的时效性,满足了对公交大数据处理的需求。经实践证明,此平台满足了社会公众的绿色出行服务和企业、政府对公交车辆科学管理、监控、调度等需求且能在高并发数据增量大时完成秒级的事务响应,对河南省的公共出行平台的研发具有很好的指导作用。