论文部分内容阅读
随着城市汽车数量的急剧增加,城市的交通拥堵问题日益严重,严重影响了人们的日常生活。实时、准确的交通流预测可以为交通的管理和疏导提供依据,从而有效的解决城市的交通拥堵问题。交通流预测是通过对来自数据采集设备的交通流数据进行挖掘,找到交通流变化的内在规律,从而预测出各路段下一时刻的交通流状况。而随着数据采集技术的发展和数据采集设备的广泛应用,城市每天产生的交通数据量急剧增加,如何对海量的交通数据进行有效的处理、分析成为近年来的研究热点。传统的基于单台物理机的数据处理模式,由于受到内存、磁盘、CPU等因素的限制,无法满足对海量数据的存储和处理需求。为了解决单机环境在处理海量数据时处理能力的性能瓶颈,本文利用大数据计算框架在处理海量数据上的优势,提出了一种基于Spark分布式计算平台的短时交通流量预测方法,该方法在保证预测精度的基础上,有效的提高了算法的计算效率,增强了预测算法的实用性。本文的主要工作如下:1、利用交通流的时空特性,提出了一种基于时空关系的交通流特征向量生成方法,实验结果表明,基于时空关系的K近邻(KNN)预测模型的预测精度明显好于基于时间关系的KNN预测模型。2、针对单机环境下处理海量数据时存在的计算性能低、扩展性能差等问题,提出了在Spark平台上对传统KNN算法并行化实现的方法,该方法有效的解决了KNN算法近邻查找过程中搜索历史数据库效率过低的问题,提高了KNN算法的计算效率,改善了KNN算法的实用性。3、选取美国加州PeMS系统的实际交通流数据作为实验数据,以均方根误差、加速比等作为评价指标,在由多个节点组成的分布式集群中对交通流量进行预测仿真,并对算法的预测精度和预测时间进行比较。实验结果表明,基于Spark平台的短时交通流预测,可以在保证预测精度的前提下,满足对海量交通数据的实时处理要求,并且系统具有良好的扩展性和加速比。