论文部分内容阅读
近年来,随着城市交通出行需求的快速增长,道路资源的供给逐渐成为交通运行的瓶颈,交通拥堵日益严重。道路行程时间是反映道路交通运行状态的重要参数,道路行程时间预测可以为交通管理措施制定和公众出行提供参考。为缓解快速增长的出行需求和有限的道路资源供给之间的矛盾,提高路网运行效率,本文以道路行程时间为研究对象,针对单机串行的海量轨迹挖掘效率低下的问题,利用Spark大数据处理平台,提出并行化的道路行程时间提取和道路行程时间预测方法,实现道路行程时间及时、准确地获取和预测,以便科学有效地制定交通管理措施,并为出行者的出行路线决策提供参考。由于单机的数据容量和数据处理能力有限、难以扩展,串行的轨迹数据挖掘效率低下,本文首先对大数据处理平台进行分析,基于HDFS的高可用、低成本、易扩展的特性和Spark的数据重用及并行化执行机制,从数据存储、数据处理、数据应用三个层面构建了大数据处理平台。其次,针对传统的道路行程时间预测方法不能有效地考虑道路行程时间的影响因素、不能充分挖掘道路行程时间序列内部关联的劣势,提出了基于长短期记忆网络(LSTM)的行程时间预测方法。本文选取了行程时间的主要随机性影响因素(降水类型、降水量、风速、气温、能见度)构造特征向量,优化选择LSTM网络参数,构建基于LSTM的道路行程时间预测模型。最后,以滴滴公布的网约车轨迹数据为实验数据,利用Spark大数据处理平台,采用数据并行化和任务并行化的策略,对海量轨迹数据进行了挖掘、分析,实现了行程时间预测的并行化方法。实验结果表明:本文构建的Spark大数据处理平台能够迅速、准确地从海量轨迹数据中提取出道路行程时间并进行道路行程时间预测。本文提出的行程时间预测模型的平均相对误差为0.071,显著优于ARIMA模型和随机森林模型;道路行程时间提取和预测的并行处理比串行处理效率明显提高,平台具有良好的可扩展性和加速比。本文提出的方法能对道路行程时间实现快速、准确地提取与预测,有助于解决道路拥堵问题,对实现高效、环保的城市交通环境具有一定的意义与价值。