论文部分内容阅读
随着城镇化进程的推进,我国城市道路交通系统的运行状况日益恶化,不仅损害了交通参与者的出行效率,而且造成了日益严重的环境污染,极大了损害了人们在城市中的生活品质。为了解决这些问题,城市路网中全面、准确的道路交通信息至关重要。作为一种极为重要的交通基础信息,行程时间最能直接反应道路交通的运行状态,受到了人们的广泛关注。准确、可靠的城市路网行程时间是智能交通系统(Intelligent Transportation System,ITS)的重要基础,在城市交通规划、交通运输管理的各个方面都发挥着极为重要的作用,对提高交通系统运行效率、缓解城市交通拥堵具有重要的指导意义。然而,由于城市交通系统的复杂性,城市路网中的行程时间受到内在与外在因素的综合影响,具有显著的内在不确定性,城市路网行程时间的准确估计与预测是一项极具挑战性的任务。随着信息技术与智能交通系统的发展,交通数据的采集方式日益丰富,交通已经从一个数据匮乏的时期进入到大数据时代。日益剧增的海量数据蕴含了大量的信息与知识,为城市路网中复杂交通问题的解决提供了更多可能的途径。如何从海量的数据中挖掘知识,以此对城市路网的行程时间进行准确地估计与预测是交通研究的热点与难点。顺应这种趋势,本文以城市路网行程时间为研究对象,从数据的角度出发,在海量数据分析的基础上,对大数据环境下数据驱动的城市路网行程时间估计与预测方法进行研究,以此提高行程时间估计与预测方法的有效性与准确性,为提高城市交通系统运行效率、缓解城市交通拥堵提供有效的数据支撑,具有重要的理论价值与实践意义。针对上述研究目标,本文主要的研究工作及创新之处体现在以下几个方面。(1)海量稀疏GPS数据处理方法基于出租车的浮动车GPS数据通常具有规模大、数据稀疏等特点,并且数据的质量容易受到外界因素的影响。为了解决上述问题,本文对基于海量稀疏GPS轨迹数据的行程时间提取处理方法进行了深入研究与改进。针对GPS数据可能存在的数据误差,从采样时间间隔、瞬时行驶速度、车辆停留时间、空间位置漂移等多个角度提出了相应的数据预处理措施,以此提升数据的质量。为了从稀疏的GPS数据中获取行程时间,对基于GPS数据的行程时间提取处理方法进行了研究与改进,包括GPS数据地图匹配、稀疏数据路径推导与路径行程时间分配。为了获得更好的GPS数据地图映射结果,采用了一种基于隐马尔科夫模型HMM的地图映射方法。在此基础上,利用改进的局部区域Dijkstra最短路径搜索算法对稀疏GPS数据点之间的车辆行驶路径进行推导与重构。最后,利用Hellinga算法将GPS数据点之间的路径行程时间分配至构成该路径的所有路段上。通过上述数据处理方法,能够实现基于GPS轨迹数据的行程时间提取,为后续的行程时间估计与预测研究提供了数据基础。(2)基于稀疏GPS大数据的城市路网行程时间估计方法基于GPS数据的城市路网行程时间分析存在多个方面的挑战,包括GPS数据稀疏、交通状态波动、网络级建模困难等。针对上述问题,本文引入张量建模的思想,提出了一种基于稀疏GPS大数据的城市路网行程时间估计模型。该模型是一种数据驱动的时空关系模型,由地图匹配、路网行程时间建模,概率行程时间聚类以及基于张量分解的行程时间估计四个主要部分构成,不仅考虑了行程时间在不同路段上的空间相关性,而且考虑了不同交通状态下行程时间的差异性,同时还考虑了行程时间在当前时间段内的细粒度时间相关性以及行程时间在当前时间段内与历史行程时间内之间的粗粒度时间相关性。以海量出租车GPS轨迹数据为基础,在北京城市路网中进行实例研究的结果表明,新模型不仅能够获得当前时间段内路网中不同路段在不同交通状态下的行程时间,而且能够获得路段上对应交通状态的发生概率。与其他方法相比,新模型不仅能够对更多的缺失行程时间进行估计,而且能够获得更高的行程时间估计精度,同时具有对模型参数较好的鲁棒性。(3)基于贝叶斯概率张量分解的城市路网行程时间估计方法针对复杂城市交通环境下行程时间的不确定性与驾驶员之间的差异性等问题,本文引入概率建模的思想,提出了一种基于贝叶斯概率张量分解的城市路网行程时间估计方法。该方法将不同时间段内不同驾驶员在路网中不同路段上的行程时间构建为三阶张量。考虑到城市路网中道路上行程时间的不确定性,该方法在概率建模的基础上,将张量中的每个元素构建为一个服从对数正态分布的随机变量。通过完全贝叶斯处理,该方法能够实现模型超参数的自动调优与模型复杂度的自动控制,有效地避免了模型在使用大规模稀疏数据情况下容易出现的过拟合问题。提出的新方法是一种上下文感知的时空关系模型,不仅考虑了行程时间在不同路段上的空间相关性,而且考虑了不同驾驶员行程时间之间的差异性,同时还考虑了行程时间在相邻时间段内的细粒度时间相关性以及行程时间在当前时间段内与历史时间段内的粗粒度时间相关性。基于海量GPS数据的实际案例研究结果表明,该方法能够在不产生过拟合的基础上,以较高的精度对路网中的行程时间进行估计,估计精度对模型参数的初始化不敏感,具有较好的模型鲁棒性。(4)基于深度学习的城市路网行程时间预测方法针对现有行程时间预测方法存在的浅层模型表达能力有限、缺乏对环境特征的考虑等问题,本文提出了一种融合环境信息的城市网络级行程时间预测深度学习模型。该方法以提取的道路特征、环境特征、时间相关特征与空间相关特征等行程时间影响因素数据为基础,将行程时间预测问题建模为一个数据驱动的机器学习问题。以稀疏降噪自动编码器为基本元件构建了一个深度网络,以此对城市路网中高度复杂的行程时间进行更好地描述。为了对深度网络进行有效地学习,以贪婪学习为基础设计了一种逐层预训练的半监督深度网络训练方法。提出的新模型是一种深度学习模型,不仅考虑了路段特性与周边环境对行程时间的影响,而且考虑了行程时间在不同路段上的空间相关性与在不同时间段内的时间相关性,能够对大量无标签数据中包含的信息进行充分提取与利用,以一种无监督的方式逐层自适应地学习用于行程时间预测的特征,对交通中复杂的非线性现象具有强大的建模能力。以北京城市路网为例进行研究的实验结果表明,提出的深度网络能够从海量噪声数据中充分提取与利用有用信息,以较高的精度对行程时间进行预测,具有较好的模型稳定性与扩展性,与其他方法相比具有一定的优势。