论文部分内容阅读
交通旅行时间的均值、方差、分位点等参数是评价交通出行稳定性的重要指标。然而针对原始数据以可交互的速度聚集查询得到这些指标并不容易。由于交通数据的海量特点,其中混有大量的不利于计算交通旅行时间的脏数据,分离它们费时费力;同时交通数据混有不能反应交通路况的噪音数据。因为交通旅行时间在一天不同时刻具有可变性的原因,不能简单以阈值的方式分离它们,交通旅行时间评价在必要时也涉及单独或综合考虑交通车辆类型(私家车、出租车和公共汽车)的因素。这些问题的存在导致了交通旅行时间数据信息服务价值的利用程度很低。针对上述问题,首先提出了交通旅行时间概率密度特征提取模型。它在分离出脏数据的基础上利用噪音数据的长尾分布等特性,通过有限对数正态分布混合模型以密度分支形式实现了对交通旅行时间数据观测点的聚类分组以及对有效数据和噪音数据的区分,也实现了对不规则交通旅行时间概率密度形状的定量描述,进而依据密度分支参数并结合聚类分组的数据量形成分时间段的交通旅行时间特征向量。特征向量作为交通旅行时间概率密度特征提取模型的输出值被长期存储。在此基础上,提出基于特征向量的交通旅行时间聚集查询指标计算方法。以针对跨时间段数据的聚集查询,该方法可根据不同时间段的特征向量,按时间段数据量比例形成特征随机数据来代表相应原始数据的概率密度分布特性,从而得到相应的聚集查询指标值。交通旅行时间概率密度特征提取模型和基于特征向量的交通旅行时间聚集查询指标计算方法,能在不依赖交通旅行时间原始数据的情况下基于特征向量以可交互的速度计算得到均值、方差、分位点等指标的近似值。同时,因为分析结果包括不同车辆类型、不同时间段交通旅行时间数据观测点特征向量,且特征向量中同时保有有效数据和噪音数据特征值,从而可以完成多类型数据组合计算。研究成果对于提升交通旅行时间数据价值具有积极意义。