论文部分内容阅读
摘要:公路交通流量据作为动态交通信息的主体,其采集和应用发展迅速。随着数据采集与检测技术、通讯技术,大数据存储、处理技术快速发展,但因设备老化,传输网络不稳定,设备故障以及间隙式设备采集不准确等原因造成数据丢失或错误,针对此问题对自动化设备采集的连续式交调数据进行数据修正。
关键字:连续式交调 三次拉格朗日差值多项式 异常数据
近年来,公路交通流量据作为动态交通信息的主体,其采集和应用发展迅速。随着数据采集与检测技术、通讯技术,大数据存储、处理技术快速发展,交通量调查已经实现了由传统的人工采集为主导向自动化连续式采集为主导的转变。但是,连续式调查数据受设备老化,传输网络不稳定,设备故障发现和维修不及时, 供电异常等因素影响,采集得到的交通情况调查数据不可避免的存在错误及丢失等质量问题。采用存在质量问题的数据开展交通应用,将给应用结果带来众多隐患。因此,对自动化设备采集的连续式交调数据进行数据修正具有重要意义。
一、存在质量问题数据分类
连续式交调数据质量问题大致可分为三类:丢失数据、失真数据、错误数据。
二、数据修正方法
本研究提出一种采用三次拉格朗日差值多项式进行异常数据修正的方法。
(1)异常数据的判别
在正常交通状态下,网络交通流的变化是一个平稳的随机过程,流量数据的幅值应该在某一区间内变化,但是当道路中出现交通事件时,流量数据与正常情况下的数据之间会出现很大的偏差。本研究采用t 时段之前n(n=12)个数据的平均值q平均和方差σ来识别此类数据故障。
当q平均-2σ≤ Q ≤q平均+2σ时,认为流量数据是正常的,否则认为数据为异常数据。
(2)异常数据修正
若异常数据为某周一t时刻数据,则数据源选择历史最近周一t时刻邻近相关时间序列正确数据作为数据来源进行插值计算。
其中t0、t1、t2、t3分别历史最近周一对应t-2、t-1、t+1和t+2时段的位置;q(t0)、q(t1)、q(t2)和q(t3)分别为各时段对应的交通流量。
三、以某连续式观测站数据为例进行修正方法验证
本研究首先将人工观测站统计数据与设备自动检测数据进行对比来判定设备是否运行正常、检测的数据是否准确,其次以准确的设备自动检测数据为基准,进行人为剔除、修改若干数据,造成异常数据的各种情形,最后采用上述数据修正方法进行数据的修正与有效性检验。为此,本研究在某高速公路连续式观测站附近进行人工观测,分别在7月4日、7月11日、7月18日、7月25日、8月1日進行人工调查统计,每天调查持续时间为8个小时(8:00-16:00)。人工调查数据与自动调查数据对比发现匹配性较高,人工调查数据与自动调查数据两组数据的相关系数均在0.9以上,数据极强相关,如图1所示在96(8个小时,每小时12个数据)个数据中,只有12个数据有偏差且偏差均在5辆以内,则认为在7月4日、7月11日、7月18日、7月25日、8月1日自动检测设备在每日的8:00-16:00处于正常运行状态,且检测数据都为准确数据。
数据选取:以1小时(7月11日14:00-15:00)调查周期为数据研究范围。
数据处理:选取7月11日自动检测数据。人为修改序号14的数据,将其当量数由64变为85,造成单个数据异常的情形,如表2所示。
Step1:对异常数据进行识别
利用某时刻紧邻时刻的前面12个数据进行算术平均,得到其算术平均值,并求其标准差,检测该时刻实际检测数据是否在范围内,序号14其流量的算术平均值为序号2-13的平均值则: =66.5,其标准差为:
则在序号8的正确数据应该满足:,即56.776.3,而该时刻的数值为85,显然不满足,故判定其为异常数据。
Step2:对异常数据进行修正(修正样本选取序号12、13、15、16)
见以下计算公式,依据q平均-2σ≤ Q ≤q平均+2σ,由计算结果可得56.77276.3,故选取72作为序号14处的当量值满足正常数据使用要求。
四、结论
以上数据修正方法在某省级交调数据应用平台中的专题分析地图模块提供了理论支持,软件的地图当量图、流量图等功能在此基础上得以实现。以上修正方法可有效提高公路交通情况调查数据质量,提高数据应用效率,减少错误数据对交通规划、交通设计等应用场景产生的影响。
参考文献
[1]耿彦斌,于雷,赵慧. ITS数据质量控制技术及应用研究[J]. 中国安全科学学报,2005(01): 85-90+4.
[2]孙亚. 定点采集信息数据质量控制理论与方法研究[J]. 海峡两岸都市交通学术研讨会,2008: 646-650.
[3]吴芳. 交通流数据清洗的关键理论及方法研究[D]. 山东理工大学,2009.
关键字:连续式交调 三次拉格朗日差值多项式 异常数据
近年来,公路交通流量据作为动态交通信息的主体,其采集和应用发展迅速。随着数据采集与检测技术、通讯技术,大数据存储、处理技术快速发展,交通量调查已经实现了由传统的人工采集为主导向自动化连续式采集为主导的转变。但是,连续式调查数据受设备老化,传输网络不稳定,设备故障发现和维修不及时, 供电异常等因素影响,采集得到的交通情况调查数据不可避免的存在错误及丢失等质量问题。采用存在质量问题的数据开展交通应用,将给应用结果带来众多隐患。因此,对自动化设备采集的连续式交调数据进行数据修正具有重要意义。
一、存在质量问题数据分类
连续式交调数据质量问题大致可分为三类:丢失数据、失真数据、错误数据。
二、数据修正方法
本研究提出一种采用三次拉格朗日差值多项式进行异常数据修正的方法。
(1)异常数据的判别
在正常交通状态下,网络交通流的变化是一个平稳的随机过程,流量数据的幅值应该在某一区间内变化,但是当道路中出现交通事件时,流量数据与正常情况下的数据之间会出现很大的偏差。本研究采用t 时段之前n(n=12)个数据的平均值q平均和方差σ来识别此类数据故障。
当q平均-2σ≤ Q ≤q平均+2σ时,认为流量数据是正常的,否则认为数据为异常数据。
(2)异常数据修正
若异常数据为某周一t时刻数据,则数据源选择历史最近周一t时刻邻近相关时间序列正确数据作为数据来源进行插值计算。
其中t0、t1、t2、t3分别历史最近周一对应t-2、t-1、t+1和t+2时段的位置;q(t0)、q(t1)、q(t2)和q(t3)分别为各时段对应的交通流量。
三、以某连续式观测站数据为例进行修正方法验证
本研究首先将人工观测站统计数据与设备自动检测数据进行对比来判定设备是否运行正常、检测的数据是否准确,其次以准确的设备自动检测数据为基准,进行人为剔除、修改若干数据,造成异常数据的各种情形,最后采用上述数据修正方法进行数据的修正与有效性检验。为此,本研究在某高速公路连续式观测站附近进行人工观测,分别在7月4日、7月11日、7月18日、7月25日、8月1日進行人工调查统计,每天调查持续时间为8个小时(8:00-16:00)。人工调查数据与自动调查数据对比发现匹配性较高,人工调查数据与自动调查数据两组数据的相关系数均在0.9以上,数据极强相关,如图1所示在96(8个小时,每小时12个数据)个数据中,只有12个数据有偏差且偏差均在5辆以内,则认为在7月4日、7月11日、7月18日、7月25日、8月1日自动检测设备在每日的8:00-16:00处于正常运行状态,且检测数据都为准确数据。
数据选取:以1小时(7月11日14:00-15:00)调查周期为数据研究范围。
数据处理:选取7月11日自动检测数据。人为修改序号14的数据,将其当量数由64变为85,造成单个数据异常的情形,如表2所示。
Step1:对异常数据进行识别
利用某时刻紧邻时刻的前面12个数据进行算术平均,得到其算术平均值,并求其标准差,检测该时刻实际检测数据是否在范围内,序号14其流量的算术平均值为序号2-13的平均值则: =66.5,其标准差为:
则在序号8的正确数据应该满足:,即56.776.3,而该时刻的数值为85,显然不满足,故判定其为异常数据。
Step2:对异常数据进行修正(修正样本选取序号12、13、15、16)
见以下计算公式,依据q平均-2σ≤ Q ≤q平均+2σ,由计算结果可得56.77276.3,故选取72作为序号14处的当量值满足正常数据使用要求。
四、结论
以上数据修正方法在某省级交调数据应用平台中的专题分析地图模块提供了理论支持,软件的地图当量图、流量图等功能在此基础上得以实现。以上修正方法可有效提高公路交通情况调查数据质量,提高数据应用效率,减少错误数据对交通规划、交通设计等应用场景产生的影响。
参考文献
[1]耿彦斌,于雷,赵慧. ITS数据质量控制技术及应用研究[J]. 中国安全科学学报,2005(01): 85-90+4.
[2]孙亚. 定点采集信息数据质量控制理论与方法研究[J]. 海峡两岸都市交通学术研讨会,2008: 646-650.
[3]吴芳. 交通流数据清洗的关键理论及方法研究[D]. 山东理工大学,2009.