论文部分内容阅读
[摘要]针对实时路况估计和交通数据采集方法没有统一标准的问题,提出了一种基于车联网的实时路况估计架构,由车辆数据采集、数据管理和路况显示组成。车辆数据采集系统基于Android系统开发,采用模块化架构使系统适用于不同厂商的车型;通过对武汉市部分道路进行VISSIM建模,采集大量仿真数据,分别建立RBF神经网络模型和支持向量机模型,并使用遗传算法对支持向量机参数进行优化,两种模型估计结果表明支持向量机的估计效果优于RBF神经网络。最后将支持向量机估计结果应用于路况显示系统,向社会公众提供实时路况。
[关键词]车联网;实时路况;数据采集系统;RBF神经网络;支持向量机;遗传算法
1引言
我国汽车保有量的急速增加,给人们的生活和工作带来了便捷,也导致了频繁发生的城市交通拥堵现象。交通拥堵造成环境污染、出行时间增加及“路怒症”现象增加等诸多负面影响。而传统的增修道路和控制车辆数目增加的方法不能从长远发展的角度解决此问题。目前,国内外研究机构利用现有的先进技术对原有道路交通状态进行分析,为出行者提供最优的实时路况信息,从而达到疏通交通的目的。corrado de Fabritiis等人基于浮动车系统采集行程时间和速度等数据,采用人工神经网络和模式匹配算法,以估算当前和之前的路段行程速度为输入,实现对路段行程速度的短时预测。Ayalew Belay Habtie等人提出一种使用车载手机作为数据采集装置,采用人工神经网络估计城市道路交通状态的架构,实现交通数据采集、处理、分析、状态估计优化以及向用户呈现交通流量信息功能。清华大学的吴森森等人在使用极少辆探测车采集数据的情况下,对城市主干道路况分类识别系统进行了研究。上述研究存在如下缺陷:道路需要新增基础硬件设施,实现对固定点的监测,无法监控具体路段实时路况;浮动车必须配备专用设备大规模使用,成本过高。
针对实时路况估计方法存在的问题,以武汉市内运行的各种类型车辆为研究对象,提出了一种基于车联网的实时路况估计架构,即Android系统的车载终端、智能手机等移动终端通过车辆自身的OBD-II接口采集车辆数据,通过无线网络实时传送至服务器,并采用RBF神经网络和SVM(support Vector Machine,支持向量机)对采集的数据进行建模估算路段行程速度,并将估算结果发布给用户,以减少交通拥堵。
2系统总体方案
所设计的系统主要由车辆数据采集、数据管理及路况显示三部分组成,其架构如图1所示。车辆数据采集系统与车载网络通信,获取车辆相关数据,包括当前时间、ID、当前地理位置的经纬度、行驶方向、车速、发动机转速以及全车故障诊断结果,与此同时移动终端通过无线网络将车辆数据以固定时间10s循环发送至服务器端,数据管理中心对数据进行模型算法处理估计道路的路段行程速度;数据管理中心再将估计的路段行程速度以固定周期1min发布至移动终端的路况显示系统,路况显示系统以百度地图为基础,向公众提供实时路况查询功能、历史行程回放等功能。
3车辆数据采集系统
由图1可知,车辆数据采集系统由车机平台和数据采集软件组成。车机平台分两类:一类是移动式车机平台,因为智能手机、平板电脑等移动终端与其他设备的通信方式主要是蓝牙、3G/4G、WiFi和USB,无法直接与CAN总线网络通信,需要采用自主研发的车辆通信接口(Vehicle Communication Interface,VCI)设备,通过VCI的蓝牙模块与移动终端的蓝牙模块配对建立通信,将CAN总线网络接口信号电平与移动终端通信接口电平进行转换,以实现移动终端与汽车间的通信;另一类是搭载式车机平台,车载智能终端通过自身CAN模块直接与ECU建立通信。
数据采集软件不仅要实现具体的数据采集功能,同时要保证向用户提供友好的交互界面。鉴于Android系统开源性以及强大的功能特性,数据采集软件采用Java语言进行设计,在Eclipse集成开发环境下进行代码的编写、编译与调试。采集的车速等数据需要上传至服务器,移动终端与服务器通信的方式是通过终端自身的3G或4G等无线网络功能。
4建模与仿真估计实时路况
路段是指两个相邻交叉口之间的道路,是城市路网的基本组成单元。路段行程速度是指所有样本车辆通过目标路段的平均速度,是对路段状况最直观的评价标准。
4.1数据预处理
实时数据的精确性和有效性是制约实时路况估计发挥效益的瓶颈之一。因此,在接收并保存车辆数据后,需要对原始数据进行预处理,然后按照相关指标和算法,估算路段行程速度。数据预处理是指由于设备通信、天气等因素的影响,在采集、发送或接收过程中会出现一些不在规定范围内的数据,为提高实时路况估计的可靠性,需要按规定范围等要求,剔除原始数据中的无效数据,并对无效数据和缺失数据进行修复,最后将数据保存在车辆数据库,为路况估计模型建立和评估奠定基础。
4.1.1数据清洗。数据清洗主要包括GPS定位错误、时间错误、车速错误三方面。在原始数据剔除过程中,需建立剔除日志,当无效数据率超过1%时发出警报,及时进行故障排查。
(1)GPS定位错误。在采集数据过程中,由于种种不确定因素影响,如恶劣天气、周围环境(如高樓、立交桥)等,采集的GPS信息可能会出现漂移现象。在数据清洗过程中,规定武汉市之外的定位点属于无效数据,经纬度数据应剔除。另外,在百度地图匹配过程中,对于在合理误差范围内但采用匹配算法仍不能匹配到路网中的定位点,也划归为无效数据,经纬度数据应剔除。
(2)时间错误。车速数据采样周期可达200ms,GPS定位数据的采样周期1s左右,而且数据采样周期越短,数据精度越高,但通信成本和数据处理量会显著增加,因此需要选择合适的采样周期。允许数据采集系统将车辆数据发送服务器的周期定为10s,超出这一时间认为不可接受,剔除整组数据。 (3)车速错误。采集的车速数据不再依赖GPS,在恶劣天气及高楼大厦间仍能够采集车辆的准确速度。由于车辆在行驶过程中可能会产生故障从而导致车速异常,此时采集的速度不能准确反映车辆运行状态,须剔除掉。其具体流程如图2所示。
①服务器接收到车速数据后,与道路规定的限速值相比较,如果超出限值,需利用故障诊断结果进行故障状态判断,如果服务器接收的诊断结果为1,表示当前该车辆发生故障,则认为该车速数据为无效数据,应剔除;如果诊断结果为0,表示该车辆正常,此条数据为有效数据,保存至车辆数据库。
②如果服务器接收的车速未超过道路规定的限速值,则需进一步判别,如果车速不为0,则认为该车辆正常行驶,此条车速数据为有效数据,保存至车辆数据库;否则,需要通过转速数据进一步判断。
③若转速为0,认为该车辆已停止运行,不是正常的交通状态反应,此条车速数据为无效数据,应剔除;否则保存至车辆数据库。
4.1.2数据修复。在数据清洗过程中,由于各种随机因素的影响,对异常数据进行了处理,使得车辆数据不能很好地反映路况,因此需要对这些数据进行修复。需要修复的数据对象包括错误数据和缺失数据。缺失数据是指车辆以固定周期10s发送数据至服务器,如果服务器在某个时刻没有接收到车辆数据,即可认为发生车辆数据丢失。
采用相邻时段的算数平均值修复异常数据。使用的公式如下:
4.2基于VISSIM建立路网模型
虽然车辆数据采集系统已实现不同厂商的车辆数据采集功能,但大规模地采集实际车辆数据仍存在一定难度,因此采用微观仿真软件VISSIM模拟实际路网中的车辆运行状态,提供现实路况中数据采集系统采集的车辆数据。
VISSIM是一种基于时间间隔和驾驶行为的仿真建模工具,可以模拟和分析各种交通条件下(交通构成、交叉口信号控制、公交车站等)城市交通的运行状况。其纵向运动采用了Wiedmann教授的心理一生理类跟车模型,车道变换采用Sparmann设计和建立的相关规则模型。
以武汉市街道口附近的珞狮路、珞喻路、武珞路和石牌岭路四条道路为例构建路网,如图3所示。建立城市路网的具体流程如下:
(1)创建VISSIM文件。建立一个精准模型的必要条件是载人一张具体比例尺的反映实际路网的背景图片,根据实际比例尺设置模型比例尺为1:100m,添加路段、连接器等建立路网。
(2)定义交通属性。主要包括设置车辆类型、期望车速分布、车辆重量分布、车辆功率分布。根据城市道路的实际情况,车辆类型分乘用车、重型货车和客车三种。
(3)确定行驶规则。主要包括速度控制规则、优先规则和交叉口信号灯控制规则。速度控制规则设置道路限速;优先规则是为避免车辆突然变道;经实际监测,街道口处的信号灯周期为220s。
(4)设置仿真参数。主要包括选择评估项(车辆记录和路段评估),设置仿真运行时的方式(单步或连续)、仿真时间区间、仿真运行速度等。
使用VISSIM时,通过设置模型中的不同车辆类型比例以及不同的期望速度分布等,采集尽量多的车辆数据报告和路段评估报告。
4.3基于RBF神经网络估算路况
RBF神经網络在解决实时路况估计这类复杂的函数关系问题上具有明显优势。RBF神经网络中的每个节点工作方式都是接受上一级神经元输入,然后将信号经过函数处理后输出到下一级节点中,不存在从下一级节点向上一级节点的反馈方式情况。
RBF神经网络估算路段行程速度的流程为:
(1)选择参数建立RBF神经网络。在MATLAB软件中建立RBF神经网络的函数为,其中,P为输入参数;T为输出参数;goal为均方误差,设为0.001 5;spread表示径向基函数的扩展速度,设为1;mn为神经元的最大数目,设为30;为显示频率,设为1。
在城市路网中,路段行程速度受多方面因素的影响。采用RBF神经网络需要选择独立地对路段行程速度有影响的因素作为输入变量,选取目标路段上同类型车辆的平均车速和不同类型车辆数比例作为输入参数。
(2)使用VISSIM提供的车辆数据对RBF神经网络进行训练。输入参数P,输出参数r,_train为VISSIM软件提供的目标路段平均速度值,共1100组样本数据。为了避免输入参数中各变量数量级相差过大影响训练效果,必须对数据进行[0,1]归一化处理。以乘用车速度为例,速度归一化公式见式3。
其中,car为乘用车速度集合;min(car)为乘用车速度中的最小值;max(car)为最大速度。
使用RBF神经网络之前需要对其进行训练,因此实验随机选取了550组的训练数据。RBF神经网络训练的基本思想是,每次循环会产生一个新神经元,新增的神经元尽量拟合输入数据和输出数据。如果没有达到均方误差要求,则继续增加新的神经元。当拟合误差小于等于均方误差时,RBF神经网络满足要求,完成训练,程序结束;如果神经元个数达到设置的最大神经元数时,程序也会结束,但训练因未能达到均方误差而失败。
(3)使用网络进行估算。RBF神经网络训练完成后,使用剩余的550组数据作为测试样本,估算出目标路段的路段行程速度。
4.4基于SVM估算路况
SVM是一种新颖的机器学习方法,在解决小样本、非线性问题及高维模式识别中表现出其特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM可分为线性回归和非线性回归两类。得到的最佳回归函数见式4。
其中,a、a为拉格朗日乘积因子;x和x为两个独立的变量;c为惩罚因子,是一个自然数;K(x,x)功为核函数,用以计算样本在高维特性空间内的内积。
SVM通过核函数将输入向量非线性映射到高维特征空间,以便进行线性映射。因此核函数的类型就决定了特征空间的结构,常用的核函数有4种,由于在相同条件下,径向基核函数的精度最高,同时径向基核函数对非线性和高维数据也有较好的适应性。因此选取径向基核函数作为SVM核函数。其数学表达式见公式5,其中g为核函数半径。 4.4.1遗传算法优化SVM参数。对于一个基于径向基核函数的SVM,其性能由惩罚系数c和核函数半径g共同决定,选择不同的c和g组合对SVM的训练时间和学习精度都有不同程度的影响。目前没有规定的选择标准或理论依据,采用用遗传算法(Genetic Algorithm,GA)和交叉验证方法对模型参数c和g进行优化。
使用GA优化SVM参数c和g的流程如图4所示,具体流程如下:
(1)需要给定参数c和g的范围,目前一般都是根据经验给定,取c∈[0,100]和g∈[0,10];
(2)由步骤1中的参数c和g的范围,生成二进制编码的初始随机种群,每一个个体均有两条染色体,分别代表参数c和g;
(3)计算初始随机种群中每一个体SVM精度;
(4)以SVM模型精度为优化目标,通过选择、交叉、变异三种主要操作,生成更优的子代种群。交叉率和变异率分别定为0.9和0.05;
(5)计算子代种群中每一个个体的SVM模型精度,重复进行步骤4,直到满足遗传算法停止条件(SVM的精度足够高或遗传代数达到给定值)。
经过以上步骤,能够找到全局最优的参数c和g组合,从而得到最优的SVM模型。
4.4.2基于GA-SVM估算路段行程速度。采用GA-SVM估计路段行程速度的流程如图5所示,具体流程依次为:对VISSIM提供的样本数据进行归一化处理;利用GA优化SVM参数c和g,随机抽取550个数据样本对SVM进行训练,得到最优的SVM模型;使用剩余的550个测试样本数据作为测试样本,对路段行程速度进行估算。训练样本的选取和对样本数据的归一化处理同RBF神经网络一致,在此不再赘述。
5结果分析及应用
均方误差(Mean Square Error,MSE)与平均绝对百分比误差(Mean Absolute Percent Error,MAPE)作为评价指标,用以评估RBF神经网络和GA-SVM的预测能力和误差。其具体定义见公式(6)和(7)。
由表1中RBF神经网络和GA-SVM的评价指标可知,测试样本的GA-SVM估计的MSE为2.149 3,MAPE为6.9475%,均比RBF神经网络小。
两种算法模型部分估计结果与VISSIM提供的标准值对比如图6所示,横轴表示通过设置VISSIM的不同车辆构成和交通参数所得到的测试样本;纵轴表示目标路段的路段行程速度,单位为KM/H。线为RBF神经网络估计的路段行程速度;线为GA-SVM估计的路段行程速度;线为VISSIM提供的标准值。
RBF神经网络和GA-SVM的每个测试样本点的绝对百分比误差如图7所示,横轴表示通过设置VISSIM的不同车辆构成和交通参数所得到的550个测试样本;纵轴表示绝对百分比误差。线表示RBF神经网络估计的绝对百分比误差;线4表示GA-SVM估计的绝对百分比误差。
从图6和图7所示曲线可知,与RBF神经网络估计的路段行程速度曲线变化规律对比,GA-SVM更接近VISSIM软件提供的变化曲线,从整体上来说,GA-SVM的绝对百分比误差要小于RBF神经网络误差。其中,后面的测试样本的误差偏大,造成這种现象的主要原因是,本实验的测试样本的路段行程速度随着样本序列增加而减小,速度值较小时,微小的变化也会导致误差偏大。
综上,GA-SVM的估计效果相比于RBF神经网络更可靠和准确,因此,以GA-SVM的估计结果作为目标路段的路段行程速度,并将其用于向社会公众提醒道路的交通状态,采用百度地图开发实时路况显示系统。路况显示系统根据城市道路交通的实际运行状态,把目标道路的交通状态分为畅通、缓行和拥堵三个级别。由于百度地图中使用黄色线条表示道路,为了能够清晰地显示道路交通状况,对道路状况颜色做了如下定义:红色表示道路拥堵,蓝色表示缓行,绿色表示畅通,通过不同颜色用户可以直观地了解道路状况。
6结论
(1)针对实时路况估计方法存在的问题,提出了一种基于车联网的实时路况估计架构,即车辆数据采集系统通过车辆自身的OBD-II接口采集车辆数据,经无线网络实时传送至服务器,并对数据进行模型算法分析估计,最后将结果发布给社会公众。
(2)以目标路段内同类型车辆平均速度和不同类型车辆占车辆总数的比重作为输入变量,分别建立RBF神经网络和SVM实时路况估计模型,并用GA对SVM参数进行优化,两种模型估计结果对比发现SVM估计效果更为准确可靠。
(3)所提出的实时路况估计模型,建模简单,精度较高,能有效估算路况,具有一定的应用价值。
[关键词]车联网;实时路况;数据采集系统;RBF神经网络;支持向量机;遗传算法
1引言
我国汽车保有量的急速增加,给人们的生活和工作带来了便捷,也导致了频繁发生的城市交通拥堵现象。交通拥堵造成环境污染、出行时间增加及“路怒症”现象增加等诸多负面影响。而传统的增修道路和控制车辆数目增加的方法不能从长远发展的角度解决此问题。目前,国内外研究机构利用现有的先进技术对原有道路交通状态进行分析,为出行者提供最优的实时路况信息,从而达到疏通交通的目的。corrado de Fabritiis等人基于浮动车系统采集行程时间和速度等数据,采用人工神经网络和模式匹配算法,以估算当前和之前的路段行程速度为输入,实现对路段行程速度的短时预测。Ayalew Belay Habtie等人提出一种使用车载手机作为数据采集装置,采用人工神经网络估计城市道路交通状态的架构,实现交通数据采集、处理、分析、状态估计优化以及向用户呈现交通流量信息功能。清华大学的吴森森等人在使用极少辆探测车采集数据的情况下,对城市主干道路况分类识别系统进行了研究。上述研究存在如下缺陷:道路需要新增基础硬件设施,实现对固定点的监测,无法监控具体路段实时路况;浮动车必须配备专用设备大规模使用,成本过高。
针对实时路况估计方法存在的问题,以武汉市内运行的各种类型车辆为研究对象,提出了一种基于车联网的实时路况估计架构,即Android系统的车载终端、智能手机等移动终端通过车辆自身的OBD-II接口采集车辆数据,通过无线网络实时传送至服务器,并采用RBF神经网络和SVM(support Vector Machine,支持向量机)对采集的数据进行建模估算路段行程速度,并将估算结果发布给用户,以减少交通拥堵。
2系统总体方案
所设计的系统主要由车辆数据采集、数据管理及路况显示三部分组成,其架构如图1所示。车辆数据采集系统与车载网络通信,获取车辆相关数据,包括当前时间、ID、当前地理位置的经纬度、行驶方向、车速、发动机转速以及全车故障诊断结果,与此同时移动终端通过无线网络将车辆数据以固定时间10s循环发送至服务器端,数据管理中心对数据进行模型算法处理估计道路的路段行程速度;数据管理中心再将估计的路段行程速度以固定周期1min发布至移动终端的路况显示系统,路况显示系统以百度地图为基础,向公众提供实时路况查询功能、历史行程回放等功能。
3车辆数据采集系统
由图1可知,车辆数据采集系统由车机平台和数据采集软件组成。车机平台分两类:一类是移动式车机平台,因为智能手机、平板电脑等移动终端与其他设备的通信方式主要是蓝牙、3G/4G、WiFi和USB,无法直接与CAN总线网络通信,需要采用自主研发的车辆通信接口(Vehicle Communication Interface,VCI)设备,通过VCI的蓝牙模块与移动终端的蓝牙模块配对建立通信,将CAN总线网络接口信号电平与移动终端通信接口电平进行转换,以实现移动终端与汽车间的通信;另一类是搭载式车机平台,车载智能终端通过自身CAN模块直接与ECU建立通信。
数据采集软件不仅要实现具体的数据采集功能,同时要保证向用户提供友好的交互界面。鉴于Android系统开源性以及强大的功能特性,数据采集软件采用Java语言进行设计,在Eclipse集成开发环境下进行代码的编写、编译与调试。采集的车速等数据需要上传至服务器,移动终端与服务器通信的方式是通过终端自身的3G或4G等无线网络功能。
4建模与仿真估计实时路况
路段是指两个相邻交叉口之间的道路,是城市路网的基本组成单元。路段行程速度是指所有样本车辆通过目标路段的平均速度,是对路段状况最直观的评价标准。
4.1数据预处理
实时数据的精确性和有效性是制约实时路况估计发挥效益的瓶颈之一。因此,在接收并保存车辆数据后,需要对原始数据进行预处理,然后按照相关指标和算法,估算路段行程速度。数据预处理是指由于设备通信、天气等因素的影响,在采集、发送或接收过程中会出现一些不在规定范围内的数据,为提高实时路况估计的可靠性,需要按规定范围等要求,剔除原始数据中的无效数据,并对无效数据和缺失数据进行修复,最后将数据保存在车辆数据库,为路况估计模型建立和评估奠定基础。
4.1.1数据清洗。数据清洗主要包括GPS定位错误、时间错误、车速错误三方面。在原始数据剔除过程中,需建立剔除日志,当无效数据率超过1%时发出警报,及时进行故障排查。
(1)GPS定位错误。在采集数据过程中,由于种种不确定因素影响,如恶劣天气、周围环境(如高樓、立交桥)等,采集的GPS信息可能会出现漂移现象。在数据清洗过程中,规定武汉市之外的定位点属于无效数据,经纬度数据应剔除。另外,在百度地图匹配过程中,对于在合理误差范围内但采用匹配算法仍不能匹配到路网中的定位点,也划归为无效数据,经纬度数据应剔除。
(2)时间错误。车速数据采样周期可达200ms,GPS定位数据的采样周期1s左右,而且数据采样周期越短,数据精度越高,但通信成本和数据处理量会显著增加,因此需要选择合适的采样周期。允许数据采集系统将车辆数据发送服务器的周期定为10s,超出这一时间认为不可接受,剔除整组数据。 (3)车速错误。采集的车速数据不再依赖GPS,在恶劣天气及高楼大厦间仍能够采集车辆的准确速度。由于车辆在行驶过程中可能会产生故障从而导致车速异常,此时采集的速度不能准确反映车辆运行状态,须剔除掉。其具体流程如图2所示。
①服务器接收到车速数据后,与道路规定的限速值相比较,如果超出限值,需利用故障诊断结果进行故障状态判断,如果服务器接收的诊断结果为1,表示当前该车辆发生故障,则认为该车速数据为无效数据,应剔除;如果诊断结果为0,表示该车辆正常,此条数据为有效数据,保存至车辆数据库。
②如果服务器接收的车速未超过道路规定的限速值,则需进一步判别,如果车速不为0,则认为该车辆正常行驶,此条车速数据为有效数据,保存至车辆数据库;否则,需要通过转速数据进一步判断。
③若转速为0,认为该车辆已停止运行,不是正常的交通状态反应,此条车速数据为无效数据,应剔除;否则保存至车辆数据库。
4.1.2数据修复。在数据清洗过程中,由于各种随机因素的影响,对异常数据进行了处理,使得车辆数据不能很好地反映路况,因此需要对这些数据进行修复。需要修复的数据对象包括错误数据和缺失数据。缺失数据是指车辆以固定周期10s发送数据至服务器,如果服务器在某个时刻没有接收到车辆数据,即可认为发生车辆数据丢失。
采用相邻时段的算数平均值修复异常数据。使用的公式如下:
4.2基于VISSIM建立路网模型
虽然车辆数据采集系统已实现不同厂商的车辆数据采集功能,但大规模地采集实际车辆数据仍存在一定难度,因此采用微观仿真软件VISSIM模拟实际路网中的车辆运行状态,提供现实路况中数据采集系统采集的车辆数据。
VISSIM是一种基于时间间隔和驾驶行为的仿真建模工具,可以模拟和分析各种交通条件下(交通构成、交叉口信号控制、公交车站等)城市交通的运行状况。其纵向运动采用了Wiedmann教授的心理一生理类跟车模型,车道变换采用Sparmann设计和建立的相关规则模型。
以武汉市街道口附近的珞狮路、珞喻路、武珞路和石牌岭路四条道路为例构建路网,如图3所示。建立城市路网的具体流程如下:
(1)创建VISSIM文件。建立一个精准模型的必要条件是载人一张具体比例尺的反映实际路网的背景图片,根据实际比例尺设置模型比例尺为1:100m,添加路段、连接器等建立路网。
(2)定义交通属性。主要包括设置车辆类型、期望车速分布、车辆重量分布、车辆功率分布。根据城市道路的实际情况,车辆类型分乘用车、重型货车和客车三种。
(3)确定行驶规则。主要包括速度控制规则、优先规则和交叉口信号灯控制规则。速度控制规则设置道路限速;优先规则是为避免车辆突然变道;经实际监测,街道口处的信号灯周期为220s。
(4)设置仿真参数。主要包括选择评估项(车辆记录和路段评估),设置仿真运行时的方式(单步或连续)、仿真时间区间、仿真运行速度等。
使用VISSIM时,通过设置模型中的不同车辆类型比例以及不同的期望速度分布等,采集尽量多的车辆数据报告和路段评估报告。
4.3基于RBF神经网络估算路况
RBF神经網络在解决实时路况估计这类复杂的函数关系问题上具有明显优势。RBF神经网络中的每个节点工作方式都是接受上一级神经元输入,然后将信号经过函数处理后输出到下一级节点中,不存在从下一级节点向上一级节点的反馈方式情况。
RBF神经网络估算路段行程速度的流程为:
(1)选择参数建立RBF神经网络。在MATLAB软件中建立RBF神经网络的函数为,其中,P为输入参数;T为输出参数;goal为均方误差,设为0.001 5;spread表示径向基函数的扩展速度,设为1;mn为神经元的最大数目,设为30;为显示频率,设为1。
在城市路网中,路段行程速度受多方面因素的影响。采用RBF神经网络需要选择独立地对路段行程速度有影响的因素作为输入变量,选取目标路段上同类型车辆的平均车速和不同类型车辆数比例作为输入参数。
(2)使用VISSIM提供的车辆数据对RBF神经网络进行训练。输入参数P,输出参数r,_train为VISSIM软件提供的目标路段平均速度值,共1100组样本数据。为了避免输入参数中各变量数量级相差过大影响训练效果,必须对数据进行[0,1]归一化处理。以乘用车速度为例,速度归一化公式见式3。
其中,car为乘用车速度集合;min(car)为乘用车速度中的最小值;max(car)为最大速度。
使用RBF神经网络之前需要对其进行训练,因此实验随机选取了550组的训练数据。RBF神经网络训练的基本思想是,每次循环会产生一个新神经元,新增的神经元尽量拟合输入数据和输出数据。如果没有达到均方误差要求,则继续增加新的神经元。当拟合误差小于等于均方误差时,RBF神经网络满足要求,完成训练,程序结束;如果神经元个数达到设置的最大神经元数时,程序也会结束,但训练因未能达到均方误差而失败。
(3)使用网络进行估算。RBF神经网络训练完成后,使用剩余的550组数据作为测试样本,估算出目标路段的路段行程速度。
4.4基于SVM估算路况
SVM是一种新颖的机器学习方法,在解决小样本、非线性问题及高维模式识别中表现出其特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM可分为线性回归和非线性回归两类。得到的最佳回归函数见式4。
其中,a、a为拉格朗日乘积因子;x和x为两个独立的变量;c为惩罚因子,是一个自然数;K(x,x)功为核函数,用以计算样本在高维特性空间内的内积。
SVM通过核函数将输入向量非线性映射到高维特征空间,以便进行线性映射。因此核函数的类型就决定了特征空间的结构,常用的核函数有4种,由于在相同条件下,径向基核函数的精度最高,同时径向基核函数对非线性和高维数据也有较好的适应性。因此选取径向基核函数作为SVM核函数。其数学表达式见公式5,其中g为核函数半径。 4.4.1遗传算法优化SVM参数。对于一个基于径向基核函数的SVM,其性能由惩罚系数c和核函数半径g共同决定,选择不同的c和g组合对SVM的训练时间和学习精度都有不同程度的影响。目前没有规定的选择标准或理论依据,采用用遗传算法(Genetic Algorithm,GA)和交叉验证方法对模型参数c和g进行优化。
使用GA优化SVM参数c和g的流程如图4所示,具体流程如下:
(1)需要给定参数c和g的范围,目前一般都是根据经验给定,取c∈[0,100]和g∈[0,10];
(2)由步骤1中的参数c和g的范围,生成二进制编码的初始随机种群,每一个个体均有两条染色体,分别代表参数c和g;
(3)计算初始随机种群中每一个体SVM精度;
(4)以SVM模型精度为优化目标,通过选择、交叉、变异三种主要操作,生成更优的子代种群。交叉率和变异率分别定为0.9和0.05;
(5)计算子代种群中每一个个体的SVM模型精度,重复进行步骤4,直到满足遗传算法停止条件(SVM的精度足够高或遗传代数达到给定值)。
经过以上步骤,能够找到全局最优的参数c和g组合,从而得到最优的SVM模型。
4.4.2基于GA-SVM估算路段行程速度。采用GA-SVM估计路段行程速度的流程如图5所示,具体流程依次为:对VISSIM提供的样本数据进行归一化处理;利用GA优化SVM参数c和g,随机抽取550个数据样本对SVM进行训练,得到最优的SVM模型;使用剩余的550个测试样本数据作为测试样本,对路段行程速度进行估算。训练样本的选取和对样本数据的归一化处理同RBF神经网络一致,在此不再赘述。
5结果分析及应用
均方误差(Mean Square Error,MSE)与平均绝对百分比误差(Mean Absolute Percent Error,MAPE)作为评价指标,用以评估RBF神经网络和GA-SVM的预测能力和误差。其具体定义见公式(6)和(7)。
由表1中RBF神经网络和GA-SVM的评价指标可知,测试样本的GA-SVM估计的MSE为2.149 3,MAPE为6.9475%,均比RBF神经网络小。
两种算法模型部分估计结果与VISSIM提供的标准值对比如图6所示,横轴表示通过设置VISSIM的不同车辆构成和交通参数所得到的测试样本;纵轴表示目标路段的路段行程速度,单位为KM/H。线为RBF神经网络估计的路段行程速度;线为GA-SVM估计的路段行程速度;线为VISSIM提供的标准值。
RBF神经网络和GA-SVM的每个测试样本点的绝对百分比误差如图7所示,横轴表示通过设置VISSIM的不同车辆构成和交通参数所得到的550个测试样本;纵轴表示绝对百分比误差。线表示RBF神经网络估计的绝对百分比误差;线4表示GA-SVM估计的绝对百分比误差。
从图6和图7所示曲线可知,与RBF神经网络估计的路段行程速度曲线变化规律对比,GA-SVM更接近VISSIM软件提供的变化曲线,从整体上来说,GA-SVM的绝对百分比误差要小于RBF神经网络误差。其中,后面的测试样本的误差偏大,造成這种现象的主要原因是,本实验的测试样本的路段行程速度随着样本序列增加而减小,速度值较小时,微小的变化也会导致误差偏大。
综上,GA-SVM的估计效果相比于RBF神经网络更可靠和准确,因此,以GA-SVM的估计结果作为目标路段的路段行程速度,并将其用于向社会公众提醒道路的交通状态,采用百度地图开发实时路况显示系统。路况显示系统根据城市道路交通的实际运行状态,把目标道路的交通状态分为畅通、缓行和拥堵三个级别。由于百度地图中使用黄色线条表示道路,为了能够清晰地显示道路交通状况,对道路状况颜色做了如下定义:红色表示道路拥堵,蓝色表示缓行,绿色表示畅通,通过不同颜色用户可以直观地了解道路状况。
6结论
(1)针对实时路况估计方法存在的问题,提出了一种基于车联网的实时路况估计架构,即车辆数据采集系统通过车辆自身的OBD-II接口采集车辆数据,经无线网络实时传送至服务器,并对数据进行模型算法分析估计,最后将结果发布给社会公众。
(2)以目标路段内同类型车辆平均速度和不同类型车辆占车辆总数的比重作为输入变量,分别建立RBF神经网络和SVM实时路况估计模型,并用GA对SVM参数进行优化,两种模型估计结果对比发现SVM估计效果更为准确可靠。
(3)所提出的实时路况估计模型,建模简单,精度较高,能有效估算路况,具有一定的应用价值。