POMDP环境下交通信号自适应控制的策略梯度学习方法

来源 :武汉理工大学学报 | 被引量 : 0次 | 上传用户:lkajdofaief
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
将交通自适应控制看成是POMDP(Partially Observable Markov Decision Process)问题,建立交叉口POMDP环境模型,结合值函数法的优点设计解决此问题的策略梯度学习算法。仿真实验与传统方法比较表明,在局部交通较少及高度饱和交通条件下此学习方法具有一定的收敛性和有效性,并对解决自适应交通控制问题具有一定的适用性。
其他文献
为探索陕甘宁黄土高原地区栽培荞麦高产最适施氮量,以甜荞品种——西农9976为试验材料,设置4个氮肥水平,2016年施肥水平为:0 (N0)、45 (N45)、135 (N135)和225kg/hm2(N225);2
刘智作为中国回儒的代表,他的思想中蕴含着许多伊斯兰哲学思想的主题,其中"完人"思想,就是对伊斯兰哲学思想传统中"完人"思想的儒家式表述。这一主题既是对伊本.阿拉比等的伊
苏轼大量以游戏之笔入词,被誉为"为游戏之圣"。其游戏之作共四十一首,占全部作品的九分之一强。苏轼的戏作在当时影响了很多词人,对徽宗时期的御用文人及词作的影响最为明显
目的探究Fut8基因敲除对ICR小鼠肠道菌群结构的影响。方法分别在Fut8+/+和Fut8-/-小鼠出生后不同时间点检测体重,采集粪便样本,采用PCR-变性梯度凝胶电泳(PCR-DGGE)的方法检测
针对纤维封层配合比的控制主要依靠经验法的问题,根据功能原理从理论上分析纤维封层材料配合比参数设计。通过粘附功、应变能、热能损耗的计算,从4种纤维中选择性能最优的作
利用超声波提取法从黄芪(Radix astragali)中提取多糖,应用正交试验法优化提取条件,并采用超氧阴离子和DPPH自由基体系对黄芪多糖的抗氧化活性进行研究。结果表明,黄芪多糖提
通过对当前图书馆采用的室内定位技术手段进行分析,认为与传统图书馆室内定位手段相比,使用微信公众平台接口开发的二维码馆内定位系统在定位精度、成本和互动性上具有独特优
媒体作为我国刑事裁判权外部监督的重要载体,对司法运行的监督发展尤为迅速。媒体为了对刑事裁判权进行有效监督而夸张发布一些新闻报道却适得其反。媒体的肆意报道破坏了刑
通过对公共交通乘客出行行为与公共交通诉求的了解,有助于公共交通管理者评价现有交通服务并提出改叫改善对策。然而,通过单一的IC卡数据或者问卷数据无法同时把握公共交通乘
目的:探讨腰椎间盘突出症腰痛患者采用平衡针治疗的临床效果。方法:将昆明市东川区中医院2013年5月-2014年5月接收的60例腰椎间盘突出症腰痛患者随机分为观察组与对照组各30