基于深度强化学习的高速公路入口匝道控制方法研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:songlove511
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
高速公路入口匝道控制能够有效缓解高速公路主线拥堵,是高速公路交通控制的重要组成部分。深度强化学习算法结合深度学习与强化学习的优势,能够在连续空间中做出决策,并通过与环境交互进行自我训练,是一种高效的智能算法。以深度强化学习为基础,将DDPG算法与匝道控制算法ALINEA相结合,建立了参数动态调整的单匝道ALINEA控制算法;将多智能体算法MADDPG引入多匝道协同控制方法中,实现了基于多智能体算法的匝道协同控制。分析了宏观交通流模型METANET与LWR,采用路段实测数据,基于改进的粒子群算法对模型参数进行辨识,根据辨识结果,选择METANET模型搭建了交通流仿真平台,该平台可代替实际路段作为深度强化学习算法训练与测试环境,解决了深度强化学习算法需要以实际路段作为训练环境的问题。在经典的ALINEA算法基础上引入深度确定策略梯度算法(DDPG),以路段状态信息为输入,ALINEA控制器PI参数为输出,建立了参数动态调整的DDPG-ALINEA算法。此外,将匝道排队长度引入状态空间与奖励函数,建立了受匝道排队长度约束的DDPG-ALINEA算法,弥补了 ALINEA算法未考虑匝道排队长度的不足。以DDPG算法为基础,将多智能体强化学习算法引入匝道协同控制。研究了“集中训练-分布执行”的MADDPG算法原理,结合MADDPG算法中智能体间共享动作信息的特点,建立了基于MADDPG算法的多匝道协同控制方法。基于交通流仿真平台对DDPG-ALINEA算法与MADDPG协同控制算法进行训练与测试。仿真结果显示,在无匝道排队约束的情况下,DDPG-ALINEA算法将被控路段拥堵时段内行程总时间降低1 3.93%,与ALINEA算法及PI-ALINEA算法相比,行程总时间分别下降1.67%与1.51%;在有匝道排队约束的情况下,DDPG-ALINEA算法与PI-ALINEA算法相比,等待总时间降低35.35%,总时间消耗降低9.29%;与无控制状态相比,MADDPG匝道协同控制算法将被控路段行程总时间降低23%。仿真结果表明,基于深度强化学习的DDPG-ALINEA算法与MADDPG协同控制算法增强了入口匝道对高速公路交通流状态的控制效果,使高速公路运输效率得到一定提升,证明了以上方法应用于高速公路入口匝道控制的可行性。
其他文献
随着集成电路的工艺和集成度的提升,计算机算力有了大幅的进步,基于神经网络的人工智能伴随算力的提高展现出了良好的实际应用价值,在图像处理、控制系统、模式识别、金融管理等多个领域得到了广泛的应用。由于深度学习对算力的依赖,现在大部分的神经网络是基于CPU或者GPU来进行训练和推理的,但是随着网络结构的变化和对计算实时性的要求进一步提高,传统的实现方式将难以满足以后的应用场景,于是近年来先后出现的很多专
车载移动测量系统作为一种新兴的测绘地理信息设备,以其高效率、高精度以及实时性强的数据采集优势,在测绘地理信息生产中的作用日益突出。为了精确确定各个传感器之间的相对
随着移动互联网技术的飞速发展,人们每天都有观看视频的需求,然而面对海量的视频,如何筛选观众期望的视频成为一个难题。近年来关于视频推荐的研究越来越多,传统推荐算法主要有协同过滤(Collaborative Filtering,CF)和基于内容的过滤(Content-based Filtering,CB),然而这些算法通常受限于冷启动问题和特征提取问题。本文将尝试从两个新颖的角度进行思考,以期提高视频
随着战场环境日益复杂,不断扩展雷达的功能已成为一种趋势。本文先研究了传统的目标跟踪技术,在此基础上,提出一种动态参数优化的目标跟踪技术。然后研究了雷达抗干扰技术,在此基础上,提出一种混合随机相位与正交编码相融合的抗干扰方法。综合两者,实现具备抗干扰能力的目标跟踪雷达,以此扩展脉冲多普勒雷达的功能。论文的主要内容包括:研究了单脉冲测角技术以及轨迹滤波原理。首先研究了传统的单脉冲测角技术,针对传统速度
电流变(ER)液是一种能响应外部电场刺激,表现出对内部结构自动调整特性的智能软物质。这种软物质一般由具有高介电性能的颗粒分散到绝缘油中构成,在外电场的诱导下,粘度可发生几个数量级的变化,表现为:流体从液体状态向固体状态发生转变,这种转变是快速并可逆的,所以电流变液在工业界和学术界等很多领域都得到了广泛的关注。但是较低的剪切应力和高温下性能的不稳定性使得电流变材料的商业化应用受到很大的限制。本文以无
随着改革开放进程的的不断深入,我国基层各项事业得到了长足发展,与此同时,基层的权力、利益也越来越多,利益关系日渐复杂导致在基层出现滥用权力、损害群众利益的有损“小微权力”正常使用的现象。达州市是四川省的农业大市,基层人口比重高,占全市总人口的67%,基层自治单位数量在三千余个以上,是一个研究我国基层组织“小微权力”工作的很好的对象。近年来,达州市在基层“小微权力”的监督落实中成绩亮眼。经过近几年的
对清洁能源的研究和开发是当今社会的热点问题,利用生物废弃物为前驱制备各种碳材料能够有效避免资源浪费,降低碳材料的生产成本,促进可持续发展,所制备的掺杂碳材料可用于燃料电池催化剂,超级电容器电极材料等,对解决能源、生态环境问题将起到十分积极的作用,受到了科研人员的广泛关注。本文利用生物废弃物荻花为碳前驱,在KOH溶液中进行水热预碳化处理,然后经过真空碳化处理和后续的氮掺杂过程,最终制得了具有3D多级
进入二十一世纪后,全球经济飞速发展。然而,随着以能源消耗为基础的经济发展方式不断深化,生态环境问题也日益恶化。其中,最严峻的问题莫过于二氧化碳的过度排放。我国作为二氧化碳排放最多的国家,一直承受着经济发展与碳减排的巨大压力。如何能够更有效地实现二氧化碳的减排,实现经济的可持续发展,成为我国当前经济发展最重要的课题之一。本文首先阐述环境规制这一降低二氧化碳排放强度的方式,其次会对环境规制与碳排放强度
云计算中心可动态响应各种需求,快速部署和调度计算资源,为用户提供了一种新型便捷的IT服务模式。随着云计算服务需求不断增加,数据中心的规模越来越大,设备的高能耗问题越来越突出。因此,建设绿色数据中心是保证技术产业发展的关键,虚拟机在线迁移技术已经被广泛应用于能耗管理,对于大规模数据中心进行节能管理具有重要作用。通过迁移虚拟机来整合低负载服务器上的业务,减少活跃服务器的数量,是降低数据中心能耗的有效手
中立型系统的滑模控制(SMC)问题研究是现代控制论的一个重要方向。中立型系统是一类广义时滞系统,系统的状态不仅与过去时刻的状态有关,还与过去时刻状态的变化速率有关,其应用背景更为广泛。大多数时滞系统可以看做中立型系统的特例,而且许多时滞系统也可以转化为中立型系统。滑模控制是一种突破固定结构的不连续控制方法,其控制律设计简单且不需要精确的系统模型,最关键的是当系统处于滑动模态时对外界干扰及未建模动态