基于强化学习的多车队列纵向协同控制算法研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:cuichenyyy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要对多车队列协同纵向行驶的决策控制算法进行了一定的研究。区别于传统基于规则的控制方法,本文选择强化学习方法解决车辆协同跟车行驶中的加速度决策问题。在多车队列中除领航车外,每一辆跟随车都处于类似的外部行驶环境,为降低系统的策略学习难度,队列中的每辆车均可视为独立的智能体,所有跟随车辆共享相同的决策模型。多车协同行驶控制问题可拆解为节点协同跟驰策略的学习,当单车的跟驰策略收敛,整个队列也将稳定地行驶。本文的研究内容主要包含以下4方面:(1)介绍强化学习的基本理论,以及相关代表性算法的原理。在分析各算法的优缺点后,最终提出一种结合模仿学习思想的深度确定性策略梯度(DDPG)算法优化方案。(2)以经验回放和目标网络技巧为切入点阐述DDPG算法的具体实现过程。建立跟随车辆协同行驶的MDP模型,在此基础上运用DDPG算法训练车辆学习固定车间距下的协同行驶策略。在单车节点上层控制器的策略收敛时,进行四车队列的协同行驶仿真实验,仿真结果表明所学控制策略可满足队列的行驶稳定性。(3)选取全速度差跟驰模型作为指导车辆跟随前车行驶的演示策略。针对演示策略增设对应的监督损失,以保证训练过程中发挥其监督作用。对比学习算法改进前后的训练过程可发现车辆经过预训练后策略收敛速度加快。基于乘车舒适度优化车辆协同行驶MDP模型的奖励函数,仿真结果表明在相同工况下队列的行驶平稳性可得到一定的改善。(4)搭建1:5的智能小车实验平台,根据平台使用需求选定智能小车的硬件组成。设计增量PID控制器实现小车的闭环转速控制,同时利用纯追踪算法保持小车的定航向行驶。基于ROS系统的分布式进程框架,设计平台上层控制系统的程序运行架构。在此基础上编写各功能模块的节点程序,并进行相应的测试。基于该平台开展了两车队列的协同行驶实验,验证了基于DDPG算法的上层控制器具备良好的跟车性能。
其他文献
目的:观察自体角膜缘干细胞移植术(LCAT)治疗双侧翼状胬肉的临床效果。方法:前瞻性病例研究。收集2014-01/2015-07在解放军第四七四医院诊断为双侧翼状胬肉患者46例54眼,其中
管带机的胶带如果发生展开异常,就会导致滚筒上叠带,设备无法继续运行且不易恢复。结合运用两种在线检测方法,能及时地发现胶带运行异常并通过电气联锁实施第一时间的警示或
临床医生可以说是医院中最重要的岗位,直接面对患者及其家属,其个人素质的高低和工作质量的好坏直接影响医院的整体服务能力和病人的切身利益,临床医生的管理也是医院人力资
国家监察体制的改革旨在打造集中统一、权威高效的国家监察体系,而“行纪检一体化”之后形成的监察委员会调查权是监察机关行使监察权的重要手段。监察委调查权的行使由于封闭性、集中性和模糊性遭致了人们对于程序正义和人权保障的担忧。监察委调查权的监督问题成为监察体制改革中的研究焦点之一,而如何设计具体有效的监察机关本身的监督制度开始成为人们的研究重点。研究首先应从我国监察体制改革背景下辩护权的基本现状入手,论
<正>美国心脏学会联合心血管造影和介入学会、美国医学会和国家质量保证委员会等多个权威学术机构,发布了最新的成人经皮冠状动脉介入治疗(PCI)质量评估体系,共包括11条指标(
随着软件应用的爆发性增长,软件的质量保障成为了一个企业具有竞争力的体现。目前很多企业的功能测试都是依赖人工测试去发现问题,虽然很多时候人工测试在异常情况下能较快做
反渗透海水淡化技术是解决沿海地区淡水资源紧缺问题的主要手段,多级高压泵是反渗透海水淡化中的关键设备之一。使用低比转速高速离心泵代替多级高压泵以缩小整套反海水渗透装置体积和提高其可靠性有着十分重要的意义。首先,针对低比转速高速离心泵含能液体压力高的特点,研究适用于高扬程、高转速的泵叶片,压水室和蜗壳扩散管水力结构设计方法;其次,在低比转速高速离心泵水力模型设计的基础上,对已成熟应用的11种湍流模型进
<正> 慢性阻塞性肺疾病(COPD)是一种常见的慢性病,其导致的呼吸功能损害只能控制而无法完全治愈,因此缓解期的康复治疗尤其重要。针对COPD损害进行的呼吸功能康复物理治疗,目前
研究目的:本研究通过对小学生进行12周的手球运动教学实验,并与采用常规体育教学的对照班进行比较,研究其对小学生健康体适能和心理健康的影响,为校园手球运动训练的科学化提
十九大报告指出,“实施乡村振兴战略”就是要坚持农业农村优先发展。农村的发展振兴关乎我国小康社会的全面建成,是打破我国当前发展不充分、不平衡格局的重要前提,其中农村