多步积累奖励的双重时序Q网络算法

来源 :控制理论与应用 | 被引量 : 0次 | 上传用户:anjialaogong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
车辆行驶控制决策是无人驾驶的核心技术,现有基于深度强化学习的无人驾驶控制决策算法存在处理数据效率低、无法有效提取状态间时序特征等问题.因此本文提出了一种基于多步积累奖励的双重时序Q网络算法.首先,设计了一种多步积累奖励方法,该方法对未来多步即时奖励的累加和进行均值化,与当前即时奖励共同作用于智能体的控制策略,并在奖励函数中突出当前即时奖励的主导影响.接着设计了一种长短期记忆网络和卷积神经网络相结合的时序网络结构,增强智能体对数据间时序特征的捕获能力.实验结果验证了时序网络和多步积累奖励方法有助于提升智能体收敛速度,其中DQN,DDQN使用时序网络后,收敛速度分别提升了21.9%,26.8%;本文算法在Carla仿真平台典型的Town01,Town02场景中的控制得分比DDQN,TD3算法分别高了36.1%,24.6%,以及在复杂的Town03场景中针对不同线路表现出了更好的泛化性能.这些结果都表明本文算法能够有效的提升数据利用效率,并具备良好的控制能力和泛化能力.
其他文献
本文旨在提高机器人辅助椎板切除时的骨铣削操作安全性.首先,提出一种基于激光信号和线性自抗扰控制器的铣削深度监测与控制方法,辨识了机器人的位置控制传递函数,并通过分析椎板的铣削力、受迫振动和铣削过程,给出基于骨铣削声信号的铣削进给速度优化原理.然后使用基于带通滤波器和普罗尼算法的声信号处理方法,用于手术动力装置主轴旋转频率改变时,准确提取声信号中的主轴频率及其整倍数谐波的幅度值,并使用声信号谐波幅度偏差和偏差的微分作为输入的模糊控制器来优化机器人的铣削进给速度.最后,基于机器人辅助椎板切除实验装置在仿椎板人
随着高效实时物流的发展,不确定车辆路径问题面临着兼顾决策精度和实时响应能力的新挑战.本文以应用最为广泛的随机需求车辆路径问题为例,研究提出一种有效的在线决策方法.首先,考虑多车辆同时在线,以总旅行成本最小化为目标,建立马尔科夫决策模型,并引入可信度约束和邻域半径减少策略缩小行动空间,提高求解效率.其次,设计强化学习中的价值逼近算法求解模型,其中,采用基函数估计期望未来成本,并将求解过程分离为离线训练和在线决策两个环节,基函数的权重被离线训练并用于在线决策以减少在线决策时间,同时,在算法中嵌入了邻域半径的动
目前市场上蜂窝夹芯结构类型众多,常见的有铝蜂窝、Nomex蜂窝、纸蜂窝、玻璃钢蜂窝等,在汽车、船舶、建筑、包装等领域获得广泛应用.本文以蜂窝铝板为研究对象展开分析,首先简要介绍了蜂窝铝板的特点,其后以吴城国际候鸟保护中心屋面应用蜂窝铝板为例,具体分析了异型蜂窝铝板屋面设计与施工技术应用的要点.
暖通空调是建筑中重要的构成部分,建筑行业高速发展的过程中,绿色建筑发展逐渐具有优势,绿色建筑不仅能提升建筑居住的舒适度,还能有效节约资源.为了解决暖通空调系统中的节能问题,本文以某建筑为例,对绿色理念应用至建筑暖通空调节能设计进行深入研究.首先论述绿色理念的含义以及应用至暖通空调节能设计的重要性,其次分析暖通空调具有的特点与绿色理念应用至暖通空调节能设计遵循的相关原则,最后提出绿色理念应用至建筑暖通空调节能设计的有效途径,期望能促进建筑行业的快速发展.
为解决传统装配式建筑信息协同不够、人才短缺、构件丢失等问题,本文对装配式建筑智慧工地进行研究,提出了基于BIM进行智慧工地建设,采取信息化手段,运用VR、RFID、物联网、激光定位等技术进行精细化质量控制的措施,以期为相关工程提供参考.
在建筑行业快速发展背景下,国内经济发展被有效促进.建筑业发展历程并非一帆风顺,存在急需解决的难题.在建筑施工过程中,环境污染问题引起人们的普遍重视.出于促进国内建筑行业发展目的,相关人员需加大对绿色施工技术的研究力度,实现节约能源目标和保护环境目标.本文基于绿色理念,对建筑施工技术进行了研究,期望为有关人员的工作提供参考价值.
为解决污染问题以及能源消耗问题.本文主要针对节能技术在绿色建筑工程中的应用展开讨论分析.提出各个能源与资源消耗量比较大的行业都加大了节能技术的开发与利用.将节能技术应用到绿色建筑工程建设中,提升绿色建筑建设标准,并且能够坚持我国低碳理念以及绿色建筑建设原则,以期为相关人员提供参考.
针对一类非线性时变系统的控制问题,使用了一种基于自耦PID的控制理论方法.该方法首先将时变不确定、模型不确定定义为一个扩张状态,并将非线性时变系统映射为未知线性系统;然后使用自耦PID控制方法构造了一个闭环系统;最后在复频域分析了闭环系统的鲁棒稳定性和抗扰动鲁棒性.理论分析与仿真结果都表明了本文控制方法具有良好的动态品质和稳态性能,在未知复杂系统控制领域具有广泛的应用前景.
为探究偏高岭土掺量对活性粉末混凝土(Reactive Powder Concrete,RPC)性能的影响.本文采用偏高岭土/硅灰(Silica Fume,SF)5个不同复配比例制备RPC,通过抗压强度试验、抗折强度、抗拉试验以及干缩试验,对比分析了不同偏高岭土/硅灰复配掺量下RPC抗压性能、抗折性能、抗拉性能以及干缩性能的变化规律.结果表明:RPC抗压、抗折、抗拉强度随偏高岭土对硅灰的取代率增加掺量先增大后减小;在一定范围内,偏高岭土取代率越高,RPC干缩率越低.证明了偏高岭土是取代硅灰的良好活性掺合料,
纤维混凝土是指在混凝中掺加纤维,以达到提高混凝土抗弯抗拉韧性的目的.目前关于纤维混凝土的研究多以试验及定性分析为主,难以形成统一的指导纤维设计的理论系统.因此,本文从纤维的材性、尺寸形状以及掺量三个方面的变量对混凝土力学性能的影响进行了论述,并对纤维混凝未来的研究方向提出了几点建议,以供参考.