基于深度强化学习方法的无人驾驶智能决策控制的研究

来源 :辽宁工程技术大学 | 被引量 : 0次 | 上传用户:Fishfag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
无人驾驶的决策控制是无人驾驶技术的核心,它需要根据道路场景的感知信息做出安全、合理的决策,特别是对各种场景下不可控突发状况的决策,面对这一的难题,急需一种能够自主学习且泛化能力极强的智能决策方法。由于深度强化学习不仅能够从零自主学习且具有强大的泛化性能,而且能够通过端到端的方式实现从原始输入到输出的直接控制的优势非常适合无人驾驶中从感知到决策控制的场景。因此将深度强化学习技术应用于无人驾驶决策控制,根据场景为车辆行驶提供智能决策,有着十分重要的研究意义。由于无人驾驶的输出动作是连续的且在无人驾驶动作空间随机探索可能会导致意想不到的后果,因此本文采用深度强化学习中的深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法进行无人驾驶的智能决策控制。针对传统DDPG算法收敛慢,不稳定的情况,本文提出一种基于DDPG算法改进的二次采样深度确定性策略梯度算法(DDPG with Two Sample,DDPGwTS)用于无人驾驶的决策控制。一方面在经验回放环节引入二次采样方法,首先根据序列累积回报的分布构造优先级对经验池中的序列进行采样,然后在已采样的序列中根据样本的TD偏差分布构造优先级对样本采样,随后用采样得到的样本对算法进行训练,以提高算法收敛速度和提升策略质量。另一方面提出online网络和target网络间以动态参数跟踪方式进行权重参数的传递以提高算法的收敛速度。最后基于人工智能领域著名的开源赛车模拟器TORCS对整个DDPGwTS算法框架的具体环节进行详细的设计,使其能够运用于无人驾驶的决策控制并进行性能测试,最后证明了该算法在进行无人驾驶决策控制的有效性。该论文有图21幅,表12个,参考文献51篇。
其他文献
根据红外通信原理,使用串行口与红外通信功能转换芯片MAX3100,实现了适用于恶劣现场环境的温度遥测系统。
目的:分析周围性面瘫用蒙医针刺结合蒙药治疗的效果及护理措施。方法:选取2018年2月—2019年5月本院收治的60例周围性面瘫患者作为研究对象,按照入院时间随机分为对照组与观
【世界核新闻网站2012年12月4日报道】由于受到监管要求和从日本福岛第一核电站事故汲取的经验教训等因素的影响,法国正在建设的本国首台欧洲压水堆(EPR)机组即弗拉芒维尔3号机
针对正交频分复用(OFDM)系统的峰值均值功率比(PAPR)过高的问题,对次优部分传输序列算法进行了改进。本文提出了一种联合次优部分传输序列(PTS)与沃尔什哈达玛变换(WHT)算法
【国际裂变材料专家组(IPFM)网站2015年6月26日报道】位于俄罗斯谢韦尔斯克(Seversk)的西伯利亚化学联合体(SiberianChemicalCombine)在近日公布的2014年度报告中表示,RKhZ后处理设
【世界核新闻网站2013年10月16日报道】巴布科克·威尔科克斯核能公司(B&WNE)与光桥公司(Lightbridge)准备联合建设一座中试规模的轻水堆金属燃料制造厂。光桥公司已开发出一
【世界核新闻网站2011年4月6日报道】日本福岛第一核电站于2011年3月因地震和海啸影响而发生放射性泄漏事故发生后,全球核电产业界的首次重要会议即2011年世界核燃料循环大会
目前,防弹衣及其材料应尽可能满足“硬度高、强度高、韧性高、密度低、成本低”的性能要求。然而,至今还没有任何一种均质单相材料能够同时满足以上要求。而蜂窝型夹层复合材
<正> 近年来,我局厦门工程处综合实力、经济效益以每年50%以上的速度递增。1993年完成建筑业总产值达6319万元,全员劳动生产率30.8万元,企业收益达969万元,资产增值114万元,上
本文通过对水泥砼路面断板、唧泥、脱空、沉降等主要病害的分析,提出了采用灌浆处治进行解决的技术方案,从实用性及经济性等角度充分肯定了灌浆技术在地方公路路面工程大修中的