基于深度强化学习的无人驾驶决策控制研究

来源 :湖南大学 | 被引量 : 0次 | 上传用户:wencentss
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术以及通信技术的飞速发展,车辆的智能化和网联化技术也在逐步提高,无人驾驶技术作为智能交通的重要部分,其研究也越来越成熟。目前,大部分无人驾驶汽车都使用传统的局部路径规划以及车辆控制算法,而感知、决策、控制作为独立的模块,不能保证高精度的时间同步以及空间同步,对于自动驾驶而言,上述三个模块结合的越紧密,自动驾驶的安全性和准确性越高。随着人工智能技术的发展,深度强化学习为复杂系统的序贯优化决策问题提供了另一种解决思路,本文基于深度强化学习对无人驾驶决策控制方法进行研究,在开源赛车模拟器中进行动态行车环境的安全性分析。本文的主要研究工作如下:首先建立了面向无人驾驶的强化学习框架,基于TORCS仿真环境返回的环境和车辆状态参数对强化学习算法中状态和动作进行定义。针对期望的驾驶表现,设计了面向无人驾驶的强化学习算法奖励函数,并设计了训练过程的终止条件。根据深度确定性策略梯度算法原理和无人驾驶环境的状态、动作需求,分别建立了策略、价值、目标神经网络,分析了上述网络的训练与参数更新方法,搭建了深度强化学习算法的整个网络框架。根据车辆行驶过程中所处的状态对样本进行分类,设计了经验缓存池分离的训练方法。针对探索策略初始随机噪声较大,导致存在大量无效探索的问题,提出了改进的训练探索策略。通过“引导”的方式,使车辆偏向于正确方向探索的概率较大。以最小化跟踪误差和航向误差为目标改进了车辆的车道保持探索策略,使得训练初期,车辆快速学习到正确方向的转向策略,基于人工势场法对车辆超车避撞工况的探索策略进行改进,减少低回报探索过程。在开源仿真平台TORCS上对改进的深度强化学习算法进行仿真验证,仿真结果表明,改进的探索策略避免了局部最优情况,且增加了样本池中高回报样本的比例。经验池分离方法解决了样本分布不均,导致神经网络训练不稳定的问题。
其他文献
结合建筑业的实际情况,论述了如何加强项目成本管理,从而使企业取得更好的经济效益。
成本管理是施工企业永恒的主题。加强成本管理不仅可以提高企业的经济效益,而县可以提高企业的市场竞争力。施工企业的成本管理应从工程投标报价开始直至竣工结算完成为止,贯穿
2014年1月22日上午,宜宾县“科技大篷车”下乡服务基层活动在该县永兴镇荷花文化广场举行。
抓好工程项目管理目标体系,实施项目生产经营目标控制,这对加强施工项目管理,保证工程项目优质、低耗、安全、快速的交竣工极为重要。本文中对工期、质量、安全、施工材料、设备
文中在物理模型试验的基础上,对多弯道溢洪道进行了数值模拟研究。采用FLUENT软件,引入适用于分层两相流的流体体积分数(VOF)模型求解自由水面曲线,成功地对龙屯水库多弯道溢洪
目的探讨尿毒症并顽固性腹水行密闭自身回输的效果,以求迅速解除腹水压迫,维持血液净化治疗中血压稳定,提高患者生活质量.方法对23例尿毒症并顽固性腹水患者,在血液透析(HD)
随着现代医学科学的迅速发展和对医院感染认识的提高,护士的自我防护问题越来越受到国内外同行的关注.严格的自我保护不仅是医护人员免遭疾病的侵袭和危险因素伤害,同时与减
原油作为当今世界的主要能源种类,是推动一个国家中各经济部门运行和发展的主要动力,运输服务部门就是其中之一。对一个国家来说,运输服务部门如同它的“血液”一样,保障着国家正常的运行和发展。特别对于中国这个正在高速发展且人口众多的国家而言,城市的运转,人口的流动和外贸活动都需要运输服务业提供保障。通过查阅各个运输服务业公司年报发现,燃料费是运输服务业主要的成本之一。那么,当原油价格发生变动时,就预示着运
当今,在立体多样、融合发展的现代传播格局中,传统媒体理应主动作为,大力推进与新兴媒体的融合发展,科学运用先进传播技术,增强信息生产和服务能力,提升主流媒体的传播力、公
从合理选择施工材料,优化混凝土配合比,优化混凝土的供应,采用科学的施工方法,加强混凝土养护等方面介绍了大体积混凝土施工技术,以达到降低混凝土温度应力和提高混凝土本身抗拉性