基于深度强化学习的端到端自动驾驶技术研究

来源 :中国科学院大学(中国科学院人工智能学院) | 被引量 : 1次 | 上传用户:xyf8319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动驾驶的任务是车辆通过各种传感器感知道路环境,在没有人为进行干预的情况下,实时地改变驾驶的行为,包括转向、加速和制动等。实现自动驾驶可以使交通事故的发生减少,道路交通资源得到更合理的利用,因此研究自动驾驶技术具有非常重要的意义。由于端到端的自动驾驶不需要人为指定规则,而直接学习驾驶动作,所以端到端方法的研究是自动驾驶领域的重要研究方向之一。深度强化学习方法通过和环境交互学习策略与人类学习驾驶的方式相似,被广泛用于端到端驾驶任务中。本文利用深度强化学习算法,对虚拟环境下车辆的自动驾驶进行研究。该算法是基于深度确定性策略梯度算法的改进,针对训练样本利用率低的问题,将优先经验回放方法与深度确定性策略梯度算法相结合,从仿真环境中获取原始的传感器输入,模型输出连续的加速、转向、制动行为,并将训练数据存入缓冲区中,通过优先经验回放的高效采样方法,实现训练速度的加快。由于深度强化学习需要车辆与环境进行多次交互,训练过程中会出现错误的驾驶行为,在现实中训练自动驾驶会对车辆和周围环境造成不可估量的损害,所以本实验是在仿真平台的虚拟环境中实现的,然而端到端驾驶的最终目标是使真实车辆在现实环境中自主做出驾驶决策,而结构化的模拟环境与复杂化的真实环境之间存在着巨大的差异。本文通过图像翻译的方法连接虚拟与现实之间的差距,使用CycleGAN网络将虚拟图像转换成与真实图像相似的视觉外观,将生成的图像作为深度强化学习的输入,将虚拟环境中学习到的策略直接应用到现实世界,以此来提高现实世界的学习效率。本文在深度强化学习实验中,使用了仿真平台对改进后的深度强化学习算法进行了验证,证明了该算法可以实现端到端自动驾驶并加快了训练速度。并且本文使用真实数据集验证了虚拟到现实的图像翻译模型,证明了图像翻译的迁移方法的有效性。
其他文献
选择兰州市典型沙尘天气和非沙尘天气收集两类降尘,并对其进行粒度测定。结果表明:两种类型降尘粒度特征差别明显。总体上看沙尘天气和非沙尘天气降尘都以粉砂为主,但沙尘天气降
期刊
随着科学技术的不断发展,对材料性能的要求也不断提高。高熵合金是由多种主元以等摩尔比或近等摩尔比组成的具有简单晶体结构的固溶体合金。作为一种新型合金,由于其优异的性
技术领域发展日新月异。人工智能(下称AI)是具有智能行为模仿能力的机器,它是在电脑中,模拟人类的行为和认知程序,自然地学习所有知识的智能大脑。它正在越来越多地取代人类的活动
报纸
采用原子吸收分光光度法对国内一些常用茶叶中的钙进行了测定 ,结果表明 ,茶叶中的钙含量丰富 ,为 12 14— 2 874 mg/kg,饮茶对人体健康有益。但茶汤中的钙浸出量仅为 2 3—
随着网络信息技术的发展,人类社会也进入到了网络经济时代,传统的市场营销方式已被网络营销所取代。基于网络营销的经济性、跨时代性、交互性等特点,给现代企业的发展带来了
经典文学作品具有深入人心的巨大魅力,而舞剧的改编可以借助文学名著的无形影响而充分发挥舞剧艺术自身的优势。把文学名著改编成舞剧,是一项非常艰难的工作。舞蹈形象与文学
本文是对主持人“非角色表演”这一前台行为进行的研究。首先,对出现在主持人理论研究中备受争议的“表演”和“角色”二词做出了概念界定和阐释,笔者认为主持人“非角色表演
<正>有时,实验室里吸引很多眼球的是最新的设备,然而离心机、通风橱等才是让实验和工作流程保持正常运转的功臣。这些通用实验室工具常常决定着一个实验室运行的稳定性和成本
非盟发布的《非洲大陆教育战略(2016-2025年)》重视对非洲各级各类教育现状与问题进行分析和指正,明确了实现非洲大陆可持续发展所需人才的培养规格,强调教育在解决非洲现实