基于强化学习的高速公路自动驾驶决策方法研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:liuzufang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,各种基于人工智能的应用在越来越多的领域中逐步取得比原有方法更好的效果。其中,自动驾驶逐渐成为人工智能领域最重要的落地场景之一。在车辆上采用自动驾驶技术可以避免驾驶员操作失误带来的安全隐患,并且在舒适性、智能性方面能有大幅的提高。当前自动驾驶决策方法主要采用基于规则的方法,这一方法通过预设的“专家知识”来建立智能车行驶过程中的行为规则。但对于高速公路自动驾驶这种状态空间较大、动作空间为连续型、速度较快的复杂场景,该方法难以满足驾驶需求。强化学习是一种以经验驱动的自主学习方法,可以让智能体通过与环境的不断交互以“试错”并获得反馈来获得完成任务的最优策略,在可以建模为马尔科夫决策过程的工程问题上有了广泛的应用。同时,深度强化学习使得深度学习强大的函数拟合能力与强化学习的决策能力相结合,为复杂问题的求解提供了新的解决思路。因此,可以作为解决智能车在高速公路场景下自动驾驶的可行性方案之一。车道跟随和自动超车是高速公路自动驾驶的两种典型工况,本文将深度强化学习技术应用于这两种工况的决策模块。主要研究内容如下:首先,对面向高速公路自动驾驶决策的深度强化学习算法进行改进。分别针对当前常用于自动驾驶决策的两种深度强化学习算法深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)和近端策略优化(Proximal Policy Optimization,PPO)进行改进,以使其更能满足高速公路自动驾驶场景对于决策模块的要求。对于DDPG算法,本文对其进行针对性改进提出了基于双评论家及优先回放机制的深度确定性策略梯度算法(Double Critic and Priority Experience Replay Deep Deterministic Policy Gradient,DCPER-DDPG)。针对Q值过估计导致的驾驶策略效果下降问题,采用了双评论家网络进行优化。针对演员网络更新时产生的时间差分误差导致算法模型不精准采用延迟更新方法降低这一影响。针对DDPG算法中随机经验回放导致的采样样本效果不符合预期和训练速度慢导致的算力和资源损耗,本文采用优先经验回放机制对其进行改善。对于PPO算法,本文引入好奇心机制以提高自动驾驶车辆探索环境的效率并将更新网络的方式由梯度上升改为均方根传递(Root Mean Square Prop,RMSProp)以更充分地训练智能体,提出了基于好奇心机制及均方根传递的近端策略优化算法(Curiosity and RMSProp Proximal Policy Optimization,CR-PPO)。其次,在仿真系统中对高速公路场景下车道跟随决策进行建模和验证。根据任务需求选择TORCS作为仿真环境、选择状态空间和动作空间、设计奖励函数。随后分别设计两种算法采用的演员和评论家网络结构。最后设计实验对车道保持系统的决策模块进行验证。最后,在仿真系统中对高速公路场景下自动超车决策进行建模和验证。根据高速公路自动超车的工况需求选择highway-env作为仿真环境,随后定义强化学习算法的状态空间、动作空间,并针对安全性、高效性和舒适性针对性地设计奖励函数。之后设计两种算法的神经网络结构。最后,根据任务需求设计实验验证了将强化学习算法用于高速公路自动超车决策模块的可行性并比较了两种算法的性能。
其他文献
铁路新一代移动通信系统将采用5G-R系统。5G系统采用大规模天线,具有大带宽、高频率等特点,因此5G-R基站的用电量远高于GSM-R基站。为此从硬件、软件两个方面对5G基站节能技术进行分析,并对5G基站新工艺、新材料、仿生外观、符号关断、通道关断、载波关断和深度休眠等节能技术在铁路中的应用进行适应性分析;提出基于5G-R无线组网和话务量的节能方案,以及基于行车间隔的智能化节能方案,可为未来5G-R
后脱贫时代,防止返贫、减少结构性贫困是长期减贫政策的重点。农村低保作为兜底保障措施,能否有效改善贫困家庭经济福利至关重要。文章构建了一个多维贫困分析框架识别农村贫困人口,基于2015~2019年中国家庭金融调查(CHFS)数据,利用固定效应模型和倾向得分匹配双重差分法,系统考察了农村低保对贫困家庭不同类型消费的影响。研究发现,农村低保显著提升了贫困家庭的家庭设备服务、教育文娱和医疗保健支出,且对多
如何通过图像获取场景环境的三维信息一直是计算机视觉领域的热点之一。图像三维重建作为一项从二维图像中重建出场景三维信息的技术,受到了学者们的广泛关注。目前,大部分基于图像的三维重建是以点特征为基元进行研究,其生成的点云模型数量庞大、点与点之间几乎不存在几何拓扑关系,既无法表述场景的三维结构信息也不利于计算机后续的存储和计算。同时,在弱纹理的场景下,点特征数量有限,容易匹配错误,导致重建效果不理想。相
<正>小时候,看过一本讲述京张铁路的小人书。因我儿时识字不多,把居庸关的"庸"字认成"唐"字读,成为笑料。一晃几十年,退休后的第一个旅游地,我就定下游北京的居庸关。这是四月暮春。我迈着大步朝居庸关楼直扑去,一口气登上关楼。眼前居庸关云霄阴灰,风却有力有劲,连绵群山已开始披些浅绿,相杂其间的仍有许多不肯服输的枯黄色灌木,给峻峭的山势增加了苍凉感。居庸关楼进进出出,上上下下的男女可用"蜂拥"二字概括。
会议
本文采用我国2013—2020年30个省(区、市)的面板数据,运用双向固定效应模型,实证分析数字经济对共同富裕的影响。结果表明:第一,数字经济显著促进了共同富裕,通过替换被解释变量、核心解释变量以及考虑可能存在的内生性问题后,结果依然稳健。第二,数字经济通过推动人力资本、技术创新与产业结构升级提高了共同富裕程度。第三,数字经济各分指标均显著促进了共同富裕,既促进了富裕度又促进了共享度。第四,数字经
立足于生产要素的特征,按农业经济、工业经济、数字经济的历史脉络,结合中美两国数字经济发展历程,提出“网络化—平台化—智能化—智慧化”的数字经济一般发展逻辑,基于核心生产要素的作用、生产力的演进,探讨四个阶段的经济内容、特征及其相互关系。研究发现:网络化阶段以建设完善各种类型网络为主要内容,平台化阶段则是以各类平台的建设、完善和运营为主,智能化阶段是通过发展机器智能代替人的体力劳动,智慧化阶段则是提
近年来,随着计算机技术和视觉传感器的发展,二维视觉逐渐延伸至三维空间,目标6D位姿估计技术开始成为视觉研究领域的研究热点。本文主要研究内容:一是创建完整的三维数据集,二是构建完整的位姿估计系统,三是在复杂环境中利用低成本视觉传感器取得最优位姿估计效果。在视觉传感器的选择上,本文选用成本较低的双目相机并利用双目视觉获取图像数据,利用三维表面重建技术来构造三维模型进而建立完整数据集,该数据集用于基于关
探讨自体与异体输血对颅脑外伤大骨瓣减压患者T淋巴细胞亚群及血清神经元特异性烯醇化酶(neuron-specific enolase,NSE)影响。结果表明颅脑外伤后自体输血较异体输血具有明显的优越性,不仅能减轻免疫抑制,而且有助于脑功能的恢复。
目的:分析分娩镇痛产妇持续性产后尿潴留(PUR)发生情况及影响因素。方法:选取2019年1月-2022年1月在福建省南平市第一医院分娩的125例产妇为观察对象,依据是否发生持续性PUR分组,其中25例发生持续性PUR纳入观察组,100例未发生持续性PUR纳入对照组,采用单因素与多因素logistic回归分析探究其影响因素。结果:两组年龄、分娩前体重指数、孕次、分娩镇痛时间、分娩孕周、新生儿体重、产