全感知状态下基于深度强化学习的无人驾驶超车决策

被引量 : 0次 | 上传用户：hgra_1982

【摘要】

：

【作者】

：

陈文斌

【发表日期】

：

2020年01期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

车辆在复杂多变的路况行驶中,人类驾驶员难以时刻保持稳定安全的驾驶状态,使得交通事故的发生频率很高。无人驾驶技术是降低交通事故发生概率的有效途径,也是构建智能化交通的必经之路。无人驾驶技术发展至今,始终难以普及的关键原因是自主车辆未能实现安全稳定的驾驶决策,因此决策控制问题作为无人驾驶技术研究的重点与难点,有着很大的研究价值和应用前景。本文将深度强化学习算法应用于无人驾驶决策问题,旨在实现全感知状态下的自主车辆在复杂交通环境下可以安全稳定的对目标车辆进行超车。本文围绕深度强化学习算法应用于无人驾驶超车决策时的若干问题展开了以下研究。（1）针对OpenAI Gym库中缺乏交通仿真环境,正版仿真软件价格昂贵,硬件兼容性差等问题,本文以Gym库中的经典实验环境为学习模板,结合强化学习算法与环境交互信息的原理,自主设计出全感知交通仿真环境的搭建流程方案与相关功能函数。在算法的交互性测试实验中证明自主搭建的全感知交通仿真环境可以成功与强化学习算法进行交互,并采用基于固定值奖励函数的深度Q学习网络算法成功实现在简单环境下的超车。本文提出的仿真环境搭建方案对于无人驾驶的研究方式有着一定的参考价值。（2）针对基于固定值奖励函数的强化学习算法在面对考虑转向角的复杂交通环境下的超车问题时收敛性差、适应性弱等问题,本文从强化学习算法的学习机理角度出发,根据算法的优先级将状态决策模块化构建出自适应评估系统,并引入效率性、舒适性等因素模型,设计出多目标MDP自适应奖励函数。实验结果表明,采用多目标MDP自适应奖励函数的深度Q学习网络算法在复杂交通环境下可以使自主车辆高效、稳定的对目标车辆实现超车。该奖励函数的设计方法为强化学习的奖励函数设计提供了一个值得参考的设计方向。（3）在面对复杂环境下的多车工况,深度强化学习算法仅依靠基于奖励函数的策略评估系统难以保证自主车辆平稳安全的超车行驶。首先分析并构建超车过程中的安全车距模型,将安全车距模型解构为横向安全车距模型与纵向安全车距。随后提出了“空间降维抢断式自适应学习过程（SDPL）方法”。该方法与深度强化学习算法结合后,融合安全车距模型与舒适度模型,通过改变动作选择方式从而压缩了动作空间的维度,改进了强化学习的算法框架与决策系统。实验结果表明SDPL方法与深度Q学习网络算法结合后优化了算法的学习过程,有效提高了算法的各项性能。基于SDPL-DQN方法的自主车辆可以实现更加精确、稳定、安全的超车决策。SDPL方法与深度强化学习的融合不仅充分挖掘了强化学习算法的潜能,还提供一种新的强化学习算法的研究思路,对无人驾驶决策的设计方法研究具有一定的指导意义和现实参考价值。

其他文献

基于配网技术支持平台与配网自动化主站数据交互的智能操作票生成方法研究与应用

配网调度出票是配网调度操作中的重要一环，传统出票方式需要在配网技术支持平台中人手写票，在配网自动化系统中选择对应设备操作挂牌，不仅繁琐，而且易错。为了提升配网调度转供电操作效率，进一步缩短客户平均停电时间，江门供电局配网调度自动化班组先后设计出点图成票以及智能操作票功能，将以前相对分割的各操作环节（写票、置位、挂摘牌）串联起来，使调度操作一气呵成。在应对珠三角地区台风、强对流天气下的配网故障频发情

期刊

辐照对常见塑料食品包装材料物理化学性能的影响

目的辐照是食品行业中主要的消毒灭菌技术之一，通过系统综述国内外学者关于塑料食品包装材料辐照前后的变化，探究辐照技术对其物理化学性能的影响。方法介绍食品辐照技术及其发展过程，重点分析辐照对常见塑料食品包装材料的辐解行为、迁移行为及物理性能的影响。结果许多学者的研究都证明辐照会对塑料包装材料的光学、热学、力学性能及阻隔性等产生一定的影响，并导致降解产物的出现。结论辐照对塑料食品包装材料的性能存

期刊

“地摊经济”背景下高校学生创业实践助推专业能力发展的可行性研究

“西部有城市按照当地规范，设置了3.6万个流动商贩摊位，一夜之间10万人就业。”2020年5月28日，十三届全国人大三次会议闭幕后，国务院总理李克强在回答记者提问时公开点赞部分城市率先松绑“地摊经济”[1]。占道经营、马路市场、流动商贩不再列为文明城市测评考核内容，由此看来有序开放“地摊经济”将是常态。以“地摊经济”为背景，将汉江师范学院学前教育专业设为试点专业，通过调研和行动研究，从政策支持、学

期刊

一种由对苯醌合成对苯二酚的工艺研究

系统研究了对苯醌催化加氢的工艺，并筛选了合适的加氢催化剂，优化加氢的反应工艺。系统研究了反应温度、压力及加氢方式对对苯醌催化加氢反应的影响，提高了反应的安全性，确定最佳合成工艺条件，实现对苯二酚绿色合成的工艺目标。研究结果表明：以对苯醌为原料，负载型骨架镍为催化剂，在超重力催化装置中压力为1.5 MPa,温度为90℃条件下进行连续化反应，对苯二酚的产率最高。

期刊

C919商业首航万亿大飞机市场起飞

报纸

劳动教育融入高职院校专业教学的路径

将高职劳动教育融入专业教学，培养学生的劳动意识、劳模精神和工匠精神，是专业人才培养的内在要求。文章通过分析高职劳动教育的现状，明确劳动教育融入专业教学的问题，提出面向岗位劳动明确劳动教育的核心目标、立足培养方案构建劳动教育课程体系、服务行业企业创新劳动教育的实施模式、围绕培养目标设计符合劳动教育的评价方式等路径。

期刊

不同氨气浓度对生长猪生长性能和消化功能的影响

为研究不同氨气浓度对生长猪的生长性能及消化功能的影响,本试验采用单因素设计,选用36头50日龄体况良好、体重相近的杜×长×大生长猪,随机分为4个处理组,每组3个重复,每个重复3头猪,分别饲养在氨气浓度为:不添加（Ⅰ组）、25 mg/m~3（Ⅱ组）、35 mg/m~3（Ⅲ组）、45 mg/m~3（Ⅳ组）的环境控制代谢舱（舱空间为4.5 m×2.65m×2.5 m,除氨气浓度外,其余环境参数控制相同水

学位

输送带用聚氨酯(脲)修补胶的制备与性能研究

以二苯基甲烷二异氰酸酯（MDI）与聚四氢呋喃二醇（PTMG）的预聚物为A组分，PTMG、聚醚多元醇（330N）、端氨基聚醚（D2000）和二乙基甲苯二胺（DETDA）的混合物为B组分，制备了双组分聚氨酯（脲）修补胶。考察了异氰酸酯指数（R值）对凝胶时间、表干时间、力学性能、耐磨性能、耐水性能和耐热性能的影响。结果表明，随着R值的增大，修补胶凝胶时间和表干时间逐渐缩短，磨耗体积逐渐减小，拉伸强度、撕

期刊

高透明聚氨酯脲弹性体的制备与性能

以聚四氢呋喃醚二醇（PTMG）为软段，4,4’-二环己基甲烷二异氰酸酯（HMDI）和异佛尔酮二胺（IPDA）为硬段，采用预聚体法制备四种高透明的聚氨酯脲（PUU）弹性体。对PUU弹性体进行红外光谱、紫外光谱、力学性能、热学性能和流变性能等测试。结果表明：四种透明PUU弹性体均为无定型结构，在450 nm处紫外透过率均高于89.8%。随着硬段含量的增加，PUU弹性体的硬度、100%定伸模量和拉伸强度

期刊

赵海山:压紧压实责任织密织牢安全生产防护网

＜正＞4月22日，省商贸（成品油）暨省自贸区及海关特殊监管区安全生产专委会召开会议，贯彻全国、全省安全生产电视电话会议精神，总结去年以来工作情况，分析当前形势任务，安排部署下一步重点工作。副省长赵海山出席会议并讲话。赵海山指出，去年以来，我省商贸（成品油）领域、自贸区及海关特殊监管区安全生产形势总体平稳。当前，全省疫情防控形势严峻复杂，安全风险不确定性依然较大，专委会各成员单位要树牢底线思维，坚决

期刊

全感知状态下基于深度强化学习的无人驾驶超车决策

与本文相关的学术论文