基于分层强化学习和社会偏好的自主超车决策系统

来源 :中国公路学报 | 被引量 : 0次 | 上传用户：dsq223

【摘要】

：

【作者】

：

吕超鲁洪良于洋王昊阳吴绍斌

【机构】

：

北京理工大学机械与车辆学院,北京 100081

【出处】

：

中国公路学报

【发表日期】

：

2022年3期

【关键词】

：

汽车工程自主超车决策系统分层强化学习先进驾驶人辅助系统社会偏好半基于模型的 Q-learning

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对超车过程中主车和被超越车之间的交互行为,引入心理学中的“社会偏好”来描述被超越车辆的纵向行为特征,并通过数据驱动的分类方法,提取社会偏好并将其融合在基于强化学习的自主超车决策系统设计中,通过分析大量真实超车数据中被超越车辆的社会偏好,认为该方法能够根据不同偏好情况产生合理的决策指令.首先,从大量真实超车数据中计算超车交互过程中被超越车辆的状态转移概率,并将其分成了 3类(利他型、利己型和互惠型),并设计一种半基于模型改进的Q-learning算法,将3种社会偏好的概率考虑在决策模型训练中;然后,搭建实时的社会偏好分类器用于对被超越车辆社会偏好的实时分类;再结合换道控制器的研究结果,组合构建完整的分层强化学习自主超车系统;最后,通过实车采集数据与仿真环境进行了自主超车的联合验证.研究结果表明:考虑了社会偏好的自主超车决策系统能够对被超越车辆的社会偏好进行实时预测,进而在更加复杂的超车情况中做出合理的决策;相比于不考虑社会偏好的传统自主超车系统,构建的自主超车系统展现了更好的舒适性和稳定性.研究结果创新性地将数据驱动的社会偏好作用于超车决策过程,提升了决策的自适应性和合理性,将有助于发展安全可靠的自主超车系统.

其他文献

基于自学习和监督学习混合驱动的智能汽车跟驰控制策略

随着人工智能技术的不断进步,越来越多的数据驱动方法被用于解决智能汽车跟驰控制问题,基于此,提出一种自学习和监督学习混合驱动的跟驰控制策略,实现拟人化的高性能跟驰控制.首先,基于实车试验平台采集跟驰数据,将跟驰控制问题建模为马尔可夫决策过程,利用深度强化学习中的深度确定性策略梯度建立自学习跟驰控制策略,基于长短期记忆网络对马尔可夫决策过程的状态转移进行建模,根据历史数据对未来状态进行预测,利用高斯混合回归和连续隐式马尔可夫模型建立具有人类驾驶人特性的跟驰参考模型并将其引入强化学习架构中.提出一种自学习和监督

期刊

汽车工程跟驰控制自学习监督学习深度强化学习数据驱动

氧化锌包覆氧化铁黄颜料的制备及其耐热性能

以六水合硝酸锌为原料,采用水热法制备氧化锌包覆的氧化铁黄颜料,考察不同六水合硝酸锌加料比(按氧化物物质的量比计,即n(Fe2O3)∶ n(ZnO)=10 ∶ 1,10 ∶3,10 ∶ 5,10 ∶ 7,10 ∶ 9)和包覆反应的不同水热处理温度(180、200、220、230、240℃)对氧化铁黄颜料耐热性的影响,并通过XRD、SEM、FTIR和TG-DTA对氧化铁黄颜料的结构和形貌进行表征.结果表明:氧化锌包覆后氧化铁黄颜色结构没有明显改变,保持针状形貌;随着六水合硝酸锌加料比的增加,氧化铁黄颜料的耐热

期刊

氧化铁黄氧化锌包覆水热法耐热性

基于混合域优化控制的智能网联车辆运动规划模型

智能网联车辆具备提高交通安全与效率、降低能耗的巨大潜力.作为智能网联车辆决策控制的重要环节,运动规划对于智能网联车辆的循迹精度、控制效果具有显著影响.为了提高智能网联车辆控制精度,提出了一种智能网联车辆运动规划模型.该模型以追踪参考路径为目标,基于时空混合域的优化控制方法,避免了轨迹追踪过程中横向控制掺杂纵向误差的影响,提高了模型控制精度.通过考虑车辆动力学、转向传动系统动态和底层控制时延,该模型可规划车辆纵向运动指令(加速度)、横向运动指令(方向盘转角),并确保运动规划指令能够被车辆底层控制准确执行.最

期刊

汽车工程运动规划优化控制智能网联车辆混合域自动驾驶

智能网联混行动力异构交通流生态驾驶

智能网联汽车最终会以电动汽车为实现载体,而人工驾驶车辆在未来相当长的时间里依然会以传统燃油汽车为主体.以此为背景,研究城市混行交通与动力异构条件下智能网联汽车的生态驾驶问题.考虑智能网联汽车低占比时的城市交通环境,以智能网联汽车电能消耗最小为目标,将智能网联汽车生态驾驶问题表征为最优控制理论框架下的两点边界值问题,并予以求解.同时,基于跟驰模型分析了智能网联汽车生态驾驶对大多数人工驾驶车辆燃油消耗的影响.在混行交通环境下,信号交叉口车辆排队依然无法避免,明确考察交叉口排队条件下的智能网联汽车生态驾驶问题,

期刊

交通工程生态驾驶最优控制滚动优化智能网联汽车混行交通动力异构

具有预设瞬稳态性能的有限时间智能车辆固定构型编队控制

智能车辆固定构型编队的瞬态性能(如编队误差收敛速度和超调量)对车辆协同动作及车辆行驶安全至关重要.针对含有模型不确定和外部扰动的车辆固定构型编队问题,提出一种考虑预设瞬态性能和稳态性能约束的有限时间车辆编队控制方法.首先,引入一种扰动观测器,实现对由模型不确定和外部扰动构成的复合扰动的有限时间有效估计;其次,将因车载传感器感知能力受限所造成的有限感知距离和有限视角转化为编队误差性能约束,预设非对称时变性能指标规范车辆编队误差的瞬态性能和稳态性能,并构建编队误差转换函数将有约束问题转化为无约束问题;然后,基

期刊

交通工程固定构型编队控制有限时间控制智能车辆预设性能约束扰动观测器

基于联盟链的电力物资采购数据共享激励机制

传统的电力行业电子商务平台面临着电子支付成本高、供应链全过程数据整合不足、网络数据安全性能低以及交易透明度缺失等问题,严重制约了电力行业电商平台的进一步发展.由于区块链技术具有去中心化、公开透明、不可篡改等优越特性,将其应用于电力行业电子商务平台,构建了基于联盟链的电力行业电子商务核心应用体系,设计了一套基于积分的电力物资采购数据共享激励机制,促进了电力企业间的数据共享.所提方案可以优化电力行业电子商务平台的交易流程及运营架构,实验结果证明了其可促进电力企业之间电力物资采购数据的共享,降低信息泄露风险,减

期刊

区块链电力行业电子商务平台联盟链激励机制

智能网联环境下车辆能耗与排放优化控制的研究现状与展望

随着智能车辆和现代通信技术的发展,基于智能网联信息的车辆优化控制已经成为智能交通领域重要研究课题之一,为了全面了解智能网联车辆优化控制的研究进展,对当前基于智能网联信息的车辆能耗与排放优化控制重点问题进行了概述.首先,在车辆运动学层面的能耗与排放控制中,根据信息交互的组合不同将现有研究进行分类,分别针对车-车、车-基础设施、车-车-基础设施以及车队-车队-基础设施信息交互的4种组合阐述了每种组合下车辆能耗与排放优化的关键问题与研究方法,并总结了在车辆能耗与排放优化时保证安全性与时效性的研究.其次,详细介绍

期刊

汽车工程车辆运行优化综述智能网联汽车一体化控制

一种驾驶权动态调整的人机主从博弈共驾方法

针对驾驶人和智能驾驶系统协同转向控制问题,构建驾驶权动态调整的主从博弈型人机协同转向控制框架,首先在该框架下对人机之间驾驶权重进行预分配,建立包含行车风险实时评估和人机操控冲突的驾驶权重调整方法动态调整人机之间的驾驶权重;然后将无意识竞争的人机协同关系描述为主从博弈交互关系,并将人机主从博弈条件下协同转向控制转化为模型预测控制优化问题,理论推导人机主从博弈均衡时双方的最优控制策略,通过主从博弈平衡实现驾驶人与智能驾驶系统操控动作的协同;最后设计包含路径跟踪精度和驾驶人驾驶负担的综合评价指标,并在所搭建的驾

期刊

汽车工程人机共驾方法主从博弈驾驶权重分配模型预测控制

雨雪天气对自动驾驶视觉图像质量的影响

为对自动驾驶汽车在雨雪天气下的测试提供可靠依据,保证汽车在雨雪恶劣环境下的系统可靠性,针对自动驾驶视觉图像质量影响的量化评估进行研究.通过封闭试验场模拟环境构建、测试工况和量化评估指标设计进行深入分析,研究雨雪天气对视觉图像的影响.首先,针对不同天气条件建立环境模拟方案,设计多种测试工况,采集不同降雨/降雪等级条件下不同车速、不同目标物环境下的图像数据(共包括48种静态工况和48种动态测试工况),为分析研究提供充足的数据基础.其次,针对不同工况特点设计图像整体质量评价指标和特征点提取评价指标,从不同角度对

期刊

汽车工程图像质量量化评估视觉图像雨雪天

基于自然驾驶数据挖掘的二阶车辆与行人交互测试场景

针对当前网联车车辆与行人交互(以下简称人车交互)测试场景复杂性低、无法充分涵盖真实道路情况下的人车交互场景测试需求问题,提出了一种基于自然驾驶数据的人车交互测试场景构建方法.该方法首次提出了二阶人车交互测试场景的概念,在传统人车交互场景基础上组合前序车辆运动场景,实现交互场景时间域扩充,并通过挖掘自然驾驶数据中人车交互场景及其前序场景的关联性与特征参数,构建更加符合真实情况的复杂人车交互测试场景.首先,在795 776条人车交互数据基础上筛选出135起有效人车交互事件及其前序事件,通过统计分析得到典型前序

期刊

交通工程测试场景聚类自然驾驶数据行人与车辆交互

基于分层强化学习和社会偏好的自主超车决策系统

与本文相关的学术论文