融合类人驾驶行为的无人驾驶深度强化学习方法

来源 :集成技术 | 被引量 : 0次 | 上传用户:WUYU8888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现有无人车辆的驾驶策略过于依赖感知-控制映射过程的“正确性”,而忽视了人类驾驶汽车时所遵循的驾驶逻辑.该研究基于深度确定性策略梯度算法,提出了一种具备类人驾驶行为的端到端无人驾驶控制策略.通过施加规则约束对智能体连续行为的影响,建立了能够输出符合类人驾驶连续有序行为的类人驾驶端到端控制网络,对策略输出采用了后验反馈方式,降低了控制策略的危险行为输出率.针对训练过程中出现的稀疏灾难性事件,提出了一种更符合控制策略优化期望的连续奖励函数,提高了算法训练的稳定性.不同仿真环境下的实验结果表明,改进后的奖励塑造方式在评价稀疏灾难性事件时,对目标函数优化期望的近似程度提高了85.57%,训练效率比传统深度确定性策略梯度算法提高了21%,任务成功率提高了19%,任务执行效率提高了15.45%,验证了该方法在控制效率和平顺性方面具备明显优势,显著减少了碰撞事故.
其他文献
泰国电视剧于2004年进入中国,当时播出的第一部,由于泰国电视剧刚刚进入中国,所以这部电视剧的成绩不是很理想。直到2008年,中国中央电视台播出《天使之争》,受到了观众的热
制造业是国民经济的主体,是立国之本、兴国之器、强国之基。随着低成本优势的消失,我国制造业企业过去依靠资源要素投入、规模扩张的粗放型发展模式难以为继,而内外需低迷、产能过剩又加重制造业的生存危机。自2014年起,我国制造企业面对着“前后夹击”的困境,转型升级迫在眉睫。2015年5月,国务院印发《中国制造2025》,提出制造型企业要提高创新投入、加快转型升级,努力推动我国成为制造强国。然而,在转型过程
固体氧化物燃料电池(Solid-Oxide Fuel Cell,SOFC)因其能量转换效率高而备受关注,但其相关技术非常复杂,技术成熟度比质子交换膜燃料电池、直接甲醇燃料电池等其他类型的燃料
本文通过对荣华二采区10
灾害发生后,为挽救更多的生命,应急物流格外重要。伊斯坦布尔是土耳其中灾害发生次数最多、程度最大的地区。因此,作者在本文中研究伊斯坦布尔应急物流系统中应急物资配送问
目前,经济和科技都在以史无前例的速度发展,这带来了在假设、概念、交易、企业竞争等方面的一系列变革。整个世界瞬息万变的商业环境极大地影响了客户的需求、期望和偏好,这
目的 建立检测软水机产品的软化功能稳定性的方法,对产品质量进行检测和监督.方法 采用浓度为总硬度(以碳酸钙计)450 mg/L的自来水作为通水原水,按照再生周期净水量,4段5次采
题型一、制备气体和性质实验rn例1(2017年衢州市中考题)小柯用高锰酸钾制取氧气,并用制得的氧气来探究白磷燃烧的条件.rn(1)指出图甲装置中存在的错误是____.rn(2)乙中的白磷
期刊
俗话说“芝麻开花节节高”,我从未见过芝麻开花,更不知道它如何“节节高”.好奇心使之,我便自动手种芝麻.rn1.播种rn芝麻种植对土壤要求较高,于是我在网上买了一袋营养土.初
期刊
一、磁体的磁性分布rn例1如图所示,重为G的小铁块在水平方向力F的作用下,沿条形磁铁的表面从N极滑到S极,在此过程中小铁块对磁铁的压力大小变化情况是____.rn[易错答案]不变r
期刊