面向城镇驾驶任务的条件赋能与数据聚合强化学习方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sharethesun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
城镇驾驶任务是当前最具有发展前景的领域之一,它具有非常大的商业价值与科研价值。模仿学习是解决该任务的一种主流方法,但是其需要大量带标签的训练数据。同时为了使车辆具有处理极端情况(比如车辆即将发生碰撞)的能力,需要大量极端情况下的训练数据,这需要大量的人力物力且困难重重。但强化学习利用奖励机制让车辆在环境中进行探索学习所以不需要任何带标签的训练数据,并且强化学习能够利用神经网络进行策略和价值估计的拟合并感知理解环境状态,从而实现端到端的自动驾驶和导航控制。由于强化学习使用奖励机制进行学习,这种奖励信号相比于直接对动作的监督信号而言非常弱,且高维度的环境观测会限制经验池的容量,所以强化学习方法难以学习规模大参数多的神经网络。此外,对学习具有更重要作用的经验数据比如车辆即将发生碰撞,在交叉路口需要转向等数据在智能体与环境交互产生的总数据中占比非常低,这导致了智能体长时间无法学习到关键策略。针对该任务中强化学习难以学习复杂网络的问题,本文将条件赋能方法引入强化学习中。通过预先训练对环境观测的降维编码器,将降维结果作为条件赋能信息并融合其他具有先验知识的离散状态的条件赋能信息作为强化学习算法的输入,降低了城镇驾驶任务的环境观测信息的复杂度,增加了经验池的容量,并使得强化学习算法只需要学习规模较小的网络。实验结果表明基于条件赋能的强化学习方法能够有效降低学习难度,并且在该任务中基于价值迭代的强化学习方法在训练难度与收敛速度上比基于策略梯度的强化学习方法有显著优势。针对高效经验数据占比非常低导致长时间无法学习到关键策略的问题,本文提出利用分布式优先级经验回放增加智能体与环境交互产生的数据的多样性。并基于数据聚合的方法,根据车辆所处任务类型以及当前策略表现进行关键状态的采集并赋予合适的优先级,从关键状态集中进行经验采样用于强化学习训练。实验结果显示该方法在仅利用单目摄像头的自动驾驶测试基准上超过了已有的强化学习方法并接近成功率最高的模仿学习方法。在最困难的驾驶情景中泛化能力超过了目前最好的模仿学习方法,并且碰撞和闯红灯次数更少,驾驶安全性更高。
其他文献
旅游景点的吸引力评估可以对旅游业发达的城市提供建议。一个交通便利、旅游资源丰富的旅游城市能够极大地提升对于游客的吸引力,提升城市收入。因此对于一个以旅游业为主的城市,如何发展旅游产业,合理配置资源对于城市的发展具有重大的意义。而在现阶段,游客的规模和旅游目的地对城市规划者来说仍然很难获取。传统的调查问卷形式成本相对较高,且回收困难。而现有的旅游景点吸引力评估并没有考虑到交通可达性的问题,且考虑的影
追求产品的卓越是企业一直努力想要达成的目标,而产品从设计到量产,并不是一下就能做到最好,所以持续改进是企业的一个必要手段,是企业保持产品竞争力的一个重要措施。文章通过对国内外文献资料进行分析研究,发现PDCA在各个行业的不同领域均取得良好的应用效果。在工业领域,应用PDCA可以提升产品的良率,提高生产效率,改进工艺制程;在教育领域,应用PDCA可以提升教学质量,改进教学管理;在医学领域,应用PDC
小城镇居住街区能耗不仅与建筑单体相关,与群体形态也密切相关。建筑能耗在城镇总能耗占有较大比例,住宅建筑是城镇数量最大的建筑类别,因此,降低住宅建筑能耗可有效降低城镇总能耗。为探讨夏热冬冷地区小城镇居住街区空间形态对街区建筑能耗的影响,文章以浙江省小城镇为例,从该地区小城镇居住街区样本的类型、规模、规划形态和住宅建筑类型四个方面分析浙江省小城镇居住街区空间形态特征,提取出典型居住街区空间形态类型,对
在知识经济时代下,知识资源是各企业形成可持续竞争优势的关键,企业的知识管理水平对企业的生存乃至发展都至关重要。随着时代的快速发展和业主品质需求的提升,工程项目的规模和复杂度也随之增大。目前我国建筑企业并未针对不同建设主体、不同项目阶段开展全面的知识管理实践,缺乏行之有效的知识管理机制,项目各阶段的隐性知识未能得到及时地挖掘与存储就随着项目结束和团队解散而流失,建筑企业的知识整合能力有待提升。鉴于此
连续几年来制造行业客户需求定制化程度日益增大,产品更新迭代速度加快,生存周期越来越短,产品结构越来越复杂,涉及到多个学科和领域,企业在自主设计研发过程以及技术革新活动中产生了相当数量级的项目管理信息,研发团队越来越庞大,原来的项目管理模式已经不适应企业发展的需要,迫切需要流程再造和信息化系统升级来进行综合管理,来提升新产品项目、技术创新项目的研发攻关效率、质量和信息管理能力。本论文采用项目状态梳理
尽管中国证券市场不断发展,投资者热情不断增加,但是很多个体投资者无法对自己的投资作出系统分析。收益率计算是用户投资分析的重要基础,目前传统收益率计算方法在用户复杂投资场景下存在着收益率跳变、收益与收益率正负不一致等问题。传统的用户投资分析方法提供的维度较少且结果不够直观。另外随着互联网信息平台的迅速崛起,金融新闻在快速增加。新闻中的金融事件可以让用户了解自己投资盈亏波动中的事件因素,从而认识证券市
现如今,互联网的兴起、市场经济的繁荣发展,带来的是企业之间更加激烈的竞争,商业情报已然成为了企业占据优势地位的重中之重。商业情报不仅可以为企业规避风险,还可以为企业提供更准确高效的决策。企业关系作为商业情报的重要部分,已经成为了企业研究竞争对手的重点之一。但是关于企业关系的现有研究不够深入,尤其是分析的数据源单一、研究的关系类型过少,导致得到的企业关系不够详细准确。该课题建立在多源异构数据之上,研
建筑业在我国国民经济中发挥着举足轻重的作用,尤其是可以促进社会经济快速发展、改善人民生活水平。我国目前正处于城市化快速发展的重要时期,这为建筑业在工程项目管理方面设置了更高的门槛。在建筑业的项目管理中,进度计划和控制是重要的组成部分。项目管理的第一步是制定项目进度计划,合理的项目进度计划可以很好地平衡项目的成本和施工工期,促进项目的顺利实施。进度控制是项目施工进度计划顺利完成的实施手段,对于项目目
建筑业是我国国民经济高质量发展的支柱产业,但建筑业企业失信现象频出对建筑业高质量平稳可持续发展带来重大影响,与此同时,对失信企业的企业声誉以及竞争力也带来了不良影响。目前业界对建筑业企业信用修复的研究依旧处在初步探索阶段,对建筑业企业信用修复措施的研究尚未形成系统理论与方法,失信企业无法选取有效的自主修复措施。因此本文的研究目的是当建筑业企业发生失信现象时,如何科学地采取有效的信用修复措施,帮助企
建筑业作为与人民生活息息相关的产业,在国民经济中的支柱产业地位也非常稳固。建筑业维持稳定的增速,在疫情期间的经济复苏中发挥了不可替代的作用。然而,建筑业在稳步发展的同时,也面临着一些挑战,利润总量增幅持续放缓,产值利润率连续下降。建筑施工企业要想合理应对这些挑战,就需要在战略上更加有针对性,在管理上更加精细化。建筑施工企业的数量不断增加的同时,建筑施工企业的规模也在不断扩大,实力在不断增强。建筑施