自主移动机器人导航与控制中的增强学习方法研究

被引量 : 0次 | 上传用户:ymlazy64
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用机器学习方法,特别是增强学习方法(Reinforcment learning: RL)提高移动机器人在未知环境中的控制性能和对环境的自适应能力,是自主移动机器人导航与控制研究领域一个非常重要的发展趋势。因此,本文在国家自然科学基金项目“基于核的增强学习与近似动态规划方法研究”的支持下,主要围绕增强学习中近似策略迭代(Approximate policy iteration: API)算法的性能评估、基于核的最小二乘策略迭代算法(Kernel-based least-squares policy iteration: KLSPI)的参数自动优化、近似策略迭代在移动机器人避障控制和自主驾驶车辆纵向速度学习控制中的应用进行研究。取得的主要成果和创新包括:1、首先对API算法进行了性能评估,通过实验对比分析,验证了API算法,特别是KLSPI在解决值函数平滑的序贯决策问题时性能更优,表明序贯决策问题值函数的平滑程度是影响API算法性能表现的重要因素。为克服KLSPI算法中核函数参数手动选择的不足,本文通过对初始样本进行ε-球近邻分析,得到稀疏化的核词典基础上,又提出了基于Bellman残差梯度下降的核函数宽度优化方法。仿真测试验证了这种核函数参数优化方法的有效性。2、对移动机器人自主避障行为决策过程进行Markov决策过程(Markov Decision Processe: MDP)建模之后,将滚动窗口路径规划和增强学习中的API算法相结合,提出了一种面向未知环境的移动机器人自主避障学习控制方法。仿真验证了该方法的泛化性能和对未知环境的自适应能力。同时,对两类不同的API算法用于自主避障时的学习效率进行了对比分析,结果表明基于KLSPI的自主避障方法可以更快地收敛到近似最优策略。3、在对高速公路自主驾驶车辆的研究现状、重难点问题和自主学习控制系统的研究意义进行分析后,对高速公路环境下车辆运动控制过程进行了MDP建模,提出了用于高速公路环境下自主驾驶车辆纵向速度控制的API学习控制方法,并对该学习控制方法进行了仿真研究。仿真结果表明基于API的学习控制方法可以实现对自主驾驶车辆期望速度较为准确的控制,为下一步自主驾驶车辆学习控制的深入研究打下了基础。
其他文献
经营者为了保护自己的财产权利不受侵犯,采取一些可能损害消费者人格权的措施,如强制存包、安装监控摄像头等。由此产生了经营者财产权利和消费者人格权利发生冲突的问题,Ca-
针对河北省2014年林业有害生物灾害发生情况,分析了2014年林业有害生物灾害的发生特点和主要原因,预测了全省2015年林业有害生物灾害的发生趋势,提出了治理对策。
随着我国市场经济的不断发展、社会交往的更加频繁、需求多元化的明显上升,使以资源为中心的交易无处不在,而任何交易都要订立契约,或者口头或者书面。可是,与“契约化”时代
甲壳虫汽车在德国汽车制造工业史上的地位恐怕无人能够企及,它是德国人在世界上引以自豪的产品之一,当年有多少人为拥有它而自豪,其中包括现任德国总统穆茨泽克,一代交响乐
奥尔夫音乐教学对于学习者的音乐素质重要性毋庸置疑,理解研究奥尔夫音乐教学理论不仅可以大幅提升音乐艺术学习者的音乐艺术水准,还能在此同时塑造音乐艺术学习者的良好品德,以
重症急性胰腺炎(SAP)病情重笃而复杂,并发症多,预后凶险,死亡率高达20%-50%。早期死亡与多脏器功能衰竭有关,晚期与胰腺周围组织大片坏死感染处理失当有关。为了提高生存率,1995-200
卫星导航系统是利用卫星来实现导航定位的系统。由于其在军事及民用领域的巨大作用和不可替代的地位而越来越受到各国重视,发展迅速。卫星导航接收机是卫星导航系统的关键设
目的:从基因表达水平探讨矽肺发生的分子机制,以染矽尘大鼠为研究对象进行肺组织基因表达谱的比较分析,并初步对差异基因的表达、功能及关键的生物学信息转导通路进行探讨,以
近年来,随着高校连续扩招毕业人数的逐年增加、全球金融性危机、市场经济条件下人力资源配置方式的转换以及国内就业法规政策调整等的影响,对大学生的职业意识形成了巨大冲击
分析金属制品企业贯彻ISO9000系列标准的必要性,介绍执行ISO9000系列标准的实践经验和体会,并对应注意的问题提出合理化建议。在贯彻标准过程中,强调管理层的作用,并且要全员参与