基于强化学习的四旋翼无人机路径规划方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:libq19811022
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
路径规划是机器人导航控制中非常重要的环节之一,是指机器人按照时间,距离等性能指标,搜索一条从起点到终点的最优、近似最优或者次优的路线。路径规划问题由来已久且具有较为丰富的算法,但目前的算法中大都需要已知环境,然而在多数情况下,环境模型难以描述和获取。另一方面由于多数方法中路径拐点较多且只能够沿着四个方向运动,极大程度的限制的路径的平滑程度并且给机器人的导航控制带来了巨大挑战。针对以上问题,本文在栅格地图的基础之上,将四个方向增加至八个方向,能够进一步平滑路径且获取距离更短的路径,并进行了一下研究:首先,在诸多强化学习方法中,以时间差分方法中的异策略的Q-learning方法为基础,以栅格为状态集,八个动作为动作集,不需要环境模型,依靠自身与环境交互即可完成路径规划任务。其次,由于Q-learning产生动作的策略与评估的策略不同,可以利用其它经验帮助自身学习,因此,引入谱图理论和流形学习的思想,借此获取能够清晰反应起点到终点距离关系的先验知识,与Q-learning方法融合共同指导智能体寻找最优路径。再次,引入Dyna框架,智能体通过与环境交互获取实际经验,一方面,这些数据会被直接强化学习使用更新值函数,另一方面,通过学习得到环境的估计模型,该模型会运行产生虚拟样本用来更新值函数。该方法能够加快收敛速度,迅速找到最优路径。最后,针对三种强化学习方法,在多种地图中进行了仿真研究及对比分析。
其他文献
大气PM2.5污染是危害人类健康的重要因素,已经成为全球热点问题。长期暴露于大气PM2.5污染与疾病的发生和死亡密切相关,特别是心血管疾病和呼吸系统疾病,但不同研究的结论并
[目的]研究总结马大正老师治疗带下病的临证经验。[方法]主以案例分析的方式,从病因病机、治则治法方面论述马老治疗带下病的学术观点和临床经验,并对其基本方药配伍及常用加
1922年华盛顿会议以后,各国对未加限制的辅助舰投入了大量的财政预算,辅助舰的无序扩张增长,表明军备竞赛仍在继续。为裁减军备在1927年6月召开的日内瓦海军裁军会议也因英美
[目的]讨论益气健脾颗粒对慢性阻塞性肺疾病(chronic obstructive pulmonary disease,COPD)稳定期患者第1秒用力呼气容积(FEV1)、深吸气量(IC)及身体质量指数(BMI)的影响。[
由安徽工业大学申请的专利(公开号CN 107573547A,公开日期2018-01-12)“一种具有相变调温性能的钢渣-纤维复合橡胶填料及其制备方法”,涉及的复合橡胶填料包括相变调温钢渣和
在深入分析影响网络舆情发展变化的各种因素的基础上,建立了三层网络舆情指标体系。针对表征舆情事件样本数据的非线性动态变化等特点,提出一种改进的Elman神经网络模型。该
随着中国经济进入减速提质的新时代,传统的成本管理方法由于只注重企业内部生产环节的成本核算,而忽略外部经营环节对企业成本的影响,已经无法满足当今企业高质量发展的要求
MTO装置水系统主要存在水洗塔压降升高、水洗水换热器换热效果下降等问题,常用的高压水清洗或加柴油、二甲苯清洗方法处理效果不佳、成本较高、施工安全隐患较大,为此开发了T
目的:血小板能够促进肿瘤转移,降低血小板数目或者抑制其功能可以明显抑制肿瘤转移。肿瘤坏死因子相关凋亡诱导配体(TRAIL)是肿瘤坏死因子超家族的成员,可以选择性地诱导肿瘤
目的了解山西省助产机构服务能力情况,为提高产科服务能力及制定相应政策提供依据。方法对山西省具有接产能力的医疗机构进行普查,发放统一调查问卷,对产科相关质量相关指标