【摘 要】
:
传统的无人飞行器航迹规划搜索算法虽然具有很强的路径搜索能力,但面临新的规划任务或飞行环境时,无法从历史经验中获得先验知识并加以运用。强化学习具有通过试探、评价的迭代学习过程获得经验的能力,进而得到使收益最大化的状态-动作映射策略。因此基于强化学习得到的策略可以在未知环境或新任务中将学到的策略作为先验知识,以此提高航迹规划的效率。深度强化学习利用深度神经网络对环境的强大感知能力和特征表征能力获得强化学习中的优化策略,使航迹规划策略学习模型对动态任务或复杂多变的环境具有泛化能力。论文针对多约束复杂环境的航迹规
论文部分内容阅读
传统的无人飞行器航迹规划搜索算法虽然具有很强的路径搜索能力,但面临新的规划任务或飞行环境时,无法从历史经验中获得先验知识并加以运用。强化学习具有通过试探、评价的迭代学习过程获得经验的能力,进而得到使收益最大化的状态-动作映射策略。因此基于强化学习得到的策略可以在未知环境或新任务中将学到的策略作为先验知识,以此提高航迹规划的效率。深度强化学习利用深度神经网络对环境的强大感知能力和特征表征能力获得强化学习中的优化策略,使航迹规划策略学习模型对动态任务或复杂多变的环境具有泛化能力。论文针对多约束复杂环境的航迹规划问题,提出了一种基于深度强化学习的策略自学习方法。结合规划任务、约束条件、飞行环境、优化目标等输入信息的特点设计深度强化学习系统的状态、动作、回报函数、策略-价值深度网络等关键模型。
在状态、动作空间的设计方面,通过对规划任务、全局环境和飞行器所处局部环境的图层编码表示,实现了飞行器转弯状态和匹配状态的图像化表示方法;利用两匹配导航点间的复杂约束条件构造转弯点的可行区间和下一匹配导航点的可行域,约减了动作的表达空间,这不仅使得经过探索和决策得到的航迹能够满足复杂的约束条件,而且可以有效地降低决策难度,加快航迹规划速度。
在回报函数设计方面,结合现有传统航迹规划系统中的优化目标设计强化学习中的回报函数,同时采用回报成型技术,将启发信息引入回报函数中,提高系统学习效率。
在深度强化学习过程的策略学习和表达方面,结合深度卷积神经网络和Actor-Critic方法设计了转弯点规划策略网络和匹配点规划策略网络。规划策略网络分两个步骤进行迭代学习:1)采用蒙特卡洛树搜索方法,基于规划策略网络引导无人飞行器探索环境,生成样本数据。2)规划策略网络对样本数据进行学习,更新策略。蒙特卡洛树搜索具有强大策略改进能力,能产生更优质的样本数据,有利于提高规划策略网络的学习效率。
实验结果表明基于论文设计的深度强化学习系统具备自学习能力,能够较好地完成航迹规划任务。所学规划策略在未知环境或新任务中具备泛化能力。
其他文献
【摘要】在目前的数据库实验教学设计中,任务驱动模式的应用为实验教学的开展奠定了扎实的基础。在任务驱动教学模式的影响下,学生的自身特点会更好的发挥出来,在教学的过程中,会使得学生的积极性得以提高,这对于实验教学的开展具有积极的影响意义。 【关键词】数据库 计算机 任务驱动 【基金项目】武汉大学珞珈学院2015年教研项目“基于任务驱动的差异化教学研究”。 【中图分类号】TP311.13?鄄4【文
【摘要】小学语文教师在传统的学生观下往往带有错误的认知,这无疑让小学语文新课改的发展进程受到了阻碍。小学教育作为义务教育的初级阶段,有着很重要的作用。尤其小学语文也将对小学生的语言表达能力、写作能力等起到很大的启蒙作用。小学语文教师对学生观的态度和看法直接影响到学生以及小学生以后的发展。所以,本文就在一定的理论基础上对新课程背景下小学语文教师的学生观及其转变进行论证研究与分析。 【关键词】新课程
【摘要】小学语文作文能力突出表现着学生的语文综合素养,而高师小学教育专业学生的小学生作文指导能力相应就成为我们培养的重点。我们建构的“学·教·研”三结合的高师院校小学教育本科专业学生的小学生作文指导教学研究与实践体系,从学习主体学生的“体悟—辨析—观摩—教学—研讨”的“学”出发,以教师的“定教—析教—导教—试教—研教”的“教”为引导,“案例分析—理论讲析—观摩赏析—模拟教习—问题研习”的教学环节为
【摘要】随着我国新课程改革的不断实施和发展,对广大的教育工作者提出了很多的要求,在课程的开展上要求开全、开足,不能让学生有压力过大的感受,尽量减少他们的压力,用最少的时间、精力和物力换取最为理想的教学效果,成功打造出我国的高校课堂。本文着重对于我国的高中数学教学提出高校课堂构件的一些建议,希望可以使我国的高中数学教学可以在高效课堂的指引下健康平稳的发展。 【关键词】高中 数学教学 高效课堂 【
【摘要】“研究型教师”是我国教师专业发展的方向,亦是农村名师发展的目标。本文试图以农村名师发展为切入点,探讨“生活教育”对于农村名师发展的理论和实践价值,并提出了如何向“研究型教师”转变的几点建议。 【关键词】生活教育 农村名师 研究型教师 【中图分类号】G625.1【文献标识码】A 【文章编号】2095-3089(2015)35-0111-02 “研究型教师”是我国教师专业发展的方向,亦是
【摘要】针对目前不少职业学校学生存在的厌学、上课玩手机等现象,提出了自己的做法,大力进行教学改革,采用采取一体化课程教学模式,培养学生的综合职业能力,适应社会的飞速发展。 【关键词】综合职业能力 一体化 教学 【中图分类号】G718.3 【文献标识码】A 【文章编号】2095-3089(2015)35-0110-01 目前,不少职业学校都存在这样一些现象:学生厌学,上课睡觉,玩手机的现象越来
【摘要】什么是“一流高职”?一流高职院校有何特征?普通高职院校与一流高职院校差距何在?如何缩短差距?本文以武汉城市职业学院为例,从基本办学条件、社会服务能力、师资条件、专业建设、人才培养等方面,将其与深圳职业技术学院、武汉职业技术学院、湖北职业技术学院等三所国家示范高职进行对比,分析其存在的差距并找出缩短差距的对策,从而更好地促进普通高职院校的发展。 【关键词】一流高职 差距 对策 【中图分类
【摘要】“学案分组教学法”又称“导学课堂教学模式”,源于一所薄弱学校为提高教学质量的探索,有别于传统课堂以教为中心,突出学生的学,从教为设计中心教案转向学为设计中心学案,以高效课堂理念为依托,教师注重对学生在预习、展示、反馈环节中学习能力的评价。主张“以学评教”理念,建立“相信学生,解放学生,利用学生,发展学生”的学生评价目标体系。在实际课堂教学活动中,教师应做到转变传统课堂教学观,关注学生发展,
【中图分类号】G633.6 【文献标识码】A 【文章编号】2095-3089(2015)35-0137-01 从心理学角度讲,十几岁的青少年都有强烈的好胜心理,而且在他们成功时,由于心理上得到欣慰和满足,很容易接受别人的引导和鼓励。因此,要使学生对数学产生浓厚的兴趣,除了注重情感教育外,还要破除学生对成功的神秘感,并处理好许多的“第一次”充分发挥“首次效”的积极作用。 从教学中告诉学生,并不是
目标检测技术是计算机视觉领域的重要课题之一,在诸多智能系统中具有广泛运用。本文提出了基于目标区域估计的高性能目标检测算法,在红外小目标和面目标检测任务中取得了较好的检测效果。
本文首先针对红外小目标检测在强杂波下的高虚警问题,提出基于目标区域估计的红外小目标检测算法;算法首先构建了基于全卷积网络的小目标区域估计模型从而得到候选的目标区域;针对估计结果中的高虚警问题,算法进一步构建了目标置信度判别网络,该网络通过SENet结构融合背景抑制前后的图像特征对目标真实性进行判别,最终算法在测试集上实现了