【摘 要】
:
针对扑翼飞行器机动性能弱的问题,提出一种在未知环境下示教学习辅助的强化学习局部路径规划算法(IL-PPO2).首先,基于扑翼飞行器的受限视角的双目感知系统,提出一种心形避障算法,降低避障时对扑翼飞行器控制精度的要求,提高避障鲁棒性;其次,根据心形避障算法的特性,提出一种U型障碍的避障策略;最后,提出一种示教学习辅助的强化学习局部路径规划算法,将心形避障算法与局部路径规划算法相结合,实现扑翼飞行器的局部路径规划.仿真结果表明:与TD3fD强化学习算法相比,IL-PPO2算法能够缩短模型训练时间,路径规划效率
【机 构】
:
浙江大学航空航天学院,杭州310027
论文部分内容阅读
针对扑翼飞行器机动性能弱的问题,提出一种在未知环境下示教学习辅助的强化学习局部路径规划算法(IL-PPO2).首先,基于扑翼飞行器的受限视角的双目感知系统,提出一种心形避障算法,降低避障时对扑翼飞行器控制精度的要求,提高避障鲁棒性;其次,根据心形避障算法的特性,提出一种U型障碍的避障策略;最后,提出一种示教学习辅助的强化学习局部路径规划算法,将心形避障算法与局部路径规划算法相结合,实现扑翼飞行器的局部路径规划.仿真结果表明:与TD3fD强化学习算法相比,IL-PPO2算法能够缩短模型训练时间,路径规划效率与成功率明显高于TD3fD算法;与动态窗口法(DWA)相比,IL-PPO2算法能够提高路径规划的成功率,并且有效融合心形算法,提高路径的平滑程度.
其他文献
针对传统K-means聚类算法受初始类中心影响导致聚类准确度较低的问题,利用量子粒子群优化算法全局搜索能力强、收敛速度快的优势,提出一种基于改进量子粒子群的K-means聚类算法.为防止量子粒子群优化算法陷入局部极值,采用具有高斯扰动的局部吸引子以提高种群跳出局部最优的能力;为提高算法的收敛速度,采用加权更新种群平均最优位置以充分发挥精英粒子的优势;通过对收缩-扩张因子和随机变量参数进行交叉实验,选出最佳参数组合策略.在标准测试函数上的仿真结果表明:改进的量子粒子群优化算法在寻优精度、收敛速度以及稳定性上
为解决废石堆存造成的一系列环境及安全问题,明确铁矿废石制备砂石骨料工艺流程,以辽宁鞍本地区某铁矿废石为例,在对其性质进行分析的基础上,开展了基于Bond球磨功指数试验与JK落重试验的碎磨特性参数研究.Bond球磨功指数试验结果显示,该铁矿废石Bond球磨功指数Wib为12.05 kWh/t.JK落重试验结果显示,该铁矿废石抗冲击粉碎模型为t10=71.25(1-e-0.52ECS),其中冲击粉碎参数A×b的值为37.05;磨蚀系数ta的值为0.17;相对密度为3.06.试验结果表明,该铁矿废石抗冲击粉碎能
提出一种基于平稳切换策略的LPV系统状态反馈H∞控制器设计方法,以抑制子系统切换产生的瞬态响应.将时变参数变化范围划分为有限个具有重叠区域的子空间,应用Lyapunov函数和投影定理,对子空间设计相应的状态反馈控制器,并在非重叠区域调用.在重叠区域内加权调用相邻子空间的控制器,结合平均驻留时间方法,使系统满足全局一致指数稳定.此外,提出一种重叠率可变的子空间划分方法.最后,通过数值仿真验证所提出方法的有效性.
针对受外界干扰的水下机器人,提出一个预定性能控制器.首先,针对水下机器人的外界干扰,设计一个干扰观测器并且估计误差在有限时间内收敛至零;然后,利用干扰观测器进行前馈补偿,基于一种指数型障碍李雅普诺夫函数设计一个非奇异快速积分终端滑模控制器,使得水下机器人的轨迹跟踪误差在有限时间内收敛至零并且满足预定的性能要求;最后,严格地证明控制系统的稳定性,并通过仿真实例验证所提方法的有效性.
多目标优化算法的主要目标是实现好的多样性和收敛性.传统的高维多目标优化算法,当目标维数增加时,选择方式难以平衡种群的收敛性与多样性.对此,提出一个基于指标和自适应边界选择的高维多目标优化算法.在环境选择中,首先计算种群中两两个体的指标Iε(x,y)作为第一选择标准;其次,提出一种自适应边界选择策略,利用种群进化信息对超平面系数进行模糊预测;再次,近似计算待选个体到超平面的范式距离作为第二选择标准;最后,将所提出算法与5种代表性的高维多目标算法进行比较,实验结果表明,所提出算法在处理复杂Pareto前沿高维
针对欠驱动水平TORA(translational oscillators with rotating actuator)系统,提出一种基于生物启发模型的有界输入控制方法,实现系统在执行器存在饱和约束情况下的镇定控制.首先,根据水平TORA系统的动力学模型分析系统的无源特性,进而给出系统的控制目标;接着,基于无源特性构造一种新颖的Lyapunov函数,在此基础上设计一种结构简单的非线性状态反馈控制器;然后,考虑执行器的饱和约束条件,引入受生物启发建立的神经动力学模型,利用该模型的有界平滑输出特性,设计一种
针对具有预防性维修(PM)和顺序相关准备时间(SDST)的不相关并行机调度问题,提出一种多群体人工蜂群算法(MABC)以同时最小化完工时间和总延迟时间.该算法将雇佣蜂分割成s个雇佣蜂群,除最差雇佣蜂群外,每个雇佣蜂群都对应1个跟随蜂群.结合2个目标函数、PM和SDST的特征设计3种邻域搜索,采用全局搜索和邻域搜索的不同组合实现雇佣蜂阶段和跟随蜂阶段,并引入两种淘汰过程.通过大量实验测试MABC新策略和搜索性能,计算结果验证了新策略的有效性和MABC的搜索优势.
针对矩形件无约束二维板材剪切排样问题,提出一种新的4块排样方式及其生成算法.该排样方式将板材划分成4个块,对每个块,按照递归方式进行排样.选择一行同种矩形件放置在块的左下角,沿着这行矩形件的上边界和右边界将该块剩余部分划分成两个更小的子块以待进一步递归考察.首先,构造动态规划算法一次性生成所有可能尺寸的块中矩形件的递归排样方式;然后,采用隐式枚举算法确定板材的最优4块划分,得到矩形件在板材上的最优4块排样方式.采用文献基准例题和符合实际情况的随机例题,将所提出算法与几种典型的文献算法进行对比,实验结果表明
对于装配序列规划问题,现有算法大多聚焦于单一的目标构型.对于多目标构型以及大规模问题,现有算法往往存在维数灾难及泛化能力差等问题.为此,利用装配序列规划问题分层结构的特点,提出一种基于分层强化学习的适用于多构型装配任务的通用装配序列规划方法.首先,将装配序列规划问题构建为一个分层的马尔科夫决策过程,其中,上层进行序列规划,下层进行零件的动作规划,符合装配过程层次化的结构,使规划方法更具灵活性,且可解释性更强;其次,针对分层马尔科夫决策过程,提出一种基于分层强化学习的通用装配序列规划算法,提高规划方法对多种
异构无人机集群凭借其功能互补、能力协同的优势,能够适应复杂多变的战场环境、提升协同作战效能,而受到各军事强国的广泛关注并得到飞速发展.如何对异构无人机集群进行有效编组以达到良好的协同作战效果成为异构无人机集群“分布式”协同研究的重点,由此引出异构无人机集群“分布式”协同中针对异构无人机编组结构稳定性和能力协同性的优化问题.面向该问题,提出一种基于双层稳定匹配的异构无人机集群“分布式”协同算法.首先,对异构无人机集群“分布式”协同作战方式及匹配问题进行描述;然后,通过基于异构无人机之间的能力协同性构建偏好计