【摘 要】
:
本文针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题进行研究。提出一种基于模型的内在奖励强化学习算法。该算法采用并行架构,完全解耦数据收集操作和策略更新操作,提升了算法的学习效率。采用内在奖励的方法提升智能体对于环境的探索效率,避免收敛到次优策略。在策略学习过程中,智能体针对模拟环境的动态模型进行学习,从而可以在有限步内更好的预测状态、奖励等信息。最终通过结合有限
【基金项目】
:
国家自然科学基金(61971092,61701503);
论文部分内容阅读
本文针对当前强化学习算法在无人机升空平台路径规划任务中样本效率低、算法鲁棒性较差的问题进行研究。提出一种基于模型的内在奖励强化学习算法。该算法采用并行架构,完全解耦数据收集操作和策略更新操作,提升了算法的学习效率。采用内在奖励的方法提升智能体对于环境的探索效率,避免收敛到次优策略。在策略学习过程中,智能体针对模拟环境的动态模型进行学习,从而可以在有限步内更好的预测状态、奖励等信息。最终通过结合有限步的规划计算以及神经网络的预测,提升对于价值函数的预测精准度,从而利用较少的经验数据完成对于智能体的训练。实验结果表明,我们的算法相比于同样架构的无模型强化学习算法,达到相同的训练水平所需的经验数据量要少近600幕数据,样本效率和算法鲁棒性都有大幅提升。相较于传统的非强化学习启发类算法,分数提升接近8000分。相较于MVE等主流的基于模型的强化学习算法,算法的平均分数可以提升接近2000分,并且在样本效率和稳定性上都有明显的优势。
其他文献
液体压强的计算公式p=ρgh中的h是指液体的深度,在实际的应用过程中,有些同学往往将"深度""高度""长度"等混淆.下面我们通过举例加以区别.正确理解"深度"液体内某处的深度就是从液面到该处的垂直距离.如图1所示,hA即为A点的深度."液面"指的是压强为零的液面(以下简称零液面).在只考虑液体压强时,零液面即为液体的自由液面,如图1中与空气接触的液面,A点的深度为hA.当需要考虑大气压强时,
路径规划是无人机控制过程中的重要环节之一,现有基于粒子群等算法的传统路径规划方法存在容易陷入局部最优等问题,无法适应现实场景中复杂环境及高搜索速度的要求。针对已有方法的缺陷,提出一种无人机路径规划的高性能细菌觅食-遗传-粒子群混合算法,以传统粒子群优化算法为基础,引入细菌觅食算法及遗传算法思想,提高算法计算速度与能力,同时考虑实际场景中无人机的运行约束,进一步提高了方法的可用性。最后,利用仿真实验
斑点叉尾鮰鱼骨经过熟化、干燥、搅碎、细磨等工序制得鱼骨粉。以鱼骨粉、胶原蛋白、山梨糖醇、硬脂酸镁为原料,通过粉末直接压片方式制得钙片。以休止角、硬度、片重差异为考察指标,在单因素试验的基础上,采用正交试验确定最佳配方比例:鱼骨粉30%、胶原蛋白10%、硬脂酸镁1.5%、山梨糖醇58.5%。
为了提高对电网线路的自主巡检能力,设计了基于红外影像辅助技术的无人机自主巡检规划方法。在对电网线路实施红外成像处理的基础上,在机器视觉环境下提取红外影像的边缘轮廓特征量和纹理信息。然后结合对红外影像的信息融合和边缘区域检测结果提取影像的像素类别,通过模糊聚合融合处理方法检测影像的主成分特征,从而完成对影像信息增强处理。基于此,建立自适应图谱特征分集模型,再利用结合相似度特征分解方法实现对无人机自主
兴隆山作为国家4A景区,具有丰富且独特的旅游资源,但旅游资源的开发对当地环境也带来了一定程度的破坏。文章介绍了甘肃省兰州市榆中县兴隆山已开发的旅游资源,在进行实地考察的基础上对兴隆山旅游资源开发过程中存在的问题及原因进行分析,并针对问题提出改进的措施。
八大河特大桥主桥为中央索面变高度预应力混凝土部分斜拉桥,跨径布置为(125+230+125) m,采用塔墩梁固结体系。主梁为变高度混凝土单箱三室连续箱梁,采用C55混凝土和纵、横、竖三向预应力体系;桥塔布置在主梁截面中央,采用钢筋混凝土矩形实体截面,桥面以上塔高39 m;桥塔横桥向布置2排斜拉索,每侧设16对,斜拉索采用?s15.2 mm环氧喷涂钢绞线,标准抗拉强度1 860 MPa,梁上锚固点处
营收规模超200亿元、市值超过2000亿元,京东健康(06618.HK)年稳坐医药电商行业头把交椅。依托京东集团(09618.HK)超5亿活跃用户、覆盖全国的物流网络以及高效的供应链管理能力,京东健康快速构建了"医+药"双轮驱动闭环模式,而自2020年底登陆港交所后,京东健康又通过与外部优质资源合作的方式,将业务升级为"医+药+险"的"B2B+B2C+O2O"兼具零售药房和在线医疗功能的综合
潜艇的隐身技术的现状潜艇是一个国家的战略力量,作为水下的大型机动平台,其行动隐蔽,攻击能力强,可执行复杂任务,具有强大的战斗力。携带强大攻击武器潜伏在深海的潜艇,能够让一个舰队"退避三舍"。因此,保证己方潜艇的安全,消灭敌方潜艇,是海上作战的重中之重。从潜艇诞生至今,探潜和潜艇隐身技术就在不断地发展,各国海军都希望强己之盾,利己之矛。进入21世纪以来,潜艇减振降噪技术进一步发展,致使潜艇的辐
一、液体对容器底和侧壁的压强由于液体具有流动性,它所产生的压强具有如下几个特点:液体除了对容器底部产生压强外,还对"限制"它流动的侧壁产生压强。固体则只对其支承面产生压强,方向总是与支承面垂直。二、液体内部的压强液体压强的测量仪器叫"U形管压强计"。在U型玻璃管内盛了有色的水,玻璃管一端用橡皮管连接一个开有小孔的金属盒,金属盒上蒙有一层橡皮膜。未对橡皮膜加压时,U型两管中的水面在同一高度上,
针对有人机和无人机协同执行探测任务中,无人机使用可见光传感器对目标进行抵近查证的航路自动规划需求,基于对可见光传感器成像影响因素的分析,结合无人机传感器性能、飞行性能以及与有人机的通信约束、敌方威胁分布等因素,提出了利用可视图法避开敌方威胁区的无人机查证航路规划方法,并且能够在目标状态发生变化或者出现威胁等情况下,重新规划查证航路。仿真结果表明,该算法能够生成满足探测要求和战场约束的无人机查证航路