基于多智能体混合学习的多星协同动态任务规划算法(英文)

来源 :Chinese Journal of Aeronautics | 被引量 : 0次 | 上传用户:kc1223
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对多星协同动态任务规划问题,以往多采用基于启发式的重规划算法,但是由于启发式策略依赖于具体任务,使得优化性受到影响。注意到协同规划的历史信息对后续协同规划的影响,本文提出了一种基于策略迭代的多智能体强化学习和迁移学习的混合学习算法求解该问题近似最优策略。本文的多智能体强化学习方法利用神经网络描述各颗卫星的强化学习策略,通过协同进化的方法迭代搜索具有最优拓扑结构和连接权重的策略神经网络个体。针对随机出现的观测任务请求导致历史学习策略失效,通过迁移学习将历史学习策略转换为当前初始策略,保证规划质量前提下加快多星协同任务规划速度。仿真实验及分析结果表明本文算法对动态随机出现的任务请求有良好的适应性。 For multi-star collaborative dynamic task planning, heuristic-based re-planning algorithms are mostly used in the past, but the heuristic is dependent on the specific tasks, which makes the optimization affected. In this paper, a hybrid learning algorithm based on strategy iterative multi-agent reinforcement learning and relocation learning is proposed to solve the approximate optimal strategy of the problem by noting the influence of collaborative planning history information on subsequent collaborative planning. In this paper, the multi-agent reinforcement learning method uses neural network to describe the reinforcement learning strategy of each satellite and iteratively searches for the individuals of the strategy neural network with the optimal topology and connection weights through the method of co-evolution. Requesting for stochastic observational tasks leads to the failure of history learning strategies, transforming learning history learning strategies into current initial strategies through migration learning, and accelerating the planning speed of multi-star collaborative tasks under the premise of planning quality. Simulation experiments and analysis results show that the proposed algorithm has good adaptability to the task requests that appear on the fly.
其他文献
2008年10月30日,上海国际会议中心,来自世界5大时装周——巴黎、米兰、纽约、伦敦、东京的高层首脑共同聚首,分享了各自在时尚产业运营方面的经验,并为上海时装周的未来发展
一、中国湿地资源保护的立法状况中国湿地资源保护的立法工作起步较晚,起点较低。目前中国湿地资源保护的法律体系主要由以下三部分组成:(一)国家层面的湿地资源保护立法中国
基于轨迹线性化控制(TLC)理论提出了一种全驱动平流层飞艇轨迹跟踪控制设计的新方法.该方法由期望姿态生成、运动学控制和动力学控制3部分组成.首先利用期望轨迹的Frenet标架
14岁,我读初一,是班里的文娱委员。  这应该是一件特别光荣的事,因为每个班挑选文娱委员的标准几乎都是聪明伶俐、能歌善舞。可我不是,我是一个木讷的小孩,初中的老师并不像小学的老师那么了解我,她挑选我的理由仅仅是我的长相,因为我有个大额头,眼睛叽里咕噜乱转,她就断定我是活泼的。  老师让被选出的班干部全站起来,威严地说:“你们现在是班干部了,要在同学中起到榜样作用,要是谁做得不合格,我会炒掉他!”我
世界金融危机对我国国防科技工业造成的影响表现为有利和不利两个方面。这种双重性质,要求我们必须辩证地分析目前的形势,因势利导,趋利避害,加快发展。为此,应加大对军工企
1、杨万里有一首《过松源晨炊漆公店》,诗云:“莫言下岭便无难,赚得行人错喜欢。进入万山圈子里,一山放出一山拦。”诗人借助景物描写和生动形象的比喻,通过写山区行路的感受
在暖和的茧里安详地躁动揣想茧外的天地原以为灿然一笑会脱胎成完美破茧的痛苦只因,得到了还来不及开始的爱蝴蝶@尤佩云!528300$广东省佛山市顺德区第一中学腾龙文学社初二(3
期刊
1智慧城市与物联网的关系随着城市逐步向知识、信息、智慧枢纽为主的方向转型,“智慧城市”正逐步成为世界范围内城市现代化的发展模式。南京作为“智慧城市”的试点城市,201
“STV”在常人眼中也许是个神秘莫测的地方。可我,却不,因为我是个从小在电视台长大的“小电视人”。一、儿时的乐园还是两岁时,我就被妈妈牵着小手,跨进电视台的大门。在我
探讨了协同优化方法在通用再入飞行器总体优化设计中的应用以及各学科间耦合关系.对协同优化方法的流程及特点进行了分析,以通用再入飞行器总体优化设计为对象,研究如何利用