结合围捕问题的合作多智能体强化学习研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户：wangyaoxf520

【摘要】

：

机器学习一直是AI领域的研究热点。作为应用广泛的一种机器学习方法，强化学习在单agent情况下的研究已趋于成熟，而在多agent系统中的研究仍处于上升阶段，因为多agent系统本身的

【作者】

：

宋梅萍

【出处】

：

哈尔滨工程大学

【发表日期】

：

2005年期

【关键词】

：

多agent强化学习随机对策多机器人追捕-逃跑任务

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

机器学习一直是AI领域的研究热点。作为应用广泛的一种机器学习方法，强化学习在单agent情况下的研究已趋于成熟，而在多agent系统中的研究仍处于上升阶段，因为多agent系统本身的复杂性和动态不确定性增加了对学习算法研究的困难。应用数学领域中研究多人交互的对策论理论，为多agent系统中的学习算法的研究提供了一个很好的理论支撑。对策论与马尔可夫决策过程相结合便构建了一个用于研究交互式多agent学习的理论框架——随机对策。在此框架下的学习研究已经取得了一些成果，如对抗、非合作和完全合作系统中的学习以及重复对策中的学习等。本文针对随机对策框架下完全合作和理性合作的多agent学习进行了研究。完全合作的多agent系统中，在单agent学习算法的基础上研究偏差技术，并利用多agent系统的信息共享优势，提出了基于先验知识的共享策略学习算法。此外，用于实现学习的神经网络性能也会直接影响学习结果。针对反向传播神经网络收敛速度慢和易陷入局部最优等缺陷，提出利用合作粒子群优化方法对网络权值进行训练。它可以实现快速全局优化，改善网络学习性能从而有益于强化学习的效果。以上两方面都对加快学习速度发挥了很好的作用。理性合作情况下的多agent学习研究较少，关键问题在于两方面。一方面是目标函数的选择和计算，另一方面是学习过程中的决策协调，二者都在很大程度上影响着学习的效果。在理性合作情况下，提出利用Pareto占优解作为目标函数进行学习，它可以在提高个体理性的同时增加整体理性。为了减小学习过程中用于协调的时间费用和通信费用，而且不影响学习的速度，提出利用社会规则的方法完成学习过程中的隐式协调。制定的一系列互利性社会规则实现了多agent系统决策的统一和较高的整体性能。采用追捕-逃跑任务作为完全合作多agent学习的应用研究背景。构建一

其他文献

用近交系白化金黄仓鼠复制肾炎动物模型

本文选用近交系白化金黄仓鼠复制肾炎动物模型.发现近交系白化金黄仓鼠容易制作肾炎动物模型,其病理变化与自然发生的病变几乎一致,即:肾脏肿大,色泽苍白,肾外包膜部分或全部

期刊

近交系白化金黄仓鼠复制肾炎动物模型

不同时长阿奇霉素静脉滴注治疗小儿肺炎的疗效及安全性比较

目的探究不同时长阿奇霉素静脉滴注治疗小儿肺炎的疗效及安全性。方法选择小儿肺炎患者156例,随机分为A、B、C三组,三组患儿均使用10 mg/（kg·d）阿奇霉素静滴。A、B、C组分

期刊

阿奇霉素静脉滴注小儿肺炎azithromycin intravenous infusion pneumonia in children

基于可拓逻辑的机器学习理论与方法

机器学习已经被广泛应用到各种智能系统中，它是计算机系统有目的地自动增进知识并改善系统功能的基本手段，是使机器具有智能的根本途径之一。针对智能学习系统目前仍不具备

学位

机器学习可拓逻辑不相容问题学习策略

^18F—FDG PET／CT显像与^99mTc-MDP全身骨显像诊断骨转移的价值

目的评价18F-脱氧葡萄糖(FDG)PET/CT与99mTc-亚甲基二膦酸盐(MDP)ECT全身骨显像对骨转移肿瘤的诊断价值.方法对29例经病理或临床证实的恶性肿瘤患者进行18F-FDG PET/CT显像与

期刊

^18F-FDGPET/CT^99MTC-MDPECT骨转移全身骨显像^18 F-FDG PET/CT^99mTc-MDP ECT bone met

机电对象的自适应模糊控制

本论文在综合论述自适应模糊控制的基础上，对模糊逻辑系统的优化辨识、间接自适应模糊控制的控制方法、直接自适应模糊控制的控制方法、自适应模糊控制应用于机电对象做了连续

学位

自适应模糊控制机电对象自适应律并联机器人倒立摆伺服系统

基于多芯结构的光纤传感器研究

对与许多结构物，由于在载荷的作用下会发生弯曲和扭转，有时还伴随着温度热膨胀带来的影响。“智能结构”可主动矫正或补偿这些弯曲或扭转，因而常常需要测量或监测这些连续结构的

学位

多芯光纤干涉温度梯度弯曲传感器扭转传感器

小剂量多巴胺联合多巴酚丁胺治疗小儿重症肺炎的临床效果

目的观察小剂量多巴胺联合多巴酚丁胺治疗小儿重症肺炎的临床效果。方法选取我院2016年5月至2017年1月收治的重症肺炎患儿132例,随机分为研究组和对照组,各66例。对照组患儿

期刊

小剂量多巴胺多巴酚丁胺小儿重症肺炎low-dose dopamine dobutamine severe pneumonia in children

不确定T-S模糊时滞系统的鲁棒控制

T-S模糊模型的优点在于用它进行系统分析和控制器设计时,通过对非线性系统进行模糊建模,然后可利用一套系统化的方法来研究非线性系统的稳定性以及控制器设计问题。当T-S模糊

学位

T-S模糊系统时滞系统随机系统鲁棒控制鲁棒H_∞控制保成本控制自由加权矩阵线性矩阵不等式松弛不等式

射频消融治疗快速型心律失常951例临床分析

目的分析总结经导管射频消融治疗快速型心律失常的疗效，以进一步指导相关临床工作。方法回顾性分析951例（男532例，女419例）经导管射频消融治疗快速型心律失常患者的治疗结果，患者

期刊

一心动过速导管消融术并发症tachycardia catheter ablation complications

多孔硅光子晶体的气体传感技术的研究

多孔硅薄膜传感技术是20世纪90年代发展起来的一门新的传感技术,早期的研究大多集中在多孔硅薄膜的电学特性变化来实现对易挥发有机气体的探测。但是在恶劣环境下电学接触会

学位

气体传感器光子晶体多孔硅微腔透射峰漂移吸附特性电化学腐蚀

结合围捕问题的合作多智能体强化学习研究

与本文相关的学术论文