随机博弈框架下的多agent强化学习方法综述

来源 :控制与决策 | 被引量 : 0次 | 上传用户:coophui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向.
其他文献
网箱养鱼泛库即在网箱养殖过程中 ,由于极度缺氧 ,网箱鱼在极短时间内大量窒息死亡的现象。由于网箱成鱼密度大 ,集中 ,而且出现在灾害性天气 ,整个湖库缺氧 ,导致依靠湖库自
<正>代餐饮食近几年来越来越流行,这类饮食的卡路里含量很低,每天为600到800千卡,可以有效地减轻体重、降低血压和逆转糖尿病。不过最近英国《每日电讯报》上刊登的一项研究
桥之城RichardAaron为了把克利夫兰带进21世纪,西雅图RossDeAlessi照明设计事务所的RossDeAlessi和BrianLockwood把想象与实际的运作结合起来,做出了克利夫兰24座桥中18座的照明设计方案。其中8座被市政当局和...
在当前大规模的农业产业结构调整中,稻田养殖生产,特别是养蟹发展很快,成为农业增效、农民增收的一个重要项目.但是,目前稻田养蟹存在着河蟹规格偏小、市场价格偏低的突出问
经典线性算法的非线性核形式是近10年发展起来的一类非线性机器学习技术.它们最显著的特点是利用满足Mercer条件的核函数巧妙地推导出线性算法的非线性形式。并表述为与样本数
目的对在腹腔镜胆囊切除术中应用瑞芬太尼丙泊酚联合丙泊酚或七氟醚全麻的麻醉效果和安全性进行探讨。方法将北京市门头沟区医院于2018年11月~2019年11月需进行腹腔镜胆囊切
目的探讨强化手术室护理用于腹腔镜子宫全切手术治疗患者的效果。方法选取2018年7月~2019年8月在陆军第八十集团军医院接受腹腔镜子宫全切术治疗的80例患者,按随机数字表法分
我国国家标准GB1354-86觇定,各类大米按加工精度分等。所谓加工精度是指糙米皮层被碾去的程度或留皮程度。目前,大米按加工精度不同,分特等、标一、标二、标三等级。等级高的优
目的探讨间歇性蓝光治疗和持续性蓝光治疗新生儿黄疸的效果。方法于本院2016年1月至2018年10月接收的新生儿黄疸患儿中选取68例,随机分为观察组(34例)与对照组(34例)。给予对