随机博弈框架下的多agent强化学习方法综述

来源 :控制与决策 | 被引量 : 0次 | 上传用户：coophui

【摘要】

：

多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应

【作者】

：

宋梅萍顾国昌张国印

【机构】

：

哈尔滨工程大学计算机科学与技术学院

【出处】

：

控制与决策

【发表日期】

：

2005年10期

【关键词】

：

多agent系统随机博弈强化学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

多agent学习是在随机博弈的框架下,研究多个智能体间通过自学习掌握交互技巧的问题.单agent强化学习方法研究的成功,对策论本身牢固的数学基础以及在复杂任务环境中广阔的应用前景,使得多agent强化学习成为目前机器学习研究领域的一个重要课题.首先介绍了多agent系统随机博弈中基本概念的形式定义;然后介绍了随机博弈和重复博弈中学习算法的研究以及其他相关工作;最后结合近年来的发展,综述了多agent学习在电子商务、机器人以及军事等方面的应用研究,并介绍了仍存在的问题和未来的研究方向.

其他文献

网箱养鱼泛库的现象、原理和防止方法

网箱养鱼泛库即在网箱养殖过程中 ,由于极度缺氧 ,网箱鱼在极短时间内大量窒息死亡的现象。由于网箱成鱼密度大 ,集中 ,而且出现在灾害性天气 ,整个湖库缺氧 ,导致依靠湖库自

期刊

网箱养鱼冷库预防浮头急救

代餐饮食可能会损坏心脏

<正>代餐饮食近几年来越来越流行,这类饮食的卡路里含量很低,每天为600到800千卡,可以有效地减轻体重、降低血压和逆转糖尿病。不过最近英国《每日电讯报》上刊登的一项研究

期刊

心脏功能核磁共振成像《每日电讯报》

桥之城

桥之城ＲｉｃｈａｒｄＡａｒｏｎ为了把克利夫兰带进２１世纪，西雅图ＲｏｓｓＤｅＡｌｅｓｓｉ照明设计事务所的ＲｏｓｓＤｅＡｌｅｓｓｉ和ＢｒｉａｎＬｏｃｋｗｏｏｄ把想象与实际的运作结合起来，做出了克利夫兰２４座桥中１８座的照明设计方案。其中８座被市政当局和...

期刊

美国桥梁照明设计照明景观

稻田当年育成大规格商品蟹技术

在当前大规模的农业产业结构调整中,稻田养殖生产,特别是养蟹发展很快,成为农业增效、农民增收的一个重要项目.但是,目前稻田养蟹存在着河蟹规格偏小、市场价格偏低的突出问

期刊

河蟹稻田养殖早繁大眼幼体强化培育商品蟹养殖

照明系统中的电力控制

期刊

照明系统电力控制电子镇流器电源控制器

经典线性算法的非线性核形式

经典线性算法的非线性核形式是近10年发展起来的一类非线性机器学习技术．它们最显著的特点是利用满足Mercer条件的核函数巧妙地推导出线性算法的非线性形式。并表述为与样本数

期刊

机器学习核函数核形式支持向量机Machine learning Kernel function Kernel forms Support vector

瑞芬太尼丙泊酚联合丙泊酚或七氟醚全麻应用在腹腔镜胆囊切除术中的麻醉效果及安全性

目的对在腹腔镜胆囊切除术中应用瑞芬太尼丙泊酚联合丙泊酚或七氟醚全麻的麻醉效果和安全性进行探讨。方法将北京市门头沟区医院于2018年11月~2019年11月需进行腹腔镜胆囊切

期刊

腹腔镜胆囊切除术瑞芬太尼丙泊酚七氟醚麻醉效果

腹腔镜子宫全切术后应用强化手术室护理的效果研究

目的探讨强化手术室护理用于腹腔镜子宫全切手术治疗患者的效果。方法选取2018年7月~2019年8月在陆军第八十集团军医院接受腹腔镜子宫全切术治疗的80例患者,按随机数字表法分

期刊

腹腔镜子宫全切术手术室护理并发症满意度

优质大米的外观特征

我国国家标准GB1354-86觇定，各类大米按加工精度分等。所谓加工精度是指糙米皮层被碾去的程度或留皮程度。目前，大米按加工精度不同，分特等、标一、标二、标三等级。等级高的优

期刊

外观特征优质大米圆孔筛

间歇性蓝光治疗和持续性蓝光治疗的效果比较

目的探讨间歇性蓝光治疗和持续性蓝光治疗新生儿黄疸的效果。方法于本院2016年1月至2018年10月接收的新生儿黄疸患儿中选取68例,随机分为观察组(34例)与对照组(34例)。给予对

期刊

间歇性蓝光持续性蓝光新生儿黄疸不良反应

随机博弈框架下的多agent强化学习方法综述

与本文相关的学术论文