Multiagent reinforcement learning through merging individually learned value functions

来源 :Journal of Harbin Institute of Technology | 被引量 : 0次 | 上传用户：plateau_t

【摘要】

：

In cooperative multiagent systems, to learn the optimal policies of multiagents is very difficult. As the numbers of states and actions increase exponentially w

【作者】

：

张化祥黄上腾

【机构】

：

InformationandManagementSchool,Dept.ofComputerScieneeandEngineering

【出处】

：

Journal of Harbin Institute of Technology

【发表日期】

：

2005年3期

【关键词】

：

计算机技术专家系统知识工程评价函数 reinforcement learning multiagent value function

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

In cooperative multiagent systems, to learn the optimal policies of multiagents is very difficult. As the numbers of states and actions increase exponentially with the number of agents, their action policies become more intractable. By learning these valu

其他文献

辽宁省中小学足球教师职业生存状态研究

回回产卜爹仇贱回——回日E回。”。回祖一回“。回干肉果幻中 N_。NH lP7-ewwe--一”＄ MN。W;- __._——————》砧叫]们羽制作:陈恬’＃陈川个美食 Back to yield

学位

校园足球中小学足球教师职业生存状态

心理护理对提高痴呆患者生活质量的影响观察

目的研究心理护理对于老年痴呆患者生活质量的影响。方法将我院2015年6月—2016年8月间收治的76例老年痴呆患者,按照随机数字表法分为对照组与干预组各38例。对照组接受常

期刊

老年痴呆心理护理生活质量影响

旅游经济视域下以西安为中心体育赛事发展构想

西安作为我国的历史文化名城,其本身的旅游行业发展非常的迅速,近些年来,西安的旅游业为了更好地吸引游客,也在开始逐渐的改变。其中一项改变的内容,就是要尽可能地发展体育

期刊

旅游经济视域西安体育赛事发展西安体育赛事构建

测试超高频小功率三极管hFE时自激振荡的一种消除方法

本文结合实际检测工作,提出测试微波小功率三极管直流参数hFE时,对所产生的自激振荡信号的一种基于微波低通滤波器的消除方法.并给出一个设计实例.

期刊

功率三极管消除方法HFE自激振荡测试超高频低通滤波器检测工作直流参数振荡信号设计实例微波

平台测量法浅论

本文通过列举典型实例论述了工件平台尺寸测量时,测量方法的设计、测量器具的选择以及测量误差的分析等.并且将CAD技术运用于工件分析、模拟构图及数据评价中,有效地提高了检

期刊

平台测量法尺寸测量典型实例测量方法测量误差测量器具技术运用数据评价检测效率CAD准确率工件

让光源释放出更大能量

最近,中共中央发出的《关于改革和加强中小学德育工作的通知》从建设富强、民主、文明的社会主义现代化国家的战略高度,指出了中小学德育工作的重要地位和在改革开放,发展社

期刊

中小学德育工作教育工作者指导思想思想品德学生思想状况四有新人现象和本质小学教师青少年学生学校教育

A new extended H∞ filter for discrete nonlinear systems

Nonlinear estimation problem is investigated in this paper. By extension of a linear H∞ estimation with corrector-predictor form to nonlinear cases, a new exte

期刊

离散非线性系统H∞估计H∞滤波器反馈控制扩展卡尔曼滤波器nonlinear estimation H_∞filter extended Kalman

基于系统动力学的海外卫勤机构配备研究

构建了海外卫勤机构救治伤病员系统动力学模型,建立了系统因果回路图和模型流图;通过对模型不同政策设计,对比分析了三级海外卫勤机构不同配置所能承接的最大伤病员输入,根据

期刊

卫勤机构配备系统动力学海外卫勤机构

基于PMAC和安川伺服电机的一维精密定位控制系统研究

提出了一种以PMAC运动控制器为控制系统核心,以安川全数字交流伺服系统为驱动,及美国BAYSIDE LM系列运动平台组成的精密运动控制系统.首先阐述精密运动控制的发展现状,接着重

期刊

伺服电机反馈PMACPIDPMAC运动控制器精密定位控制系统研究伺服电机全数字交流伺服系统运动控制系统电机驱动器一维精密运动控制

有容乃大航嘉PBA5200

在移动手持设备性能提升、速度增加、功能加强的时代，电池却没有跟点发展的步伐，背包中的PAD与手机续航时间变得捉襟见肘，拥有一款大容赞的移动宅源是最，佳的续航解决方案。

期刊

移动手持设备续航时间PAD手机

Multiagent reinforcement learning through merging individually learned value functions

与本文相关的学术论文