Multiagent reinforcement learning through merging individually learned value functions

来源 :Journal of Harbin Institute of Technology | 被引量 : 0次 | 上传用户:plateau_t
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
In cooperative multiagent systems, to learn the optimal policies of multiagents is very difficult. As the numbers of states and actions increase exponentially with the number of agents, their action policies become more intractable. By learning these valu
其他文献
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
目的 研究心理护理对于老年痴呆患者生活质量的影响。方法 将我院2015年6月—2016年8月间收治的76例老年痴呆患者,按照随机数字表法分为对照组与干预组各38例。对照组接受常
西安作为我国的历史文化名城,其本身的旅游行业发展非常的迅速,近些年来,西安的旅游业为了更好地吸引游客,也在开始逐渐的改变。其中一项改变的内容,就是要尽可能地发展体育
本文结合实际检测工作,提出测试微波小功率三极管直流参数hFE时,对所产生的自激振荡信号的一种基于微波低通滤波器的消除方法.并给出一个设计实例.
本文通过列举典型实例论述了工件平台尺寸测量时,测量方法的设计、测量器具的选择以及测量误差的分析等.并且将CAD技术运用于工件分析、模拟构图及数据评价中,有效地提高了检
最近,中共中央发出的《关于改革和加强中小学德育工作的通知》从建设富强、民主、文明的社会主义现代化国家的战略高度,指出了中小学德育工作的重要地位和在改革开放,发展社
Nonlinear estimation problem is investigated in this paper. By extension of a linear H∞ estimation with corrector-predictor form to nonlinear cases, a new exte
构建了海外卫勤机构救治伤病员系统动力学模型,建立了系统因果回路图和模型流图;通过对模型不同政策设计,对比分析了三级海外卫勤机构不同配置所能承接的最大伤病员输入,根据
提出了一种以PMAC运动控制器为控制系统核心,以安川全数字交流伺服系统为驱动,及美国BAYSIDE LM系列运动平台组成的精密运动控制系统.首先阐述精密运动控制的发展现状,接着重
在移动手持设备性能提升、速度增加、功能加强的时代,电池却没有跟点发展的步伐,背包中的PAD与手机续航时间变得捉襟见肘,拥有一款大容赞的移动宅源是最,佳的续航解决方案。