【摘 要】
:
主要以提高多智能体系统中Q学习算法的学习效率为研究目标,以追捕问题为研究平台,提出了一种基于共享经验的Q学习算法。该算法模拟人类的团队学习行为,各个智能体拥有共同的
论文部分内容阅读
主要以提高多智能体系统中Q学习算法的学习效率为研究目标,以追捕问题为研究平台,提出了一种基于共享经验的Q学习算法。该算法模拟人类的团队学习行为,各个智能体拥有共同的最终目标,即围捕猎物,同时每个智能体通过协商获得自己的阶段目标。在学习过程中把学习分为阶段性学习,每学习一个阶段,就进行一次阶段性总结,分享彼此好的学习经验,以便于下一阶段的学习。这样以学习快的、好的带动慢的、差的,进而提升总体的学习性能。仿真实验证明,在学习过程中共享经验的Q学习算法能够提高学习系统的性能,高效地收敛于最优策略。
其他文献
目的:采用湿法制粒制备茶叶口含片并优化其制备工艺。方法:通过单因素试验对各种辅料的用量进行了考察;以口感、崩解时限作为考察指标,采用正交试验设计法优化处方。结果:最
介绍了基于LON总线和RS-485的三种楼宇自动化监控系统设计方案.通过对它们优缺点的分析比较,着重阐述了基于LON总线与RS-485分级混合控制网络的系统设计方案.文章较详细地说
以广西贺州昭平县樟林乡石城围屋为研究对象,探究其建筑特征,并对其建筑格局、历史沿革、人文风貌进行论述,指出其研究对于今后的保护发展和广西建筑文化的传承起着基础而关
用于激光二极管(LD)和发光二极管(LED)的GaAs晶片,要求其具有低的位错密度(EPD)。为了获得低位错密度的GaAs晶片,必须先得到低位错密度的体单晶。我们采用垂直布里奇曼(VB)法分别得到
目的研究冠心病患者血清瘦素(Leptin)水平的变化,探讨其与冠心病严重程度的关系。方法收集120例冠心病患者根据病情分为稳定性心绞痛组(36例)、急性冠脉综合征组(62例)及ST段
已有研究表明中国宏观经济和金融市场近20年来表现出区制转换和非线性特征,在此背景下国债市场是否也存在结构性变化,将关系到利率模型的稳定性和经济政策的效果。文章基于未知
动态红外场景投影(DIRSP)技术是考察和评估红外成像测量跟踪系统性能指标的主要方法。本文回顾了国内外DIRSP技术的发展现状及应用,概述了几种主要的DIRSP技术及其特点。在详细
阐述了时间延迟对于相空间重构的影响,概括现有的基于相空间扩展准则选择时间延迟的主要方法,提出了以相轨迹绕相空间主方向轴转动惯量为依据的新方法,利用典型数据测试,并与典型
2013年8月14日,受强台风“尤特”和西南季风共同影响,九洲江流域出现强降水过程,流域下游控制站缸瓦窑水文站实测到自1995年以来最高洪水位7.59 m。通过“2013·08”暴雨洪水
通过对西藏汽车保有量、汽车后市场的企业现状、人才现状的调查,提出了汽车后市场人才需求规格,并提出了人才培养的意见和建议。