【摘 要】
:
提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤
【机 构】
:
长春工程学院电气与信息学院,东北电力大学信息工程学院
论文部分内容阅读
提出了一种新颖的基于Q-学习,蚁群算法和轮盘赌算法的多Agent强化学习。在强化学习算法中,当Agent数量增加到足够大时,就会出现动作空间灾难性问题,即:其交互困难,学习速度骤然下降。另外,由于Agent是利用Q值来选择下一步动作的,因此,在学习早期,动作的选择严重束缚于高Q值。在这里,把蚁群算法,轮盘赌算法和强化学习三者结合起来,期望解决上述提出的问题。最后,对新算法的理论分析和实验结果都证明了改进的Q学习是可行的,并且可以有效的提高学习效率。
其他文献
文章探讨了西部大开发战略实施以来,西部地区在经济增长的效率、动力与协调性三个方面的变化情况。结果表明,10余年来,西部地区的劳动和土地产出效率明显改善,但资本的产出效
红白莲花开共塘,两段颜色一般香。恰似汉殿三千女,半是浓妆半淡妆。
徐民生,1937年生,湖北天门人,中国科学院北京植物所植物园研究员。曾任植物园副主任、植物所学位委员。1958年毕业于北京林业大学园林系,一直从事花卉科技工作,专长于温室花卉园艺
我院自2003年开展了笑气吸入镇痛,对200例进行观察.现报道如下。
反[牙合]是诸多错[牙合]畸形中常见的畸形之一。在成人错[牙合]畸形中反[牙合]同样多见。本文对23例成人反[牙合]畸形的临床矫治进行总结,并就其必要性、适应证、矫治设计、矫
中国城市发展的阶段性特征引起了对制度约束与多中心条件下城市规模的重新思考。在这两个条件下经典城市规模模型中农业用地价格和通勤成本对城市规模的解释遇到困境。对中国
对胃镜确诊合并幽门螺杆菌(Hp)感染的132例疣状胃炎(VG)与病理结果进行对照分析。结果:疣状胃炎合并Hp感染除菌治疗后观察组Hp根除率明显高于对照组(P〈0.05)。内镜下疣状物数量观察
2011年春节刚过,湖北省荆门市彭场林场副场长、林业高级工程师刘乐平的手机就开始不停地响起,全国各地前来求购苗木的客商络绎不绝,让他忙于应付,在和记者聊天的不到一个小时的时
本刊2003.1A刊出《今年年花流行什么——广州年宵花市前瞻》一文后,在读者中引起强烈反响,许多读者纷纷来函来电了解文中介绍的新奇花卉的详细资料,近年来新引种的宝莲灯尤受
抗菌药不一定比别的药不良反应大,但是其使用机会多和使用人群广,因此,存在些许不良反应也可影响许多患者。其中,抗菌药对肝功能影响就是需要注意的问题。以下例举的抗菌药(均为通