【摘 要】
:
近年来,多Agent学习已经成为人工智能和机器学习研究方向发展最迅速的领域之一.将强化学习和BDI思维状态模型相结合,形成针对多Agent的动态协作模型.在此模型中,个体最优化概
【机 构】
:
哈尔滨工业大学计算机科学和工程系,哈尔滨,150001
论文部分内容阅读
近年来,多Agent学习已经成为人工智能和机器学习研究方向发展最迅速的领域之一.将强化学习和BDI思维状态模型相结合,形成针对多Agent的动态协作模型.在此模型中,个体最优化概念失去其意义,因为每个Agent的回报,不仅取决于自身,而且取决于其它Agent的选择.模型采用AFS神经网络对输入状态空间进行压缩,提高强化学习的收敛速度.与此同时,利用模拟退火算法启发性地指明动作空间搜索方向,使其跳出局部最小点,避免迭代步数的无限增长.理论分析和在机器人足球领域的成功应用,都证明了基于BDI框架的多Agent动态协作模型的有效性.
其他文献
小学阶段的教学,是帮助一个人奠定身心基础,培养正确思考习惯、心态及观念的重要教育过程,不仅关系到学生知识体系的建立,对于学生的身心成长也有着引导作用.正面引导能让学
近日,中国工程院公布了新当选的67名院士名单.其中外籍院士增选结果同步产生,本次共有18位外籍专家当选为中国工程院外籍院士.泰拉能源董事长比尔·盖茨名列其中.rn中国工程
无论是高血压还是心房颤动(AF)药物治疗都很难达到理想的指标,而且其副作用的影响不容忽视,因而积极探索新型非药物治疗手段具有重要的现实意义。交感神经过度激活既是高血压
就任美国总统以来,世界已经多次见证特朗普的愤怒,这一次,总统的愤怒關于核武器及其运载工具—导弹。据美联社报道,特朗普表示,除非中俄愿意与美国签订新的协议,否则美国将退出《中导条约》。随后,俄罗斯外长拉夫罗夫回应,莫斯科希望与华盛顿就战略稳定制定新的核条约。 《中导条约》订立于1987年,全称《苏联和美国消除两国中程和中短程导弹条约》,根据条约,美苏双方决定不再保留、生产或试验射程500千米至55
本文介绍了西部大开发的背景,阐述了西部大开发的政策措施,指出了西部大开发的建设目标,说明了西部大开发的实施情况。本文从经济角度分析了交通运输建设的发展对于西部大开发的
解决失业、通货膨胀(或通货紧缩)、经济增长以及国际收支问题是各国政府宏观经济政策的主要目标。中国作为世界上人口总量最多的发展中国家,目前的就业形势严峻,就业压力非常
供应链管理是近年来才提出的一种企业管理理念,它一出现就受到企业经营管理者极大的欢迎。随着供应链管理的实施,供应链管理绩效评估成为供应链管理理论研究的一个热点。但是,从
请下载后查看,本文暂不支持在线获取查看简介。
Please download to view, this article does not support online access to view profile.
本文试图能发现和总结出一种投资理念以长久支持股市中的行为。理性价值投资理论注重长期效益,适合证券市场的健康有序发展,符合投资者利益要求。注重长期效益的理性价值投资理
改革开放以来,我国实施积极的外贸政策和招商引资战略。以稳定的政治和经济环境,吸引了大量的外商直接投资(下文简称FDI)。通过引进外资不仅可以弥补资金短缺、开拓国际市场等对