【摘 要】
:
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进
【机 构】
:
武汉大学政治与公共管理学院,武汉大学系统工程研究所
【基金项目】
:
国家自然科学基金项目(编号:60574071)
论文部分内容阅读
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.
其他文献
本文以NBD-NH2荧光团偶联N-(4-吡啶甲基)乙二胺质子受体构建了基于光致电子转移(PET)机制的pH探针NBD-Py。探针在pH 5.0~8.5范围内显示pH降低导致的荧光增强响应,pK a为6.48。
历史文化名城是我国历史文化遗产的载体与重要组成部分,老街区是历史文化名城城市记忆与城市历史最完整的物质体现。在我国快速城市化进程中,以老街区改造为核心内容的历史文
药监局近日发布的新版《药品经营质量管理规范》简称GSP于2012年11月6日经卫生部部务会审议通过,将于2013年6月1日起正式实施。新版GSP与2000年发布的旧版GSP相比,在药品经营
目的探讨定位分工抢救配合法在急救护理工作中的作用。方法自2002年12月起在急诊对急危重症患者实施定位分工抢救配合法进行急救护理。对比分析实施该定位抢救配合法前后各5
水产品味道鲜美,营养丰富,为人所爱。农业上化学物质的排放,以及庞大的城市人口和工业排放的未经处理的生活和工业污水,造成了海环境和淡水环境的污染,化学物质以各种方式进
浙江省纺织产业的发展仍未完全摆脱高投入、高消耗、高污染,片面追求产量的低产出、低效益的粗放型发展模式。分析浙江省纺织产业发展中存在的问题,并提出促进浙江省纺织产业
据2017年3月15日《科技日报》报道,英国《自然·通讯》杂志发表一项遗传学重要研究成果——CRISPR/Cas9基因治疗系统可修复导致色素性视网膜炎(失明的主要原因)的各种潜在遗
【正】 本世纪以来,尤其在第一次世界大战后,由于拖拉机和汽车逐渐增多,农业、军事及交通运输机械化水平不断提高,马在农用、军用及交通运输上的作用日趋减少,世界马匹数量也
通过分析发达国家食品安全监管机构体系三种基本模式的现状,结合食品安全监管的历史进程,总结其发展趋势。在此基础之上,比较分析我国食品安全监管机构体系与外国存在的差异,
以GIS作为主要研究手段 ,利用 2 0 0 1年上海市第 2次基本单位普查的有关数据 ,选取 16 0个大型百货零售商业设施作为研究对象 ,分析了上海浦东新区商业的空间布局特征、影响