基于Q-学习的进化博弈决策模型

来源 :武汉大学学报(工学版) | 被引量 : 0次 | 上传用户：huninbo

【摘要】

：

基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进

【作者】

：

刘伟兵黎民王先甲

【机构】

：

武汉大学政治与公共管理学院,武汉大学系统工程研究所

【出处】

：

武汉大学学报(工学版)

【发表日期】

：

2008年04期

【关键词】

：

进化博弈强化学习 Q-学习决策模型

【基金项目】

：

国家自然科学基金项目(编号:60574071)

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可用于不完全、不确定信息问题,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.

其他文献

一个基于NBD-NH2荧光团的增强型pH荧光探针及其细胞造影研究

本文以NBD-NH2荧光团偶联N-(4-吡啶甲基)乙二胺质子受体构建了基于光致电子转移(PET)机制的pH探针NBD-Py。探针在pH 5.0～8.5范围内显示pH降低导致的荧光增强响应,pK a为6.48。

期刊

pHi荧光探针细胞造影

历史文化名城老街区改造中的城市更新问题与对策——以都江堰老街区改造为例

历史文化名城是我国历史文化遗产的载体与重要组成部分,老街区是历史文化名城城市记忆与城市历史最完整的物质体现。在我国快速城市化进程中,以老街区改造为核心内容的历史文

期刊

历史文化名城老街区改造城市更新

浅析新版GSP对医药流通企业的压力和挑战

药监局近日发布的新版《药品经营质量管理规范》简称GSP于2012年11月6日经卫生部部务会审议通过,将于2013年6月1日起正式实施。新版GSP与2000年发布的旧版GSP相比,在药品经营

期刊

新版GSP流通企业管理压力挑战

定位分工抢救配合法在急救护理工作中的应用

目的探讨定位分工抢救配合法在急救护理工作中的作用。方法自2002年12月起在急诊对急危重症患者实施定位分工抢救配合法进行急救护理。对比分析实施该定位抢救配合法前后各5

期刊

急诊科定位分工抢救管理

水产品主要化学污染物质研究

水产品味道鲜美,营养丰富,为人所爱。农业上化学物质的排放,以及庞大的城市人口和工业排放的未经处理的生活和工业污水,造成了海环境和淡水环境的污染,化学物质以各种方式进

期刊

水产品化学污染物重金属农药残留兽药残留

促进浙江省纺织产业发展的对策

浙江省纺织产业的发展仍未完全摆脱高投入、高消耗、高污染,片面追求产量的低产出、低效益的粗放型发展模式。分析浙江省纺织产业发展中存在的问题,并提出促进浙江省纺织产业

期刊

纺织产业产业结构发展对策

美利用CRISPR/Cas9系统拯救失明小鼠

据2017年3月15日《科技日报》报道，英国《自然·通讯》杂志发表一项遗传学重要研究成果——CRISPR／Cas9基因治疗系统可修复导致色素性视网膜炎（失明的主要原因）的各种潜在遗

期刊

网膜炎CRISPR/Cas9

世界养马业概况及对发展我国养马业的建议

【正】本世纪以来,尤其在第一次世界大战后,由于拖拉机和汽车逐渐增多,农业、军事及交通运输机械化水平不断提高,马在农用、军用及交通运输上的作用日趋减少,世界马匹数量也

期刊

养马业

外国食品安全监管模式的现状及借鉴

通过分析发达国家食品安全监管机构体系三种基本模式的现状,结合食品安全监管的历史进程,总结其发展趋势。在此基础之上,比较分析我国食品安全监管机构体系与外国存在的差异,

期刊

食品安全监管机构监管体系FDA

基于GIS的大型百货零售商业设施布局分析——以上海浦东新区为例

以GIS作为主要研究手段 ,利用 2 0 0 1年上海市第 2次基本单位普查的有关数据 ,选取 16 0个大型百货零售商业设施作为研究对象 ,分析了上海浦东新区商业的空间布局特征、影响

期刊

商业设施空间分布GIS空间相互作用模型

基于Q-学习的进化博弈决策模型

与本文相关的学术论文