基于Q-学习的进化博弈决策模型

来源 :中国系统工程学会第十五届年会 | 被引量 : 0次 | 上传用户:ttttt2046
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可以用于不完全、不确定信息问题中,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中的两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.
其他文献
针对传统供应商选择过程大多只面向单一供应商进行选择的局限性,本文以质量、价格、交货期和交货提前期为评价指标,以最小化综合评价值为目标,纳入供应商供货能力和价格折扣,
会议
为了验证投资组合理论在中国证券市场的有效性,针对不允许卖空情况,文章分别研究了均值-VaR(M-VaR)和均值-半绝对偏差(M-SA)投资组合模型,并分别结合序列二次规划法和不等式
会议
首次系统探讨上海黄金市场从成立(2002年10月30日)至2007年6月29日期间收益和波动的周日历效应,并进一步研究与同期伦敦黄金市场周日历效应之间的关系.结果表明:上海黄金市场
会议
《西游记》中的孙悟空是人们最熟悉的文学形象之一,他的聪明伶俐与超凡能力,赢得了各国读者特别是孩子们的喜爱。"大闹天宫"、勇斗天神玉帝的精彩情节,更是让人难以忘怀;"悟空"号卫星则肩负着人类庄严的使命,飞越茫茫宇宙,准备捕获神秘的暗物质,彰显着人类探索宇宙的雄心与智慧。悟空者,非只佛徒名号,乃悟透天空者也。
期刊
文化是一个复杂的概念。思想、意识、观念等都是文化的反映,由于各民族的文化内涵不同,同一些词、句对于不同文化环境中的人来说,所表达的概念也就不同。所以我们在翻译过程
创新是企业活力和企业发展的源泉,卓有成效的技术创新模式是技术创新绩效的根本保证.本文采用了单案例研究法,以山东省兖州煤业兴隆庄煤矿为例,首先分析了兴隆庄煤矿自建矿27
会议
以资源环境可持续发展为主要内容的科学发展观,已经成为构建和谐社会的必要条件.本文通过在内生经济增长模型中引入自然资本,建立了一个含自然资本的生态-经济系统模型,并对
会议
随着信息技术的发展与应用,以及学术会议规模的逐渐扩大和频率的不断增加,更多增强型的信息支持技术被引入到学术会议管理系统中,大大提高会议组织效率,促进更广泛的学术交流
会议
资源优化配置问题是经济学和管理科学中的一类重要的最优化问题.本文旨在通过系统工程理论方法阐述资源优化配置问题,界定资源优化配置系统构成要素,对供给、需求、市场和支
会议
本文以评价湖北省的节能减排综合发展状况为目的,建立了湖北省综合指标体系,该指标体系具有经济、能源、环境和人口等四项准则.本文运用层次分析法确定准则层和指标
会议