【摘 要】
:
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可以用于不完全、不确定信息问题中,将Q-强化学习算法引入到进化博弈中,研究
【机 构】
:
武汉大学系统工程研究所,武汉 430072
论文部分内容阅读
基于Q-强化学习算法,建立了进化博弈中代理人的决策模型.考虑到强化学习算法不需要建立环境模型,可以用于不完全、不确定信息问题中,将Q-强化学习算法引入到进化博弈中,研究了进化博弈中的两种Q-学习决策模型:单代理人Q-学习决策模型和多代理人Q-学习决策模型,并针对不同结构的进化博弈选择不同的决策模型和算法进行了讨论.仿真算例的结果说明基于Q-学习的决策模型能指导代理人学习、选择最优策略.
其他文献
针对传统供应商选择过程大多只面向单一供应商进行选择的局限性,本文以质量、价格、交货期和交货提前期为评价指标,以最小化综合评价值为目标,纳入供应商供货能力和价格折扣,
为了验证投资组合理论在中国证券市场的有效性,针对不允许卖空情况,文章分别研究了均值-VaR(M-VaR)和均值-半绝对偏差(M-SA)投资组合模型,并分别结合序列二次规划法和不等式
首次系统探讨上海黄金市场从成立(2002年10月30日)至2007年6月29日期间收益和波动的周日历效应,并进一步研究与同期伦敦黄金市场周日历效应之间的关系.结果表明:上海黄金市场
《西游记》中的孙悟空是人们最熟悉的文学形象之一,他的聪明伶俐与超凡能力,赢得了各国读者特别是孩子们的喜爱。"大闹天宫"、勇斗天神玉帝的精彩情节,更是让人难以忘怀;"悟空"号卫星则肩负着人类庄严的使命,飞越茫茫宇宙,准备捕获神秘的暗物质,彰显着人类探索宇宙的雄心与智慧。悟空者,非只佛徒名号,乃悟透天空者也。
文化是一个复杂的概念。思想、意识、观念等都是文化的反映,由于各民族的文化内涵不同,同一些词、句对于不同文化环境中的人来说,所表达的概念也就不同。所以我们在翻译过程
创新是企业活力和企业发展的源泉,卓有成效的技术创新模式是技术创新绩效的根本保证.本文采用了单案例研究法,以山东省兖州煤业兴隆庄煤矿为例,首先分析了兴隆庄煤矿自建矿27
以资源环境可持续发展为主要内容的科学发展观,已经成为构建和谐社会的必要条件.本文通过在内生经济增长模型中引入自然资本,建立了一个含自然资本的生态-经济系统模型,并对
随着信息技术的发展与应用,以及学术会议规模的逐渐扩大和频率的不断增加,更多增强型的信息支持技术被引入到学术会议管理系统中,大大提高会议组织效率,促进更广泛的学术交流
资源优化配置问题是经济学和管理科学中的一类重要的最优化问题.本文旨在通过系统工程理论方法阐述资源优化配置问题,界定资源优化配置系统构成要素,对供给、需求、市场和支
本文以评价湖北省的节能减排综合发展状况为目的,建立了湖北省综合指标体系,该指标体系具有经济、能源、环境和人口等四项准则.本文运用层次分析法确定准则层和指标