基于虚拟自我对局的非完备信息博弈策略研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:yclmq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来机器博弈受到学术界和工业界的广泛关注,机器博弈领域的研究也取得了令人瞩目的成绩,例如Deep Mind的Alphago击败顶尖围棋选手、CMU的多人德扑智能体Pluribus击败顶级牌手以及Open AI的Open AI Five击败Dota职业队伍。机器博弈相关技术也正被应用于很多实际场景中,例如智能交通、智能推荐、多轮对话、量化交易等。根据参与者是否完全掌握博弈局面的所有信息可以把机器博弈分为完备信息博弈和非完备信息博弈。现实场景中的诸多决策问题都可以建模成非完备信息博弈中的策略求解问题,但目前的机器博弈算法需要对问题的状态空间进行抽象,在高维动作空间中表现不佳,且通常仅适用于二人博弈。因此研究能够应用于复杂状态空间、支持连续动作、适用于多人博弈的非完备信息博弈策略求解算法具有重大意义。本文在虚拟自我对局的算法框架下,结合深度强化学习、多智能体强化学习、蒙特卡洛树搜索等技术来解决策略优化问题,以德州扑克和炸弹人为实验平台,研究二人和多人博弈问题中的策略求解。针对复杂博弈问题通常需要利用先验知识进行状态空间抽象的问题,本文提出了利用深度强化学习和自适应的蒙特卡洛搜索树算法来求解最优反应策略,利用模仿学习来拟合全局平均策略,实现了更加鲁棒的策略优化方法。针对传统策略优化算法在连续动作空间中表现不佳的问题,引入了基于策略梯度的强化学习算法,使得算法可以应用于高维动作空间,同时引入了最大熵来解决智能体策略优化中的探索与利用问题。针对多人博弈中的策略优化问题,采用中心化训练和分散式执行的方式,加强了全局信息的共享,降低了状态动作值网络的估值误差,同时为了解决多人博弈中的信用分配问题,引入了全局基线奖励来更准确地衡量智能体的动作收益。同时对策略模型进行预训练,来缓解智能体的奖励稀疏问题,实现虚拟自我对局的温启动加速策略收敛过程。为了验证改进的虚拟自我对局算法,本文遵循世界计算机扑克博弈大赛比赛规则实现了二人非限制性德州扑克智能体,按照Neur IPS炸弹人比赛的规范实现了多人炸弹人智能体。在二人德州扑克实验中,本文提出的基于自适应蒙特卡洛树搜索和模仿学习的虚拟自我对局优于传统的策略求解算法。在多人炸弹人实验中,文中的基于最大熵和基线奖励的多智能体虚拟自我对局算法达到了与当前先进多智能体强化学习算法相似的性能。
其他文献
<正> 血液病凝状态在心肌梗塞、脑血栓等血栓栓塞性疾患的发生发展过程中起重要作用,积极防治高凝状态具有重要的临床意义。本文对抗栓丸防治血液高凝状态的作用进行了初步探
随着社会的发展,教育改革和创新的不断推动,对课程教学及人才培养目标提出了新的要求。艺术类中职学校拥有丰富的艺术资源,为教学中开展跨学科美育课程教学设计与实践研究提
随着科技的飞速发展,信息化技术已经被应用到各行各业,税收信息化建设已成为税收现代化的重要组成部分。建设一个高效服务、反应迅速的税收信息化系统,是促进我国税收管理和
为了满足航空管制班组的推进需求,航空管制班组应该对一线管制员实施全方位的空管人员培训,从而获取适合航空管制班组推进的人资质量。此次研究对航空管制班组的一线管制员培
海绵城市是我国一项复合解决城市水安全、水环境、水生态、水资源等水生态环境问题的雨洪管理的政策创新。厦门是第一批海绵城市试点城市之一,地处温和多雨的南亚热带海洋性
目的:观察子午流注纳子针法对中医临床疗效、哮喘控制及哮喘症状积分的影响。方法:将60例哮喘患者随机分为子午流注纳子针法组和常规针法组各30例,治疗4个疗程。观察针刺前后
<正> 11月16日,来自全省16市的29名技校学生汇聚济南,参加全省技工学校庆祝“党的十六大”演讲比赛。选手们以饱满的热情、真实感人的事例歌颂党,歌颂祖国,歌颂
为进一步提高静电净油技术中的非均匀电场梯度,在具有"城垛"型结构净油装置中引入钛酸锶钡电介质瓷粉,采用固相法制得微结构、电性能适于净油的Ba0.7Sr0.3TiO3陶瓷,在此基础
<正>农业强,农村美,农民富,是我国全面建设小康社会和实现社会主义现代化的重要目标。党的十九大报告提出乡村振兴战略,以及"产业兴旺、生态宜居、乡风文明、治理有效、生活
碳关税政策被认为是欧美发达国家针对来自中国等出口依赖度高的发展中国家能源密集型产品而设置的一种新型贸易壁垒。虽然目前碳关税尚未付诸实践,但美国贸易保护主义抬头预