基于动态编码的Hanabi游戏策略研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:secretcode
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能和多智能体技术的发展,通信受限情况下的多智能体合作问题已成为人们关注的焦点。作为一种多人合作卡牌游戏,Hanabi游戏为研究多智能体间的交互提供了一个很好的场景。通过研究玩家在游戏中如何交流,探讨玩家传递信息的方式,不仅对人工智能理论发展起到推动作用,同时也能为现实中通信受限情况下的多智能体系统协同提供解决方案。论文对Hanabi游戏中玩家如何交流进行了研究。在对Hanabi游戏进行形式化建模的基础上,定义了玩家的认知并以此作为玩家交流协议的共识,同时对认知的影响因素及认知的更新等问题进行了探讨。在2人Hanabi游戏的策略研究中,设计了‘简单提示策略’和‘简单弃牌编码策略’,并针对交流协议中编码‘动作少,信息多’问题,利用游戏中玩家的认知,构建了适用于2人Hanabi游戏的‘动态弃牌编码策略’。在此基础上,通过完善玩家对游戏环境的观察与推理,以及对玩家间交流协议的内容和使用条件的修改,对‘动态弃牌编码策略’进行了优化。在3人(及3人以上)Hanabi游戏的策略研究中,分析了多人Hanabi游戏与2人游戏的差异,借鉴动态编码的思想,并利用玩家手牌形成的共识,设计了一种使用‘提示’动作传递信息的交流协议,构建了适用于3人Hanabi游戏的游戏策略——‘基于玩家手牌的动态提示编码策略’,并给出了该策略的行动算法和认知更新算法。论文所构建的‘动态弃牌编码策略’和‘基于玩家手牌的动态提示编码策略’,不仅思路简单,便于实现,能够形式化描述游戏过程中玩家间的信息传递,而且游戏实验表明:两种策略都得分较高,是简单有效的交流策略。
其他文献
双官能度单体具有两类可独立聚合的官能团,选择性聚合任一种官能团可以制备保留第二官能团的反应性聚合物。它不仅可进行后修饰得到功能化聚合物,也能发生后聚合得到高交联密度材料,因此双官能度单体的结构设计与制备颇受关注。苯乙烯及苯并噁嗪是具有不同聚合机理的常见单体,将两者结合制备的双官能度单体能充分利用苯乙烯的高聚合活性和苯并噁嗪的高稳定性特点。本论文探讨了制备4-乙烯基苯胺的新方法,进而合成了两种含苯并
学位
生物质资源的高质利用对促进能源供给侧的结构改革具有重要意义,利用热解技术可以将生物质转化为高品质的气体、液体燃料以及高附加值的碳材料。熔融盐热解技术在近年来受到关注,熔融盐作为热解反应介质能够强化传热并催化热解反应。熔融盐中热电协同热解可以实现热解产物的进一步提质。先前热电协同热解的研究主要探讨了施加不同大小电流对热解气、液产物的提质作用,对于电势这一因素的作用以及热解固体产物特性缺乏研究。因此,
学位
复合材料在航空航天领域得到了广泛的应用,随着未来飞行器趋向于更高速度、更远航程发展,复合材料由于其耐高温、轻量化等优点,将会扮演更加重要的作用。面向飞行器复合材料表面的边界层转捩预测方法直接决定了飞行器气动力、热的精细化设计,从而得到了广泛的关注。本论文基于理想复合材料表面假设,首先在不考虑表面粗糙度的情况下发展了线性稳定性分析(Linear Stability Theory,LST)计算程序;进
学位
生物质能的开发和利用对于促进“双碳”目标的达成具有重要意义。热解是实现生物质能源化和资源化利用的重要技术路线,但由于焦油中重质分子粘度高、提质难,限制了生物质热利用。揭示生物质焦油全组分,特别是重质组分的生成特性和分解机理,是开发新一代生物质热解技术的前提。本文研究内容和结论如下:首先研究发现纤维素热解焦油中重质组分分子量主要集中在300-400Da,具有1-3个芳香环。随着热解温度的升高,焦油组
学位
金属富勒烯是一类将金属原子或金属团簇嵌入到富勒烯碳笼中形成的新型杂化分子。Dy基团簇富勒烯由于组成和结构的多样性,及奇特的单分子磁体性质而备受关注。Dy可以与其它镧系或过渡族金属同时嵌入到碳笼中形成混合金属团簇富勒烯,极大地丰富了金属富勒烯体系。具有多种价态的金属V的离子半径较小,有望与Dy形成新型混合金属团簇富勒烯。基于此,本论文在电弧放电法中引入Dy和V两种金属制备金属富勒烯。主要内容如下:(
学位
基于硫系相变材料的相变显示器件因其高分辨率、高切换速度、可柔性显示、低功耗等特点成为备受关注的新型显示技术之一,它主要利用焦耳热效应驱动硫系材料在晶态与非晶态间发生快速可逆的转变,通过相态转变引起的光学性能变化来实现不同图案的显示功能。但是由于纳米尺度热学表征手段的匮乏,目前关于相变显示器件的研究主要集中在光学和电学性能上,缺乏有效的器件热设计优化方案,并且现有相变显示器件主要采用相变材料自加热模
学位
大气污染中广泛存在气溶胶状态污染物,如悬浮颗粒物、飘尘和可吸入粒子等,污染物气溶胶给人类健康带来了危害,目前主要采取物理吸附作为收集手段,但存在易脱附、效率低、使用寿命短和对病原体气溶胶无灭活能力等诸多问题。近年来大气压非热等离子体由于能产生高密度活性基团和带电粒子,在气溶胶荷电收集及病原体消杀中取得突破性进展,然而目前对气溶胶荷电机理和收集效率缺少系统性研究,限制了其进一步推广应用。针对此问题,
学位
纳米材料的各向异性在生物医学应用中具有独特的优势,其中形貌的各向异性在纳米药物研究领域受到更多关注。相对于无机纳米材料而言,聚合物纳米材料的生物安全性更好且种类丰富。共轭聚合物由于其特殊的共轭主链结构,在各向异性纳米材料的制备和调控方面具有潜在优势。本研究从共轭聚合物的分子结构出发,提出了一种全新的合成各向异性纳米凝胶的策略。该策略以共轭聚合物聚十烷-4,6-二炔酸(poly(deca-4,6-d
学位
为了提高盾构施工安全水平,开展有效的安全风险评估一直以来都是现场安全管理研究的重点。由于盾构施工现场的人、盾构机和环境紧密耦合成一个复杂的社会技术系统,系统安全与人-机-环的动态交互密切相关。因此,从人-机-环动态交互的系统视角评估盾构施工安全风险,分析微观的个体认知、盾构机运行和环境演化的交互作用对宏观系统安全的影响,有助于深入理解和把握现场系统安全,识别其中潜藏的关键风险因素,从而为现场安全管
学位
随着红外技术的发展,红外成像空中目标跟踪已得到广泛的应用,但红外诱饵等人工干扰会对空中目标跟踪产生严重影响。红外诱饵在辐射特性上既有压制型诱饵,又有相似型诱饵,在时空域上也表现出多种复杂的空间和行为特性,仍是目前空中目标跟踪需要解决的重要课题。本文针对复杂红外诱饵干扰条件下的目标跟踪问题开展研究。为了提升算法的抗红外诱饵干扰能力,本文采用了先对干扰事件和诱饵类型进行检测、判别,进而针对不同事件和诱
学位