基于深度强化学习的非完全信息博弈研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:scotscotscotscot
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
从人工智能这一概念被首次提出至今,游戏博弈一直都是其最具技术和挑战性的主要研究领域和方向之一,博弈又可以划分为完全信息博弈和非完全信息博弈。完全信息博弈主要指在进行博弈时,信息都是完全可知的;非完全信息博弈的主要特征是智能体进行博弈时无法从局面信息中获得所有的信息。很多博弈都实际上是基于非完全的信息博弈模式来进行开发和对局的,例如带手牌的德州扑克等牌类,麻将,有战争迷雾的即时战略游戏等。真实世界的很多决策性问题也都是可以从其他方面抽象成一个非完全信息博弈问题,例如机场的规划、网络安全、金融资源等。而非完全信息游戏博弈相较于具体的实际问题而言具有更简单的模型,易于获得训练数据并进行算法训练等优点,因此,对非完全信息游戏博弈研究具有重要的现实意义。用于解决非完全信息博弈问题的传统研究方法主要包括部分可观测马尔科夫决策过程模型,反事实遗憾最小化以及强化学习等算法。然而,强化学习在一些信息不全面以及高维的状态空间下都无法很好收敛,仅通过有限量的数据和反复测试也无法做到遍历完整所有的状态。深度强化学习技术在强化学习基础上结合神经网络表达优势,解决了高维状态空间下的收敛性问题。著名的人工智能围棋AI:Alpha Go就是在围棋领域打败了顶尖人类专业选手,但是在面对非完全信息博弈问题时往往不能计算出最优策略。最近,收敛到非完全信息博弈中的近似纳什均衡的深度强化学习算法已经被开发出来。其中,以反事实遗憾最小化的神经形式表现最好。它的变体是在表格平衡发现算法中最先进的,并已被用于扑克领域的每个主要AI里程碑。美中不足的是这些基于遗憾的深度学习算法都依赖于具体的模型支持。本论文采用基于遗憾的反事实遗憾最小化算法和深度强化学习算法的无模型学习算法,通过引入蒙特卡洛结果抽样并对其进行基线调整和本地化随机抽样瞬时策略的改进使得新算法在无模型支持下超过了现有基准。本论文提出了基于优势基线的反事实遗憾最小化和深度强化学习改进算法,通过比较学习到的收益与基线网络采样得到的期望收益,判定对智能体的奖惩情况。传统方法要么对非完全信息博弈问题收敛困难,要么对问题相关的专业知识有所依赖,并不具备较好的可扩展性。本论文提出了不依赖构建模型用的专业知识的无模型学习方法,通过对样本学习训练基线网络作为评判智能体做法的奖惩依据,实现了很好的可扩展性。最后本论文将改进的反事实遗憾最小化与深度强化学习算法应用到非完全信息博弈的基准博弈中。在两人斗地主以及两人跑得快扑克博弈中得到了与有模型方法相当的性能表现。与传统的学习算法相比,在训练速度和依赖条件上都达到了更高的水平。改进的深度强化学习算法为其它无模型问题提供了一个可行的方法,同时为扩展到现实生活中提供了可能。
其他文献
土壤中含有大量的带电颗粒,包括各种黏土矿物、氧化物及其水合物、土壤腐殖质、蛋白质以及微生物等。研究表明,土壤各种颗粒的平均表面电荷密度通常高达1013-1014个/cm~2,该电荷密度意味着土壤颗粒表面的静电场强度高达10~8 V/m(水介质)或1010V/m(真空介质)。土壤颗粒的表面电荷影响着土壤中绝大多数的微观过程和宏观现象,比如:离子、质子和电子相互作用的化学过程决定了土壤的酸碱度、缓冲性
作物秸秆含有丰富的氮磷钾,是农业生产中重要的养分资源,我国秸秆年生产总量大,但利用率不高。施用氮肥是加快秸秆分解和养分释放的关键手段,然而不同氮肥用量下秸秆残渣的动态变化过程及其微生物学机制仍不清楚。本论文以华北平原潮土为研究对象,通过田间秸秆包填埋试验和室内盆栽试验,利用固态核磁共振(13C-NMR)、同位素示踪、稳定性同位素核酸探针(DNA-SIP)、扩增子测序、宏基因组分析等分子生态学方法,
数学问题解决能力作为数学能力的核心,是整合多个认知与元认知过程以运用已有数学知识解决现实情境的能力。我国《培智学校义务教育生活数学课程标准》指出生活数学要面向全体智力障碍学生,使学生都能够接受适合的数学教育。智力障碍学生将数学问题解决能力应用在生活或工作中,能够获得更高的生活质量。改良版图示策略是一种为专门为中重度障碍学生解决数学问题开发的新方法,目前国际上对改良版图示策略的实证研究数量有限,在我
平原君,即战国之际的赵国贵公子赵胜,与信陵君魏无忌、孟尝君田文、春申君黄歇被后人并称为“战国四公子”。作为“战国四公子”之一,平原君及其事迹历来为文人墨客所青睐,其豪举养士、合楚定纵、毁家纾难等事迹流传甚广,不仅是平原君形象塑造的基石,更是后世创作者的题材宝库,为后世学者留下了广阔的解读空间。总体说来,平原君的形象从先秦到宋代经历了由简到繁的过程。其间,历代文人对平原君形象的书写与阐释并非只是简单
茎瘤芥(又名青菜头)是十字花科芸薹属芥菜种中的一类重要蔬菜,主要用于加工生产榨菜,在长江上游重庆涪陵及周边区域广泛栽培,是当地冬季主要栽培作物。随着重庆市涪陵及周边区域茎瘤芥产业的发展,茎瘤芥栽培过程中存在过量施肥、偏施氮肥、土壤酸化和环境污染等问题,这些问题不仅导致生产成本增加,也造成了茎瘤芥产量降低和品质下降,严重制约了茎瘤芥产业的健康发展。缓释肥具有养分释放慢和养分利用率高的特点,被誉为“环
本文主要以视觉语言元素的角度,着重以人物题材为切入点,分析奥地利艺术家古斯塔夫·克里姆特绘画创作中对“平面化”图式结构的建立。古斯塔夫·克里姆特(Gustav Klimt,1862-1918)是欧洲十九世纪末至二十世纪初奥地利国宝级绘画艺术大师。此时西方现代主义正处于发展初期,社会背景的巨变以及科学领域的蓬勃发展等因素促使文艺领域的现代主义发展。从克里姆特“平面化”图式结构研究中可以窥见西方现代主
现实生活中存在着大量的复杂系统,将它们抽象成复杂网络进行研究分析已成为一种有效的研究手段。在网络科学中,簇结构已被证明是复杂网络上一种普遍存在的结构特征。挖掘网络的簇结构既对揭示复杂系统中隐藏的各种信息、功能以及变化特征具有重要作用,也对理解现实世界中的各种交互行为具有一定的指导意义,例如,针对社交关系的个性化推荐、预测不同蛋白质之间的互动关系以及挖掘社会媒体的传播行为等。网络聚类算法是识别复杂网
传统的英语阅读教学重点放在语言点的分析讲解上,忽视培养学生对语篇的分析能力。学生对阅读课的兴趣不高,加上缺乏相应的语篇知识,导致学生在面对阅读时,无章法可依,信心不足。2017年版的《普通高中英语课程标准》要求学生在阅读的过程中,深化对语言的理解,重视对语篇的赏析,提升阅读理解能力。因此,本研究决定把语篇分析的阅读方法应用到实际的阅读教学中,分析其对于学生阅读理解能力和学生对阅读理解的信心和兴趣的
在人工智能技术不断发展的今天,我们已经处于信息的海洋中。但是当我们进行决策、投资时,要如何综合多个层次、多个方面的信息做出最明智、最符合当下情况的决策是一个不可避免的问题。在多源信息融合的应用中,如何处理传感器收集到的数据对于信息融合来说是至关重要的一步。首先要对收集到的传感器信息进行有针对性的处理,这样才能保证最后的融合结果是符合直觉与常理的。但是在实际的应用中由于传感器本身的故障、物理特性或者
土地承载着人类的社会活动,是人类社会发展的基础,与我们的生活息息相关,随着经济社会的快速发展,土地成为越来越重要的资源,合法保护和适当利用土地资源变得越来越重要。土地质量是土地的综合属性,体现了自然因素、人类活动等对土地的影响,通过土地质量地球化学评价可以得到土壤有益元素、有害元素等的含量水平、空间分布,以及土地质量的综合水平。了解研究区土地质量的详细情况,对土地利用规划、环境保护和可持续发展有重