基于回归抽象和单估值网络的虚拟遗憾最小化算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:duyyy12345
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能是面向未来的一种关键性、战略性技术科学,而机器博弈作为人工智能的重要研究领域之一,自诞生起就一直是人工智能发展水平的试金石。根据博弈者是否能够获取到博弈中的全部信息,机器博弈又分为完备信息博弈和非完备信息博弈两种。其中非完备信息博弈因存在不可观察的信息,会包含诸如欺诈、猜测、虚张声势等情景,更加贴近现实世界中的一般博弈场景。现实世界中的战场指挥、金融决策、谈判等场景都存在隐藏信息,都可以被视作非完备信息博弈。虚拟遗憾最小化算法(Counterfactual Regret Minimization,CFR)是目前解决大型、复杂非完备信息博弈最流行的方法之一。虽然CFR因其能够高效率地收敛到纳什均衡而被广泛使用,但传统CFR及其变种仍存在计算和存储资源消耗过大、无法有效求解大型博弈等问题。传统CFR能够求解的博弈问题规模有限,在应用于大型博弈时需要结合抽象技术。抽象技术不但需要领域专家知识、泛化性差,且需要存储与信息集总数大小相当的表格,存储资源消耗巨大。针对以上问题,本文提出回归抽象技术,使用神经网络作为回归器生成CFR算法迭代所需要的遗憾值。此种方式使得CFR算法不再需要存储大型表格,大大减少了算法的存储资源开销。同时利用神经网络良好的拟合能力也能够提升算法的通用性与泛化性。CFR的重要变种深度CFR虽然引入了神经网络增强了CFR算法的抽象能力,但其使用了优势值网络和策略网络两类网络,消耗的计算与存储资源过大,且算法生成的策略易被对手利用,质量较低。针对以上问题,本文对深度CFR算法做了改进,不同于深度CFR需要额外训练一个策略网络来生成最终策略,基于单估值网络的深度CFR直接从价值网络的缓冲区中生成最终策略,减少计算与存储开销的同时提高了最终策略的质量。为评估本文对CFR算法改进的有效性,本文在多种不同的非完备信息卡牌上进行了对比实验,并通过分析实验结果证明了改进的有效性。
其他文献
刺激—响应实验模式是脑科学研究的一种常用实验范式,这种范式要求使用外部设备产生刺激,同时测量其诱发大脑或肢体所产生的反应,从而探索相应脑区的工作机制或脑疾病的发病机制。这种范式常用于脑科学、行为科学、神经科学等领域。这些领域的研究人员经常会使用Psych Toolbox、Psychopy、E-prime、Open Sesame等软件来呈现视觉刺激,通过记录呈现刺激的时间和做出响应的时间来判断机体的
学位
疾病基因关联预测研究能够加速各种复杂疾病的发病机理理解,同时推动治疗药物的开发。传统的研究方法有繁琐的连锁分析、全基因组分析等,其优点是结果可靠性强,但是非常耗时。随着各类生物数据的产生,采用计算方法加速疾病基因的挖掘成为可能。目前计算方法可以在弱领域知识的场景下达到较好的效果,一般通过网络结构建模研究对象之间的关系。早期一些研究通过启发式网络指标分析预测节点的关系,完全根据拓扑结构预测的方法对现
学位
社会化推荐算法是在用户-项目交互数据的基础上,通过引入用户的社会属性信息,从而提高推荐系统的性能。在以用户的社交网络数据为主的社会化推荐算法中,其研究重点是如何充分挖掘社交网络给用户带来的社交影响。根据影响的来源,可以将社交网络给用户带来的社交影响分为两方面,一是社交个体对用户的影响,二是社交群体对用户的影响。因此,本文从如何在社交网络中捕获这两方面的影响出发,进行社会化推荐算法的研究。由于用户的
学位
目的:探索冷冻保存时间对卵母细胞发育能力的影响,以及褪黑素(MT)添加进入冻融液否可以提高卵母细胞中长期冷冻保存效果及其作用机制,旨在建立一种新的人类卵母细胞中长期冻存技术体系。研究对象:使用患者控制性超排卵周期中废弃的未成熟卵母细胞(GV期或MI期)经体外成熟(IVM)技术培养成熟之后作为本研究的成熟卵母细胞(IVM-MII卵母细胞)来源。检测方法及指标:1.将收集的IVM-MII卵母细胞随机分
学位
近几年,随着个人信息保护法律条例的生效以及互联网用户个人隐私保护意识的增强,包含个人隐私的元数据不能再随意地流通与应用。在该限制条件下,联邦学习作为一种隐私保护机器学习范式,可以满足约束条件并挖掘数据要素的价值。分层联邦学习是联邦学习中一种新颖的节点拓扑模式,可满足多样化的设备组合需求,可应用于实际的复杂异构系统,获得良好的模型效用。但由于分层联邦学习没有从交互数据层面进行隐私保护,通过分析来自客
学位
数字图像被广泛用于承载各类隐私信息,因此,图像信息保护至关重要。在众多保护手段中,图像加密因其直观有效性而被广泛使用。选择明文攻击是目前最有效的图像加密攻击手段,攻击者通过向加密结构输入特殊图像并分析输出密文来获取加密结构相关信息,从而破解加密算法。算法无法抵御选择明文攻击的根本原因是没有建立明文信息与中间矩阵的关系。因此,目前常用的抵抗选择明文攻击手段是将明文信息取哈希值后作为密钥的一部分来生成
学位
随着云计算与云存储技术的高速发展,越来越多的人们选择将大量数字图像数据存放到云服务器中。为保护这些图像信息的隐私,用户通常将图像进行加密后再上传到云端,而大量无意义的密文图像会为云服务器端对这些数据的存储和管理带来额外的损耗。因此,近年来密文图像中的可逆数据隐藏(Reversible Data Hiding in Encrypted Image,RDHEI)受到了研究人员们的关注。然而,传统的RD
学位
背景:宫颈癌是女性最常见的恶性肿瘤之一。目前,美国国立综合癌症网络(NCCN)指南(2020版)推荐的治疗宫颈癌的最佳方法是体外放射治疗与三维腔内近距离放疗联合共同治疗。这种治疗方式可使肿瘤靶区达到完全致死剂量,且降低正常组织受照剂量。由于后装放疗系统是新安装的国产设备,目前的质控方法繁琐且无统一标准,需要对其进行详细的质控,以便后续剂量叠加的精准性和制定合理的放疗流程提供数据参考。又由于两种放疗
学位
精确放疗的治疗效果与放疗计划质量息息相关,为提高计划优化效率,减少因物理师水平差异而导致的计划质量差异,基于经验的自动计划(KBP)被广泛推荐使用。KBP原理是根据它的DVH预测模型评估待优化计划可能达到的DVH曲线,并根据该曲线自动生成优化参数和权重,从而完成计划的自动设计。KBP在稳定计划质量和提高计划效率方面的优势显著,然而它复杂的模型训练流程一定程度上阻碍了其在临床上的推广使用。为降低高质
学位
目的:Moncaco放疗计划系统在放射治疗中使用范围广、频率高,研究Monaco计划系统控制点参数设置值对头部肿瘤、胸部肿瘤和腹部肿瘤的立体定向放射治疗计划的影响,为头部肿瘤、胸部肿瘤和腹部肿瘤的旋转容积调强立体定向放射治疗计划的控制点参数设置提供临床工作的参考,也使得Monaco放疗计划系统更好地应用于放疗。方法:回顾性收集头部肿瘤和腹部肿瘤的患者靶区影像各10例,胸部肿瘤的患者靶区影像9例(共
学位