基于在线学习的博弈算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tu309
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能领域技术的快速发展,越来越多的研究开始关注机器学习与博弈论结合的相关研究。在机器学习领域,其研究方向可分为两大方面:完美信息博弈和不完美信息博弈。与完美信息博弈不同,在不完美信息博弈中,每个参与者可保留一部分其他参与者无法观测的信息,这导致不完美信息博弈相较于完美信息博弈,研究过程存在着更大挑战。随着在线学习算法的不断丰富和现实情境的应用需求不断提高,目前的研究已经不再局限于两人零和博弈下,寻找纳什均衡的问题。现实生活中,在不完美信息博弈中的交互大多呈现的是多个个体之间的行为,所以适用于更广泛情境的相关均衡开始吸引越来越多的学者研究。在现有研究中,扩展博弈被广泛用于不完美信息博弈的建模。在这个模型中,多个智能体在基于不完美信息的博弈状态下做决策,寻找它们的相关均衡成了当今的研究重点。本文对传统的扩展形式相关均衡的定义进行扩展,以适应更为复杂的现实情境。在现有研究中,扩展形式相关均衡的定义中的参与者和可信第三方之间交互是基于博弈论中冷酷触发策略。本文将冷酷触发策略扩展为一次偏离、宽容策略等鲁棒策略,并用不同k值进行描述,然后定义不同k值下鲁棒策略的k级扩展形式相关均衡,并对k级扩展形式相关均衡是扩展形式相关均衡的广泛形式的关系进行理论推导和证明,更广泛的均衡关系可适应的现实场景更多。在现有的求解多智能体的扩展形式相关均衡策略的算法ICFR,利用的是基于遗憾匹配的遗憾最小化算法,本文通过理论推导证明了ICFR算法求解的均衡策略满足k级扩展形式相关均衡。本文针对不同k值的下的鲁棒策略,在算法中的遗憾值加入与k相关的影响参数,对算法内容进行扩展,设计出收敛速度更快,生成的策略近似均衡的程度更宽泛的算法k-ICFR。然后通过理论推导和实验验证的方式,得到如下结论:当k值越小,算法生成策略符合的均衡状态越多,近似扩展形式相关均衡效果越好;当k值越大,算法的前期收敛速度越快,算法生成策略符合的均衡状态越少,但更宽泛地满足扩展形式相关均衡。即在不完美信息博弈下,在鲁棒触发策略下的算法k-ICFR能生成收敛速度更快,满足扩展形式相关均衡更宽泛的策略。最后,将上述结论,推广到扩展形式粗糙相关均衡中,通过理论推导和实验验证的方式,说明在扩展形式粗糙相关均衡中,结论依然成立。
其他文献
本文结合作者多年来从事汽车工业厂房结构设计的经验,总结了汽车工业厂房中结构布置的若干特点及网架与桁架结构在其中设计应用中的优劣。以某汽车公司驾驶室车架车间的工程设计为例,阐述了主次桁架结构在锯齿形屋盖厂房的设计要点,并详细分析了极限承载力状态下结构各部分的受力状态;以某汽车有限公司新建发动机车间的工程设计为实例,详细阐述了在此类大柱网、垂直划分功能区的车间厂房中网架结构的选型分析。文中的设计心得为
会议
报纸
目的 探究地氟烷在脑缺血再灌注(IR)大鼠中经由介导核因子E2相关因子2(Nrf2)通路并抑制核因子-κB(NF-κB)活化缓解氧化损伤和炎症反应机制。方法 选择60只成年雄性大鼠随机数字表法分为3组,每组各20只,依次为假手术组、IR组以及地氟烷组。假手术组仅进行静脉与动脉穿刺,IR组采用全身低血压与双侧颈总动脉夹闭方式构建IR模型,缺血10 min后恢复灌注,地氟烷组在IR模型构建前应用5.9
期刊
近年来,机器学习的广泛应用为人类生活的各个方面提供了便利,但机器学习的训练需要海量的数据和强大的算力支持。幸运的是,大数据和云计算技术为机器学习训练和预测提供了解决方案,越来越多的机器学习任务交由外包云服务器来快速执行。但由于云服务提供商是不可信的甚至是恶意的,其有充足的动机去窃取用户隐私信息或者不严格执行云计算任务从中获利,对个人数据的隐私性和返回结果的完整性造成了威胁。为了解决外包云服务器环境
学位
信息混淆是指在有限的显示空间中,信息量的密度不当,导致对信息的理解产生了障碍。科技的快速发展带来了信息的膨胀和数据的增长,面对海量的信息,合理的展示是深入挖掘和探索的前提,但是用于显示信息的展示空间大小却没能跟上数据增长的步伐,导致展示空间内的信息量密度不当影响了用户的使用和理解。信息混淆问题越来越严重,但却极为棘手。因为不同的展示方式面对的信息混淆问题是不一致的,不同的视觉搜索任务对信息混淆的敏
学位
中国加入世界贸易组织之前,美国国会主要通过将对华经济贸易政策与中国人权情况挂钩来评定中国的贸易地位,国会及行政当局中国委员会作为国会同意中国加入世贸组织的附加条件,因为不具有一般国会常设委员会的提案权及审议权,从成立到现在鲜少有人对其重视并加以深入研究。特朗普政府开启中美关系的大国竞争时代之后,美国以人权为政治幌子,在经济、科技、意识形态、地缘政治等各领域发起与中国的全面竞争,委员会作为幕后的运作
学位
[目的]分析按病种分值付费对脑血管疾病住院患者住院费用及天数的影响。[方法]选择广州市某大型三甲医院2017年7月15日-2019年3月31日脑血管疾病(ICD编码为:I60-I69)住院患者的病案首页费用信息。采用双重差分法对患者的住院总费用、住院天数、药品费用、西药费用、中药费用进行净效应评估,并基于疾病诊断相关分组权重、DRGs分组的治疗方式对患者进行分组,分析不同组别的住院费用情况,评价D
期刊
提升对非化石清洁能源的消耗比重能够有效调节二氧化碳的总排放水平,对于实现碳达峰和碳中和的“双碳”目标意义重大。而锂离子电池作为重要的非石化能源,被广泛应用于通讯、交通、穿戴设施、照明系统以及日常生活中的方方面面,非常富有发展前景。传统的锂离子电池结构中的电解质都是液态的,一般性质不稳定且易燃,较容易产生许多的安全隐患问题。因此专家们正在试图用具有更稳定性的安全系数更高的固体电解质来取代传统液态酸电
学位
目的 分析临床药师干预Ⅰ类切口手术预防性抗菌药物合理应用的效果。方法 选取2020年8月至2022年8月铜陵市人民医院478例Ⅰ类切口择期手术患者的临床资料,其中2020年8月至2021年8月的230例Ⅰ类切口择期手术患者为干预前组,2021年9月至2022年8月的248例Ⅰ类切口择期手术患者为干预后组。比较临床药师干预前后抗菌药物使用情况、品种构成比、抗菌药物费用和住院总费用。结果 干预后组预防
期刊
国际组织是全球治理和多边合作的主要平台,如今深刻影响着全球政治经济的运行和走向,在一些领域发挥着主权国家无法替代的作用。国际组织开展自我合法化可以有效发挥国际组织的功能、逐步完善其运行机制从而得到广泛认可。国际组织在面临合法性危机时会开展自我合法化,以回应外部批评和质疑。尽管有较多国外文献开始探究国际组织的自我合法化手段,然而,这些研究并未基于一个统一的理论框架下进行研究,彼此之间也不存在联系。因
学位