基于多种奖励机制的囚徒困境博弈模型研究

来源 :科学家 | 被引量 : 0次 | 上传用户:suanqing
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  囚徒困境博弈模型作为演化博弈经典模型成为近年来的研究热点,针对规则格子网络中如何提高囚徒困境博弈的合作水平问题,我们引入奖励因子来促进参与者采取合作策略。为了研究奖励因子对网络中所有个体采取合作或背叛策略的影响,并探究奖励因子针对不同奖励对象时对规则网络中囚徒博弈合作水平的影响,我们引入3种奖励机制:只奖励合作者;只奖励背叛者;对整个网络中的所有个体都奖励。我们在Matlab平台上进行仿真实验,看到奖励因子会明显提高网络整体的合作水平,并找到其原因,是因为奖励因子对合作者的影响要高于对背叛者的影响,使得当都有相同背叛获利b值时,网络整体合作水平会随着奖励因子的增加而升高,网络中所有个体更趋向于合作而不是背叛。
  自1950年Nash所做出的开创性工作以来,博弈成为了一门系统理论,并被广泛应用到人类社会,特别是经济行为当中。作为一门交叉研究学科,在复杂网络中的演化博弈成为现在的关注热点之一。囚徒困境博弈模型作为演化博弈经典模型之一,研究其在规则网络中演化更是重中之重[1-5]。
  现实中利己者间出现的自发合作行为及其维持机制得到了越来越多的关注[6-7],将演化博弈理论与复杂网络的结合也成为了一个热点[8-9]。在复杂网络的演化博弈中,通常以网络中的节点作为个体,使用规则格子网络表示一般性人际关系网络,为了有效地促进参与者采取合作策略,在囚徒困境博弈模型中引入奖励因子,在网络中的个体进行策略学习时,我们改变其收益函数,使得下一轮的收益出现变动,从而探究这种变动对博弈模型合作水平的影响。本文将基于“奖励”机制,在引入奖励因子的概念,又探究奖励因子针对不同奖励对象对规则网络中囚徒博弈合作水平的影响。
  本文首先阐述囚徒困境博弈模型及规则网络模型的构建,并将具体阐述本研究所采用的模型及其收益矩阵、奖励因子;其次进行实验仿真,并利用Matlab实现模型的构建与仿真实验;最后给出研究结论。
  模型
  囚徒困境博弈模型
  在博弈中,每个个体都有几种策略,个体会从这些策略中选出一种以使自己获得最大的收益[10],并且每个人都是理性的。囚徒困境是两个被捕的囚徒之间的一种特殊博弈,其说明了为什么甚至在合作对双方都有利时,保持合作也是困难的。在囚徒困境博弈模型中,每个个体都有两种策略选择:合作C(Cooperation)、背叛D(Defection)。如A、B两个个体进行博弈时,会出现四种情况:如果个体A采取背叛D策略,个体B采取合作C策略,那么个体A的收益为T,个体B的收益为S;如果A、B双方都采取合作C策略,那么双方均获得利益为R;如果A、B双方都采取背叛D策略,那么双方均获得收益为P。即收益矩阵E为:
  且对于囚徒困境博弈,有如下规则:T>R>P>S,且2R>T+S。在囚徒困境博弈中,两个个体需要同时决定他们各自的策略。
  为了方便研究,简化收益矩阵中参数的数目,我们使用Weak-PD模型,即采用Nowak和May使用的收益矩阵E:
  在本文中,我们考虑PD博弈模型为Weak-PD博弈模型,且令1  方格子网络模型
  本文采用100×100具有周期边界条件的方格子网络,即存在10 000个个体,如图1所示。其中,黄色圆圈表示网络中的个体,数字为个体标号,黑色线表示网络中个体与个体之间的连接关系,蓝色虚线方框内为100×100方格子网络,蓝色虚线方框外侧表示该网络所具有的周期边界条件。因为为方格子网络,则每个个体有四个邻居。
  引入奖励因子
  分析收益矩阵,如果两个个体进行一次博弈,个体为了达到自己收益最大化,都会选择背叛策略。但是为了提高整体的合作水平,需要采取某种“奖励”措施来促进个体采取合作策略,从而有利于合作策略的涌现和维持。在这里我们引入文献[11]中的奖励因子规则,对网络中的个体进行收益上的奖励。为了便于研究不同奖励机制对规则网络中囚徒困境博弈合作水平的影响,我们维持一个稳定的记忆长度M。
  Matlab仿真及结果分析
  Matlab是将计算矩阵、分析数值、数据可视化以及非线性动力学系统的建模和仿真等诸多强大功能集成在一起的强大软件。本文利用Matlab软件进行仿真,过程为:在图1所示的方格子网络中进行博弈;初始网络中全部10 000个个体的初始策略,在这里我们采用随机赋值初始条件法;设定MCS为1×104;由于初始条件为随机初始条件,为了消除随机误差,我们做了100次系综平均。
  在本文中,我们将奖励机制分为3种:1)只奖励合作者;2)只奖励背叛者;3)对整个网络中的所有个体都奖励。
  如图2所示,a为只奖励合作者、b为只奖励背叛者、c为同时奖励时,奖励因子分别取
  通过比较图2中a、b、c三图,我们可以发现,选择不同的奖励机制,对网络中整体的合作水平的影响也不同。如果只奖励合作者,当都有相同背叛獲利b值时,网络整体的合作水平会随着奖励因子的增加而增加,网络中的个体更趋向于合作;如果只奖励背叛者,当都有相同背叛获利b值时,网络整体合作水平会随着奖励因子的增加而降低,网络中的个体更趋向于背叛;如果对整个网络中所有个体都奖励,当都有相同背叛获利b值时,网络整体合作水平呈现出随着奖励因子的增加而升高,即可以说明奖励因子对合作者的影响要高于对背叛者的影响,使得网络中所有个体更趋向于合作,这也是奖励因子可以提高网络整体合作水平的原因。   总结与展望
  本文建立一个基于奖励因子的囚徒困境博弈模型,在网络中个体博弈过程中,根据个体所采取的策略不断更新其收益,使得个体在更新策略时考虑奖励因子对个体学习过程的影响。我们看到奖励因子会明显提高网络整体的合作水平,并发现奖励因子对合作者的影响要高于对背叛者的影响,导致网络整体合作水平会随着奖励因子的增加而升高,网络中所有个体更趋向于合作而不是背叛。该结论对奖励因子提高博弈合作水平的原因有了更全面的解读。
  参考文献
  [1]SANTO FORTUNATO. UNIVERSALITY OF THE THRESHOLD FOR COMPLETE CONSENSUS FOR THE OPINION DYNAMICS OF DEFFUANT et al.[J].International Journal of Modern Physics C,2004,15(9):1301-1307.
  [2]王文旭.复杂网络的演化动力学及网络上的动力学过程研究[D].合肥:中国科学技术大学,2007.
  [3]代琼琳.复杂网络上的演化博弈动力学研究[D]北京:北京邮电大学,2011.
  [4]杨志虎.复杂网络上的演化博弈与合作演化动力学研究[D].西安:西安电子科技大学,2014.
  [5]李燕.空间囚徒困境博弈中合作解的演化[D].杭州:浙江大学,2017.
  [6]廖列法,孙玮,刘朝阳.基于演化博弈研究移动和噪声对合作的影响[J].计算机应用与软件,2015(3):53-56.
  [7]刘华,李莹,赵建立,等.沉默策略对囚徒困境博弈合作水平的影响[J].数学的实践与认识,2016,46(20):240-247.
  [8]宋亦泠,王秉中,朱洪,等.重复囚徒困境的学习和响应模型[J].计算机工程与科学,2007,29(10):115-119.
  [9]劉贞,任玉珑,唐松林.基于Mealy自动机的重复囚徒困境博弈模型[J].管理科学,2006,19(5):66-70.
  [10]Doebeli M,Hauert C.Models of cooperation based on the Prisoner’s Dilemma and the Snowdrift game[J].Ecology Letters,2005,8(7):748-766.
  [11]陈维春,尚丽辉.基于奖励因子的囚徒困境博弈模型研究[J].电子科技,2016,29(3):5-6.
  (作者简介:唐宸,重庆市第八中学校。)
其他文献
【摘 要】当前我国行政事业单位资产管理中还存在一些问题,造成了国有资产大量流失。内部控制作为一种新型管理制度,在企业管理方面发挥了重要作用。我国行政事业单位也应当积极地推广这一管理方式,不断提升行政事业单位资产管理水平。  【关键词】内部控制;行政事业单位;资产管理  2014年,财政部颁发了《行政事业单位内部控制规范》,首次提出了行政事业单位的管理制度。近年来,国家加大了对行政事业单位的财政支持
<正>红人综合征(red man syndrome,RMS)是一种非免疫性、由组胺介导的变态反应,多见于万古霉素、去甲万古霉素治疗过程中发生,可引起颈部和躯干潮红,同时伴有呼吸困难和瘙痒,
故障现象:一辆奥迪A6(2.8L)型汽车,行驶里程为30000千米。出现加速无力,滑行拖滞现象。故障检查:首先检查全车电脑记忆未发现故障存储。进行路试.同时用VAG1552读取动态数据流。试车
中等职业学校可以将现代化专业群建设作为中等职业学校发展的强大推动力。通过现代化专业群建设,有效对接区域产业,加强职业学校内涵建设,提高教育质量,推进职业教育创新发展
一、加强教育引导。保持驾驶员的思想稳定一要端正理想信念。认真组织驾驶员深入学习党的十八大精神,学习党的路线方针政策和上级的决策指示.大力培育当代革命军人核心价值观,确
随着施工技术的发展,高层建筑因其建筑功用及外观效果,出现越来越多下部大跨度空间设计。为解决上部结构的荷载合理传递问题,钢结构转换桁架在高层建筑中的运用逐渐推广应用
ABC车身主动控制系统。该系统使汽车对侧倾、俯仰、横摆、跳动和车身高度的控制都能更加迅速、精确。车身的侧倾小,车轮外倾角度变化也小,轮胎就能较好地保持与地面垂直接触,使
摘 要 水文地质对于工程勘查具有很大的影响,在工程勘查中需要注意很多地理问题和各种不确定性因素,做好水文地质检测工作可以有效减少地下水对于建设工程的腐蚀和破坏,既可以减少因工程被破坏导致的经济损失又可以提高对于工程的勘查水平。本文主要简述了水文地质在工程勘查中的主要检测内容,简要解析了地下水对于建设工程的损害方向与损害程度,并且根据相关资料对岩土的水理特征进行了详细研究。  关键词 水文地质;工程
近年来,河南省非政府组织在数量增加、社会影响及功能发挥上取得了显著的成绩。但依然存在社会认同度低、制度缺失、能力不足等问题,同时非政府组织协同参与社会治理能力有待
张俊凯.1996年12月入伍.1997年学习汽车驾驶.2001年毕业于北京机械士官学校汽车修理技师专业.现任沈阳军区驻黑龙江联勤某分部汽车修理所修理技师、班长、三级军士长。为人朴实,爱