论文部分内容阅读
摘 要:博弈论的理论与实践发展,尤其是作为应用数学的一个分支,在现代社会的发展中成为了经济学的标准分析工具之一,并广泛的运用于生物科学、经济学、国际关系学、计算机科学、政治学等多个领域,并通过对公式化了的激励结构间相互作用的分析研究,成为统筹学的重要科学方式,尤其是在考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略,都有着实际的运用效果。本文旨在从博弈论的基本概念和内容研究出发,分析博弈论模型与社会的整体关系和具体运用方式,更好的实现数学博弈论模型的全面价值。
关键词:数学运用模型 博弈论 社会 优化策略
中图分类号:G4 文献标识码:A 文章编号:1673-9795(2013)01(a)-0052-02
1 博弈论
1.1 概述
博弈论是使用数学模型研究冲突对抗条件下最优决策问题的理论,严格来说是属于数学的分支学科。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
1.2 基本定义
(1)参与者:是一个博弈中的决策主体,他的目的是通过选择行动或策略以最大化自己的效用水平。一般来说,参与者都是排除所有其他因素以自己最大化利益为目的的理性人。
(2)策略:参与者在给定信息的情况下的行动规则,规定参与者在什么时候选择什么行动。策略是行动的规则而不是行动本身。策略必须是完备的,要给出参与者在每一种可想象得到的情况下的行动选择。
(3)行动:参与者在博弈的决策行为。参与者行动的顺序对于博弈的结果非常重要。动态和静态博弈的区分就是基于参与者行动的顺序做出的。同样的行动集合,参与者行动的顺序不同,每个参与者的最后决策就不同,博弈的结果也就不同。尤其在不完全信息博弈中,后行动这一来观察先行动者的行动来获取信息。
(4)信息:参与者有关博弈的知识,自然的选择,其他参与者的特征和行动的知识完全信息指一个参与者对其他参与者的行动选择有准确的理解。
(5)支付与效用:博弈的付出与收益。
(6)平衡:博弈中所有参与者的策略或者行动组合,使各方支付与效用达稳定状态。“纳什平衡”是一种重要的平衡,它指如果其他参与者的策略固定,此时自己也不改变策略对参与者来说是最佳策略。这样,每个参与者都是这种情形,没人愿意打破平衡,也就达到了“纳什平衡”。
1.3 类型
(1)按照参与者行动的顺序,博弈可分为静态和动态博弈。静态博弈是指在博弈中,参与者同时选择,或虽不同时选择,后者却不知前者行动,如众所周知的“石头剪刀布”游戏。动态博弈指在博弈中参与者的行动有先后顺序,且后行动者能够观察到先行动者的行动。
(2)按照参与者对博弈的了解程度,博弈可以划分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每一位参与者对其他参与者的特征、策略空间及收益有准确的信息,反之则是不完全信息博弈。
(3)按照参与这件是否合作,博弈可以划分为合作博弈和非合作博弈。合作博弈指参与者之间有对双方具有约束力的一个协议,反之就是非合作博弈。因为非合作是社会中利益博弈的常态,所以是博弈论探讨的主要内容。
1.4 表示支付与效用常用的方式是支付矩阵
下面用支付矩阵来表示博弈类型的分类方法如表1所示。
2 博弈论模型与社会
2.1 最基本博弈论模型—— 囚徒困境:全民浮躁扼杀的时代
这是一个不完全信息静态博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:(1)如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年,设为各收益-8。(2)如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,设收益-10,而坦白者有功被减刑8年,立即释放,设收益0。(3)如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年,设各收益-1。下表给出了这个博弈的支付矩阵如表2所示。
(a,b)指在这一策略下,A,B的收益情况。
在这一模型下(招供,招供),(抵赖,抵赖)都可以出现“纳什平衡”。但我们可以直观的看出是(抵赖,抵赖)最佳策略,但是因为当自己招供而对方抵赖时将多服刑两年,出于理性人利己的考虑,将选择招供,双方都这样想,就形成了(招供,招供)这样的结果。实际上的理性变成了不理性,利己的思想反而成了损人不利己。
应用:在社会生活中,常有老人摔倒没有路人敢搀扶的现象,这就是一个变相的囚徒困境(这是动态不完全信息博弈,事实上,这不是一个囚徒困境模式,却是囚徒困境心理的社会体现):摔倒者有两种选择:讹诈或不讹诈。路人也有两种选择:搀扶或不搀扶。假设路人搀扶而摔倒者不讹诈,则路人因为帮助别人收益1,摔倒者没有出事收益0;假设路人搀扶而摔倒者讹诈,路人因为受到讹诈收益-1,摔倒者因为讹诈收益1;假设路人不搀扶,则摔倒者无所谓讹诈,路人收益0,摔倒者有可能出事收益-2。它的支付矩阵如(表3)。
在这种情况下,路人搀扶而摔倒者不讹诈对于双方来说是最佳策略。但是对于摔倒者来说,在路人搀扶行动不变的情况下,讹诈的收益1要高于不讹诈的收益0;而路人肯定是清楚这一点的,所以在摔倒者讹诈行动不变的情况下,路人搀扶的收益-1要低于不搀扶的收益。如此,在不完全信息情况下,“理性人”路人和摔倒者会选择共同受益最低的策略(讹诈,不搀扶)。
结论:个人理性和集体理性有时是相悖的,出于个人理性做出的事反而会有损集体收益。这样看似十分理性的选择,实际上十分不理性。而大多数人都是作为一个个人的理性人出现的,他们只看到了问题的表面,却没有看到问题的实质,最终损害了集体利益,这便是全民浮躁了。 2.2 麦琪的礼物:无私不一定最好
A与B是非常无私的一对夫妇,他们以别人的利益为自己优先考虑的对象。A有祖传的金表,B有如瀑的长发。圣诞节,双方都想送对方一件称心的礼物。这样,A卖掉了祖传的金表,换来了精致的发卡,B卖掉了如瀑的长发,买来了金表链。这样两件礼物就都用不着了。
这两个傻孩子极不明智的为对方牺牲了他们家最宝贵的东西,但在这里我要对那些聪明人说:无论在什么地方,他们都是最聪明的人。
没人会低估这两个人之间的爱情,但这样便犯下了可笑的错误。从博弈论的角度讲,A的选择为卖金表买发卡或者不这样,B的选择为卖长发买表链或者不这样,它的支付矩阵如表4所示。
结论:与“囚徒困境”截然相反,这个故事的主人公都是非常无私的人,却做出了违背集体收益的事。美好的爱情故事固然感人,但从上面的博弈分析可见,无私的社会很难说就一定更美好,我们应该避免陷入集体非理性的困境。我们可以建立一套协调个体选择的制度安排来更有效地避免“麦琪困境”
2.3 分粥!分粥!—— 利用利己思想来利他
七个人分食一锅粥(每天如此),起初他们想出方法一来分粥:指定一个人负责分粥事宜,很快大家发现,这个人为自己分的粥最多,换一个人,也是同样的情况。因为“权力导致腐败,绝对权力导致绝对腐败”,所以每个人都为得到分粥的特权而不择手段,相互之间尔虞我诈。
为改变这种情况,出现了方法二:大家轮流主持分粥,每人一天。看起来公平了,但每人一星期中只有一天吃得饱且有剩余,而其余六天都饿肚子。而且导致相互间加倍报复,矛盾越来越激化。
大家认为这办法造成了资源浪费,于是产生方法三:大家推选一位信得过的人主持分粥。起初,这位品德高尚的人尚能公平分粥,可是不久他就开始为自己和一些溜须拍马的人多分一些粥。
为了防止腐败蔓延,大家想出了方法四:选举一个分粥委员会和监督委员会,形成监督和制约。公平基本做到了,但由于监督委员会时常提出各种议案,分粥委员会又据理力争,等开始分粥时,粥早就凉了。如果制度的效率不高大家就要吃凉粥,影响当初制定制度时所想达到的目的。
在这种情况下,方法五诞生了:每个人轮流值日分粥,但分粥的人要最后领粥。在这项制度下,七个人碗里的粥每次都是一样多,因为主持分粥的人意识到,如果七只碗里的粥不相同,那么他确定无疑将享用那份最少的。
3 结语
争论人性的善恶毫无意义,应为无论人性善还是人性恶,都会遭遇“困境”(指囚徒困境和麦琪困境),但是,我们都可以通过制度来创造一个和谐的社会。上面的博弈模型生动的反映了制度进化的过程,制度公平决定内容公平。其利用利己思想达到群体利益最大化的思想值得我们借鉴。良好的制度是大家在博弈和合作中形成的,大家当然应该积极遵守,从而使社会良性发展,从而形成博弈平衡的和谐社会。
数学的博弈论模型还有很多,对现在的社会发展有借鉴作用,虽然博弈论中的参与者都是以利己为最终目的的“理性人”,但博弈论本身并无所谓好坏,我们应该更好地利用它,使它更好地造福于我们。
关键词:数学运用模型 博弈论 社会 优化策略
中图分类号:G4 文献标识码:A 文章编号:1673-9795(2013)01(a)-0052-02
1 博弈论
1.1 概述
博弈论是使用数学模型研究冲突对抗条件下最优决策问题的理论,严格来说是属于数学的分支学科。博弈论是二人在平等的对局中各自利用对方的策略变换自己的对抗策略,达到取胜的目的。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。
1.2 基本定义
(1)参与者:是一个博弈中的决策主体,他的目的是通过选择行动或策略以最大化自己的效用水平。一般来说,参与者都是排除所有其他因素以自己最大化利益为目的的理性人。
(2)策略:参与者在给定信息的情况下的行动规则,规定参与者在什么时候选择什么行动。策略是行动的规则而不是行动本身。策略必须是完备的,要给出参与者在每一种可想象得到的情况下的行动选择。
(3)行动:参与者在博弈的决策行为。参与者行动的顺序对于博弈的结果非常重要。动态和静态博弈的区分就是基于参与者行动的顺序做出的。同样的行动集合,参与者行动的顺序不同,每个参与者的最后决策就不同,博弈的结果也就不同。尤其在不完全信息博弈中,后行动这一来观察先行动者的行动来获取信息。
(4)信息:参与者有关博弈的知识,自然的选择,其他参与者的特征和行动的知识完全信息指一个参与者对其他参与者的行动选择有准确的理解。
(5)支付与效用:博弈的付出与收益。
(6)平衡:博弈中所有参与者的策略或者行动组合,使各方支付与效用达稳定状态。“纳什平衡”是一种重要的平衡,它指如果其他参与者的策略固定,此时自己也不改变策略对参与者来说是最佳策略。这样,每个参与者都是这种情形,没人愿意打破平衡,也就达到了“纳什平衡”。
1.3 类型
(1)按照参与者行动的顺序,博弈可分为静态和动态博弈。静态博弈是指在博弈中,参与者同时选择,或虽不同时选择,后者却不知前者行动,如众所周知的“石头剪刀布”游戏。动态博弈指在博弈中参与者的行动有先后顺序,且后行动者能够观察到先行动者的行动。
(2)按照参与者对博弈的了解程度,博弈可以划分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每一位参与者对其他参与者的特征、策略空间及收益有准确的信息,反之则是不完全信息博弈。
(3)按照参与这件是否合作,博弈可以划分为合作博弈和非合作博弈。合作博弈指参与者之间有对双方具有约束力的一个协议,反之就是非合作博弈。因为非合作是社会中利益博弈的常态,所以是博弈论探讨的主要内容。
1.4 表示支付与效用常用的方式是支付矩阵
下面用支付矩阵来表示博弈类型的分类方法如表1所示。
2 博弈论模型与社会
2.1 最基本博弈论模型—— 囚徒困境:全民浮躁扼杀的时代
这是一个不完全信息静态博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:(1)如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年,设为各收益-8。(2)如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,设收益-10,而坦白者有功被减刑8年,立即释放,设收益0。(3)如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年,设各收益-1。下表给出了这个博弈的支付矩阵如表2所示。
(a,b)指在这一策略下,A,B的收益情况。
在这一模型下(招供,招供),(抵赖,抵赖)都可以出现“纳什平衡”。但我们可以直观的看出是(抵赖,抵赖)最佳策略,但是因为当自己招供而对方抵赖时将多服刑两年,出于理性人利己的考虑,将选择招供,双方都这样想,就形成了(招供,招供)这样的结果。实际上的理性变成了不理性,利己的思想反而成了损人不利己。
应用:在社会生活中,常有老人摔倒没有路人敢搀扶的现象,这就是一个变相的囚徒困境(这是动态不完全信息博弈,事实上,这不是一个囚徒困境模式,却是囚徒困境心理的社会体现):摔倒者有两种选择:讹诈或不讹诈。路人也有两种选择:搀扶或不搀扶。假设路人搀扶而摔倒者不讹诈,则路人因为帮助别人收益1,摔倒者没有出事收益0;假设路人搀扶而摔倒者讹诈,路人因为受到讹诈收益-1,摔倒者因为讹诈收益1;假设路人不搀扶,则摔倒者无所谓讹诈,路人收益0,摔倒者有可能出事收益-2。它的支付矩阵如(表3)。
在这种情况下,路人搀扶而摔倒者不讹诈对于双方来说是最佳策略。但是对于摔倒者来说,在路人搀扶行动不变的情况下,讹诈的收益1要高于不讹诈的收益0;而路人肯定是清楚这一点的,所以在摔倒者讹诈行动不变的情况下,路人搀扶的收益-1要低于不搀扶的收益。如此,在不完全信息情况下,“理性人”路人和摔倒者会选择共同受益最低的策略(讹诈,不搀扶)。
结论:个人理性和集体理性有时是相悖的,出于个人理性做出的事反而会有损集体收益。这样看似十分理性的选择,实际上十分不理性。而大多数人都是作为一个个人的理性人出现的,他们只看到了问题的表面,却没有看到问题的实质,最终损害了集体利益,这便是全民浮躁了。 2.2 麦琪的礼物:无私不一定最好
A与B是非常无私的一对夫妇,他们以别人的利益为自己优先考虑的对象。A有祖传的金表,B有如瀑的长发。圣诞节,双方都想送对方一件称心的礼物。这样,A卖掉了祖传的金表,换来了精致的发卡,B卖掉了如瀑的长发,买来了金表链。这样两件礼物就都用不着了。
这两个傻孩子极不明智的为对方牺牲了他们家最宝贵的东西,但在这里我要对那些聪明人说:无论在什么地方,他们都是最聪明的人。
没人会低估这两个人之间的爱情,但这样便犯下了可笑的错误。从博弈论的角度讲,A的选择为卖金表买发卡或者不这样,B的选择为卖长发买表链或者不这样,它的支付矩阵如表4所示。
结论:与“囚徒困境”截然相反,这个故事的主人公都是非常无私的人,却做出了违背集体收益的事。美好的爱情故事固然感人,但从上面的博弈分析可见,无私的社会很难说就一定更美好,我们应该避免陷入集体非理性的困境。我们可以建立一套协调个体选择的制度安排来更有效地避免“麦琪困境”
2.3 分粥!分粥!—— 利用利己思想来利他
七个人分食一锅粥(每天如此),起初他们想出方法一来分粥:指定一个人负责分粥事宜,很快大家发现,这个人为自己分的粥最多,换一个人,也是同样的情况。因为“权力导致腐败,绝对权力导致绝对腐败”,所以每个人都为得到分粥的特权而不择手段,相互之间尔虞我诈。
为改变这种情况,出现了方法二:大家轮流主持分粥,每人一天。看起来公平了,但每人一星期中只有一天吃得饱且有剩余,而其余六天都饿肚子。而且导致相互间加倍报复,矛盾越来越激化。
大家认为这办法造成了资源浪费,于是产生方法三:大家推选一位信得过的人主持分粥。起初,这位品德高尚的人尚能公平分粥,可是不久他就开始为自己和一些溜须拍马的人多分一些粥。
为了防止腐败蔓延,大家想出了方法四:选举一个分粥委员会和监督委员会,形成监督和制约。公平基本做到了,但由于监督委员会时常提出各种议案,分粥委员会又据理力争,等开始分粥时,粥早就凉了。如果制度的效率不高大家就要吃凉粥,影响当初制定制度时所想达到的目的。
在这种情况下,方法五诞生了:每个人轮流值日分粥,但分粥的人要最后领粥。在这项制度下,七个人碗里的粥每次都是一样多,因为主持分粥的人意识到,如果七只碗里的粥不相同,那么他确定无疑将享用那份最少的。
3 结语
争论人性的善恶毫无意义,应为无论人性善还是人性恶,都会遭遇“困境”(指囚徒困境和麦琪困境),但是,我们都可以通过制度来创造一个和谐的社会。上面的博弈模型生动的反映了制度进化的过程,制度公平决定内容公平。其利用利己思想达到群体利益最大化的思想值得我们借鉴。良好的制度是大家在博弈和合作中形成的,大家当然应该积极遵守,从而使社会良性发展,从而形成博弈平衡的和谐社会。
数学的博弈论模型还有很多,对现在的社会发展有借鉴作用,虽然博弈论中的参与者都是以利己为最终目的的“理性人”,但博弈论本身并无所谓好坏,我们应该更好地利用它,使它更好地造福于我们。