论文部分内容阅读
摘要:文章通过对多人多次重复博弈的分析,解决了“囚徒困境”提出的个体理性与集体理性的矛盾,提出了新的“理性人”的人性假设。
关键词:人性假设,多人多次重复博弈
建立在亚当·斯密的“看不见的手”理论以及“理性人”的人性假设基础之上的西方经济学,近年来受到了
来自博弈论的严峻挑战,被证实其存在严重的假设漏洞,艾克斯罗德对多人多次重复博弈的对策研究以及从他的研究得出的新的人性假设从某种程度上弥补了这个漏洞,下面本文将详细论述这个新的理论突破。
一、传统经济学的人性假设
早在200多年以前,西方经济学的鼻祖亚当·斯密,提出了“看不见的手”原理。斯密写了一段被广为引用的著名的话:“每人都在力图应用他的资本,来使其生产品能得到最大的价值。一般地说:他并不企图增进公共之福利,也不知道他所增进的公共福利为多少。他所追求的仅仅是他个人的安乐,仅仅是他个人的利益。在这样做时,有只看不见的手引导他去促进一种目标,而这种目标决不是他追求的东西。由于追逐他自己的利益,他经常促进了社会利益,其效果要比他真正想促进社会利益时所得到的效果为大。”这段颂扬资本主义的文字被称为是斯密的“看不见的手”原理。可以毫不夸张地说:整个现代主流西方经济学都是建立在“看不见的手”的原理之上的。
亚当·斯密的“看不见的手”原理,既是经济学的一个最重要的假设,同时也是一个非常重要的哲学假设。这个假定首先是指经济学考虑问题的时候,把基本的分析单位放在“个体”之上,即“个人”。其他所有问题,所有层次上的问题,被假定都可以还原到这个个体和个体之间的关系来解释。其次,个体又被假定是一个理性的,理性思考的个体。经济学为了能够更准确地、精确地思考,对理性的定义就要比传统哲学狭窄一点。从而把理性定义为“为自己的、为个人的利益充分,要把它这个人利益最大化”的一种思考方式,这种思考方式又有一个一贯的或者一致的特点。而个人就是一个符合逻辑思考的,在符合逻辑思考的情况下,处处想着要把自己的利益最大化的个体,即“理性人”。
亚当·斯密认为,每个人虽然都是只为自己考虑,但是假如有一个基本上能够保持社会秩序的一个制度,或者说有这么一个市场,那么尽管每个都为自己,最后的结果却是一个社会的一个共同利益的发展。从亚当·斯密开始至今的大部分经济学家认为,只要人是完全理性的,在经济活动中始终遵循个人的“理性原则”,那么,整个经济社会,从产品市场到要素市场都会达到一种均衡的状态,整个社会的福利也会达到最大的状态——“帕累托最优”状态,这样的社会就是一个完美的社会。此后的经济学家,尽管在不同方面上对这个理论进行了修正,但他们始终是承认在“看不见的手”引导下“理性人”是能够达到社会福利最大化的。
二、博弈论对传统人性假设的挑战
博弈论研究人们的策略互动行为。其认为:人是理性的,即人人都会在约束条件下最大化自身的利益;人们在交往合作中有冲突,行为互相影响,而且信息不对称。博弈论研究人们的行为,在直接相互作用时的决策,以及决策的均衡问题。换句话说,博弈论研究如何使得人们在市场经济中,自愿做出大家都遵守和实施的有效制度安排,以增进社会的福利的机制。
博弈论在经济学领域应用的一个经典的案例就是“囚徒的困境”。即警察抓住了两个合伙犯罪的罪犯,但缺乏足够的证据。如果其中至少有一人供认犯罪,就能确认罪名成立。警察将其分别关在两个独立的不能互通信息的牢房里审讯。在这种情形下,两个囚犯都可以做出自己的选择:供出同伙或者保持沉默。
这两个囚犯都知道,若他俩都保持沉默的话,就都会被释放,但警察规定:如果他们中的一个人告发他的同伙,那么他就可以被无罪释放。而他的同伙会被按照最重的罪来判决。当然,若这两个囚犯互相背叛,两个人都会被按照最重的罪来判决。
那么,这两个囚犯该怎么办?是互相合作还是互相背叛?从表面上看,他们应该互相合作,这样他们俩都能得到最好的结果:自由。但他们要考虑对方可能采取的选择。A犯和B犯都根本不相信他的同伙不会向警方提供对他不利的证据。这种想法的诱惑力实在太大了。
所以两个囚犯唯一理性的选择就是背叛同伙,所以结果就是,两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
从“囚徒的困境”可以看到与亚当·斯密的“看不见的手”原理完全相反的结论,每个囚犯根据自己的“理性”判断,做出了对自身来讲是“最优的”行为,但是他们两个人构成的整体的福利却不是最大的。
“囚徒的困境”既揭示了个体理性与团体理性之间的矛盾——从个体利益出发的行为往往不能实现团体的最大利益,同时也揭示了个体理性自身的内在矛盾——从个体利益出发的行为最终也不一定能实现个体的最大利益,甚至会得到相当差的结果。
这样,“囚徒的困境”被认为是对亚当·斯密体系的一个挑战,当然它并没有否定“看不见的手”,而只是揭示了“看不见的手”这个假设下的一些经济活动的漏洞。
三、多人多次重复博弈所展示的人性假设
美国学者艾克斯罗德在《合作的进化》一书中通过对多人多次重复博弈的对策研究,指出在博弈中产生合作的必要条件和获胜策略的主要特征:当策略群体是按各种策略的得分进行淘汰和进化时,群体以一种不可逆转的方式向合作的方向进化,即群体的合作性随进化过程越来越大。
艾克斯罗德研究合作的两个前提假设:每个人都是自私的;没有权威干预个人决策。即个人可以完全按照自己利益最大化的企图进行决策。在此基础上,他设计了一个实验,实验要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高,游戏什么时候结束是不确定的。得分规则可用如图1得益矩阵表示:
第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的“一报还一报”(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,对方上一次合作,我这一次就合作,对方上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:从不首先背叛,即“善良的”;不能对方一次背叛,就没完没了的报复,以后对方只要改为合作,我也要合作,即“宽容性”;对于对方的背叛行为一定要报复,不能总是合作,即“强硬的”。
为了进一步验证上述结论,艾克斯罗德邀请了更多人再做了一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是“一报还一报”。艾克斯罗德总结这次游戏的结论是:“一报还一报”仍是最优策略。前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是“不善良的”,后15名中,只有1个总是合作的是“善良的”。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是“清晰性”,即能让对方在三、五步对局内辨识出来。“一报还一报”就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
艾克斯罗德设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个“不善良的”哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了“一报还一报”之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。“一报还一报”在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。
艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。
四、结束语
艾克斯罗德所发现的“一报还一报”策略,从社会学的角度可以看作是一种“互惠式利他”,这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。
艾克斯罗德在《合作的进化》一书结尾提出几个结论:友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。预见性也不是合作的前提,但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。
在这里可以得出一个重要的结论:“一报还一报”应当是“理性人”的重要行为准则,具备了“善意的、宽容的、强硬的、清晰的”性质的“理性人”,才是一个完美的“理性人”,这样,“囚徒困境”所提出的挑战就会得到圆满的解决。
囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──“社会悖论”,或“资源悖论”。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。
艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李”、“人不犯我,我不犯人”都体现了“tit for tat”的思想。但这些东西并不是最优的,因为“一报还一报”在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了“以德报德,以直报怨”这样精彩的修正策略,所谓“直”,就是公正,以公正来回报对方的背叛,是一种修正了的“一报还一报”,修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。
参考文献:
1、罗伯特·艾克斯罗德.对策中的致胜之道——合作的进化[M].上海人民出版社,1998.
2、高鸿业.西方经济学[M].中国人民大学出版社,2000.
3、谢识予.经济博弈论[M].复旦大学出版社,2002.
(作者单位:上海财经大学人文学院)
关键词:人性假设,多人多次重复博弈
建立在亚当·斯密的“看不见的手”理论以及“理性人”的人性假设基础之上的西方经济学,近年来受到了
来自博弈论的严峻挑战,被证实其存在严重的假设漏洞,艾克斯罗德对多人多次重复博弈的对策研究以及从他的研究得出的新的人性假设从某种程度上弥补了这个漏洞,下面本文将详细论述这个新的理论突破。
一、传统经济学的人性假设
早在200多年以前,西方经济学的鼻祖亚当·斯密,提出了“看不见的手”原理。斯密写了一段被广为引用的著名的话:“每人都在力图应用他的资本,来使其生产品能得到最大的价值。一般地说:他并不企图增进公共之福利,也不知道他所增进的公共福利为多少。他所追求的仅仅是他个人的安乐,仅仅是他个人的利益。在这样做时,有只看不见的手引导他去促进一种目标,而这种目标决不是他追求的东西。由于追逐他自己的利益,他经常促进了社会利益,其效果要比他真正想促进社会利益时所得到的效果为大。”这段颂扬资本主义的文字被称为是斯密的“看不见的手”原理。可以毫不夸张地说:整个现代主流西方经济学都是建立在“看不见的手”的原理之上的。
亚当·斯密的“看不见的手”原理,既是经济学的一个最重要的假设,同时也是一个非常重要的哲学假设。这个假定首先是指经济学考虑问题的时候,把基本的分析单位放在“个体”之上,即“个人”。其他所有问题,所有层次上的问题,被假定都可以还原到这个个体和个体之间的关系来解释。其次,个体又被假定是一个理性的,理性思考的个体。经济学为了能够更准确地、精确地思考,对理性的定义就要比传统哲学狭窄一点。从而把理性定义为“为自己的、为个人的利益充分,要把它这个人利益最大化”的一种思考方式,这种思考方式又有一个一贯的或者一致的特点。而个人就是一个符合逻辑思考的,在符合逻辑思考的情况下,处处想着要把自己的利益最大化的个体,即“理性人”。
亚当·斯密认为,每个人虽然都是只为自己考虑,但是假如有一个基本上能够保持社会秩序的一个制度,或者说有这么一个市场,那么尽管每个都为自己,最后的结果却是一个社会的一个共同利益的发展。从亚当·斯密开始至今的大部分经济学家认为,只要人是完全理性的,在经济活动中始终遵循个人的“理性原则”,那么,整个经济社会,从产品市场到要素市场都会达到一种均衡的状态,整个社会的福利也会达到最大的状态——“帕累托最优”状态,这样的社会就是一个完美的社会。此后的经济学家,尽管在不同方面上对这个理论进行了修正,但他们始终是承认在“看不见的手”引导下“理性人”是能够达到社会福利最大化的。
二、博弈论对传统人性假设的挑战
博弈论研究人们的策略互动行为。其认为:人是理性的,即人人都会在约束条件下最大化自身的利益;人们在交往合作中有冲突,行为互相影响,而且信息不对称。博弈论研究人们的行为,在直接相互作用时的决策,以及决策的均衡问题。换句话说,博弈论研究如何使得人们在市场经济中,自愿做出大家都遵守和实施的有效制度安排,以增进社会的福利的机制。
博弈论在经济学领域应用的一个经典的案例就是“囚徒的困境”。即警察抓住了两个合伙犯罪的罪犯,但缺乏足够的证据。如果其中至少有一人供认犯罪,就能确认罪名成立。警察将其分别关在两个独立的不能互通信息的牢房里审讯。在这种情形下,两个囚犯都可以做出自己的选择:供出同伙或者保持沉默。
这两个囚犯都知道,若他俩都保持沉默的话,就都会被释放,但警察规定:如果他们中的一个人告发他的同伙,那么他就可以被无罪释放。而他的同伙会被按照最重的罪来判决。当然,若这两个囚犯互相背叛,两个人都会被按照最重的罪来判决。
那么,这两个囚犯该怎么办?是互相合作还是互相背叛?从表面上看,他们应该互相合作,这样他们俩都能得到最好的结果:自由。但他们要考虑对方可能采取的选择。A犯和B犯都根本不相信他的同伙不会向警方提供对他不利的证据。这种想法的诱惑力实在太大了。
所以两个囚犯唯一理性的选择就是背叛同伙,所以结果就是,两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
从“囚徒的困境”可以看到与亚当·斯密的“看不见的手”原理完全相反的结论,每个囚犯根据自己的“理性”判断,做出了对自身来讲是“最优的”行为,但是他们两个人构成的整体的福利却不是最大的。
“囚徒的困境”既揭示了个体理性与团体理性之间的矛盾——从个体利益出发的行为往往不能实现团体的最大利益,同时也揭示了个体理性自身的内在矛盾——从个体利益出发的行为最终也不一定能实现个体的最大利益,甚至会得到相当差的结果。
这样,“囚徒的困境”被认为是对亚当·斯密体系的一个挑战,当然它并没有否定“看不见的手”,而只是揭示了“看不见的手”这个假设下的一些经济活动的漏洞。
三、多人多次重复博弈所展示的人性假设
美国学者艾克斯罗德在《合作的进化》一书中通过对多人多次重复博弈的对策研究,指出在博弈中产生合作的必要条件和获胜策略的主要特征:当策略群体是按各种策略的得分进行淘汰和进化时,群体以一种不可逆转的方式向合作的方向进化,即群体的合作性随进化过程越来越大。
艾克斯罗德研究合作的两个前提假设:每个人都是自私的;没有权威干预个人决策。即个人可以完全按照自己利益最大化的企图进行决策。在此基础上,他设计了一个实验,实验要求每个参赛者把追求得分最多的策略写成计算机程序,然后用单循环赛的方式将参赛程序两两博弈,以找出什么样的策略得分最高,游戏什么时候结束是不确定的。得分规则可用如图1得益矩阵表示:
第一轮游戏有14个程序参加,再加上艾克斯罗德自己的一个随机程序(即以50%的概率选取合作或不合作),运转了300次。结果得分最高的程序是加拿大学者罗伯布写的“一报还一报”(tit for tat)。这个程序的特点是,第一次对局采用合作的策略,以后每一步都跟随对方上一步的策略,对方上一次合作,我这一次就合作,对方上一次不合作,我这一次就不合作。艾克斯罗德还发现,得分排在前面的程序有三个特点:从不首先背叛,即“善良的”;不能对方一次背叛,就没完没了的报复,以后对方只要改为合作,我也要合作,即“宽容性”;对于对方的背叛行为一定要报复,不能总是合作,即“强硬的”。
为了进一步验证上述结论,艾克斯罗德邀请了更多人再做了一次游戏,并把第一次的结果公开发表。第二次征集到了62个程序,加上他自己的随机程序,又进行了一次竞赛。结果,第一名的仍是“一报还一报”。艾克斯罗德总结这次游戏的结论是:“一报还一报”仍是最优策略。前面提到的三个特点仍然有效,因为63人中的前15名里,只有第8名的哈灵顿程序是“不善良的”,后15名中,只有1个总是合作的是“善良的”。可激怒性和宽容性也得到了证明。此外,好的策略还必须具有的一个特点是“清晰性”,即能让对方在三、五步对局内辨识出来。“一报还一报”就有很好的清晰性,让对方很快发现规律,从而不得不采取合作的态度。
艾克斯罗德设计了一个实验,假设63个对策者中,谁在第一轮中的得分高,他在第二轮的群体中所占比例就越高,而且是他的得分的正函数。这样,群体的结构就会在进化过程中改变,由此可以看出群体是向什么方向进化的。
“一报还一报”原来在群体中占1/63,经过1000代的进化,结构稳定下来时,它占了24%。另外,有一些程序在进化过程中消失了。其中有一个值得研究的程序,即原来前15名中唯一的那个“不善良的”哈灵顿程序,它的对策方案是,首先合作,当发现对方一直在合作,它就突然来个不合作,如果对方立刻报复它,它就恢复合作,如果对方仍然合作,它就继续背叛。这个程序一开始发展很快,但等到除了“一报还一报”之外的其它程序开始消失时,它就开始下降了。因此,以合作系数来测量,群体是越来越合作的。
进化实验揭示了一个哲理:一个策略的成功应该以对方的成功为基础。“一报还一报”在两个人对策时,得分不可能超过对方,最多打个平手,但它的总分最高。它赖以生存的基础是很牢固的,因为它让对方得到了高分。哈灵顿程序就不是这样,它得到高分时,对方必然得到低分。它的成功是建立在别人失败的基础上的,而失败者总是要被淘汰的,当失败者被淘汰之后,这个好占别人便宜的成功者也要被淘汰。
艾克斯罗德通过数学化和计算机化的方法研究如何突破囚徒困境,达成合作,将这项研究带到了一个全新境界,他在数学上的证明无疑是十分雄辩和令人信服的,而且,他在计算机模拟中得出的一些结论是非常惊人的发现,比如,总分最高的人在每次博弈中都没有拿到最高分。
四、结束语
艾克斯罗德所发现的“一报还一报”策略,从社会学的角度可以看作是一种“互惠式利他”,这种行为的动机是个人私利,但它的结果是双方获利,并通过互惠式利他有可能覆盖了范围最广的社会生活,人们通过送礼及回报,形成了一种社会生活的秩序,这种秩序即使在多年隔绝,语言不通的人群之间也是最易理解的东西。有些看似纯粹的利他行为,比如无偿损赠,也通过某些间接方式,比如社会声誉的获得,得到了回报。研究这种行为,将对我们理解社会生活有很重要的意义。
艾克斯罗德在《合作的进化》一书结尾提出几个结论:友谊不是合作的必要条件,即使是敌人,只要满足了关系持续,互相回报的条件,也有可能合作。预见性也不是合作的前提,但是,当有预见性的人类了解了合作的规律之后,合作进化的过程就会加快。这时,预见性是有用的,学习也是有用的。
在这里可以得出一个重要的结论:“一报还一报”应当是“理性人”的重要行为准则,具备了“善意的、宽容的、强硬的、清晰的”性质的“理性人”,才是一个完美的“理性人”,这样,“囚徒困境”所提出的挑战就会得到圆满的解决。
囚徒困境扩展为多人博弈时,就体现了一个更广泛的问题──“社会悖论”,或“资源悖论”。人类共有的资源是有限的,当每个人都试图从有限的资源中多拿一点儿时,就产生了局部利益与整体利益的冲突。人口问题、资源危机、交通阻塞,都可以在社会悖论中得以解释,在这些问题中,关键是通过研究,制定游戏规则来控制每个人的行为。
艾克斯罗德的一些结论在中国古典文化道德传统中可以很容易地找到对应,“投桃报李”、“人不犯我,我不犯人”都体现了“tit for tat”的思想。但这些东西并不是最优的,因为“一报还一报”在充满了随机性的现实社会生活里是有缺陷的。对此,孔子在几千年前就说出了“以德报德,以直报怨”这样精彩的修正策略,所谓“直”,就是公正,以公正来回报对方的背叛,是一种修正了的“一报还一报”,修正的是报复的程度,本来会让你损失5分,现在只让你损失3分,从而以一种公正审判来结束代代相续的报复,形成文明。
参考文献:
1、罗伯特·艾克斯罗德.对策中的致胜之道——合作的进化[M].上海人民出版社,1998.
2、高鸿业.西方经济学[M].中国人民大学出版社,2000.
3、谢识予.经济博弈论[M].复旦大学出版社,2002.
(作者单位:上海财经大学人文学院)