走出囚徒困境

囚徒困境是非零和博弈中具有代表性的例子,反映了个人最佳选择并不是团体最佳选择。

**囚徒困境的故事讲的是,两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里接受审讯。警察知道两人有罪,但缺乏足够的证据。警察告诉每个人:如果两人都抵赖,各判刑一年;如果两人都坦白,各判八年;如果两人中一个坦白而另一个抵赖,坦白的放出去,抵赖的判十年。于是,每个囚徒都面临两种选择:坦白或抵赖。然而,不管同伙选择什么,每个囚徒的最优选择是坦白:如果同伙抵赖、自己坦白的话放出去,抵赖的话判一年,坦白比不坦白好;如果同伙坦白、自己坦白的话判八年,比起抵赖的判十年,坦白还是比抵赖的好。结果,两个嫌疑犯都选择坦白,各判刑八年。如果两人都抵赖,各判一年,显然这个结果好。囚徒困境所反映出的深刻问题是,人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚,或者损害集体的利益。

而如果想走出囚徒困境的前提条件就是这个博弈不是一次性的,是一个持续的博弈。

当然,一旦陷入囚徒困境,人们就会想方设法逃脱,寻求大家一直愿意看到的合作的结果。_而圈外人则大约更愿意看到他们困在其中无法脱身__。_一个根本的难题在于在任何协定下参与者都有作弊的动机。所以怎样觉察这一作弊行为并给出惩罚,从而可能走出囚徒困境,我们逐一分析。

在分析之前,还有一个问题就是,当我们觉察到作弊并决定给予作弊者以惩罚的时候,应该有着怎样的一个限度呢?因为如果惩罚过于严厉,那么这个错误的代价就会非常高昂。要想减少出错付出的代价,惩罚尽可能轻微,刚刚能够阻止作弊就够了。最低限度的惩罚可以达到阻止作弊的目的,又不会在不可避免的差错出现时招致任何额外代价

那怎样觉察作弊呢?一个妥协的方案是设置一个关键利益,或者称之为“触发”利益,一旦有人的利益低于这个利益之下,就可认定有人作弊,进而采取惩罚措施。_但作弊是不透明的,而找出作弊者可能更是难上加难,除非在博弈中只有两个人。_

只有利益,是我们决定使用何种策略的唯一标准,因此当发现作弊之后,“以牙还牙”的策略是经过验证(密歇根大学政治学学者罗伯特·阿克塞尔罗德指出)能够取得最后囚徒困境胜利的策略,也就是当有人“作弊”,那下一步就模仿他的策略执行,以实现对作弊的“惩罚”,这样的“惩罚”会促成新一轮的合作。但是,在一个一次性的博弈当中无法达成互惠合作。因为只有在一种持续的关系之中才能体现惩罚的力度,并以此成为督促合作的木棒。而如果又作弊,那么肯定又可以通过“以牙还牙”的“惩罚”促成新一轮的合作,长期来看,这个策略能够实现一半合作,一半作弊。

“以牙还牙”策略的参考:
(1)第一印象,第一轮就背叛则直接转向以牙还牙策略;
(2)短期:任何3轮当中出现两次也不可接受,直接转向以牙还牙策略;
(3)中期:过去20轮当中出现三次背叛也是不可接受的,转向以牙还牙策略;
(4)长期:过去100轮中出现五次背叛也是不可接受,转向以牙还牙策略。

不过必须要记住的一个原则是:背叛有可能是发生的误会。一定要稍加判断再进行决策。

Last modification:October 31st, 2019 at 09:51 pm
如果觉得我的文章对你有用,请随意赞赏