【雅言共读】策略思维

October 25, 2019

1245views

1327 words

走出囚徒困境

囚徒困境是非零和博弈中具有代表性的例子，反映了个人最佳选择并不是团体最佳选择。

**囚徒困境的故事讲的是，两个嫌疑犯作案后被警察抓住，分别关在不同的屋子里接受审讯。警察知道两人有罪，但缺乏足够的证据。警察告诉每个人：如果两人都抵赖，各判刑一年；如果两人都坦白，各判八年；如果两人中一个坦白而另一个抵赖，坦白的放出去，抵赖的判十年。于是，每个囚徒都面临两种选择：坦白或抵赖。然而，不管同伙选择什么，每个囚徒的最优选择是坦白：如果同伙抵赖、自己坦白的话放出去，抵赖的话判一年，坦白比不坦白好；如果同伙坦白、自己坦白的话判八年，比起抵赖的判十年，坦白还是比抵赖的好。结果，两个嫌疑犯都选择坦白，各判刑八年。如果两人都抵赖，各判一年，显然这个结果好。囚徒困境所反映出的深刻问题是，人类的个人理性有时能导致集体的非理性-聪明的人类会因自己的聪明而作茧自缚，或者损害集体的利益。

而如果想走出囚徒困境的前提条件就是这个博弈不是一次性的，是一个持续的博弈。

当然，一旦陷入囚徒困境，人们就会想方设法逃脱，寻求大家一直愿意看到的合作的结果。_而圈外人则大约更愿意看到他们困在其中无法脱身__。_一个根本的难题在于在任何协定下参与者都有作弊的动机。所以怎样觉察这一作弊行为并给出惩罚，从而可能走出囚徒困境，我们逐一分析。

在分析之前，还有一个问题就是，当我们觉察到作弊并决定给予作弊者以惩罚的时候，应该有着怎样的一个限度呢？因为如果惩罚过于严厉，那么这个错误的代价就会非常高昂。要想减少出错付出的代价，惩罚尽可能轻微，刚刚能够阻止作弊就够了。最低限度的惩罚可以达到阻止作弊的目的，又不会在不可避免的差错出现时招致任何额外代价。

那怎样觉察作弊呢？一个妥协的方案是设置一个关键利益，或者称之为“触发”利益，一旦有人的利益低于这个利益之下，就可认定有人作弊，进而采取惩罚措施。_但作弊是不透明的，而找出作弊者可能更是难上加难，除非在博弈中只有两个人。_

只有利益，是我们决定使用何种策略的唯一标准，因此当发现作弊之后，“以牙还牙”的策略是经过验证（密歇根大学政治学学者罗伯特·阿克塞尔罗德指出）能够取得最后囚徒困境胜利的策略，也就是当有人“作弊”，那下一步就模仿他的策略执行，以实现对作弊的“惩罚”，这样的“惩罚”会促成新一轮的合作。但是，在一个一次性的博弈当中无法达成互惠合作。因为只有在一种持续的关系之中才能体现惩罚的力度，并以此成为督促合作的木棒。而如果又作弊，那么肯定又可以通过“以牙还牙”的“惩罚”促成新一轮的合作，长期来看，这个策略能够实现一半合作，一半作弊。

“以牙还牙”策略的参考：
（1）第一印象，第一轮就背叛则直接转向以牙还牙策略；
（2）短期：任何3轮当中出现两次也不可接受，直接转向以牙还牙策略；
（3）中期：过去20轮当中出现三次背叛也是不可接受的，转向以牙还牙策略；
（4）长期：过去100轮中出现五次背叛也是不可接受，转向以牙还牙策略。

不过必须要记住的一个原则是：背叛有可能是发生的误会。一定要稍加判断再进行决策。

【雅言共读】策略思维