的囚徒困境
说明的困难出现在二人非合作的变量sum游戏,考虑著名的囚徒困境(PD),最初由美国数学家阿尔伯特·w·塔克制定。两个囚犯,一个和B一起涉嫌犯下抢劫,孤立的和敦促认罪。每只关心为自己获得最短刑期;每个人都必须决定是否承认不知道他的合伙人的决定。两个囚犯,然而,知道他们的决定的后果:(1)如果两个承认,坐牢五年;(2)如果不坦白,入狱一年(携带隐蔽武器);和(3)如果一个坦白而另一方没有,忏悔神父是免费的(把状态的证据)和沉默的人去监狱了20年。这个游戏的正常形式所示 。
从表面上看,PD的分析是非常简单的。虽然一个不能确定什么B会做,他知道他最好的承认在吗B坦白(他五年而不是20)也在B保持沉默(他是没有时间而不是一年);类似地,B将达到相同的结论。所以每个囚犯的解决方案似乎是最好的承认和去入狱五年。矛盾的是,然而,两个劫匪显然会做得更好,如果他们都采用了非理性的策略保持沉默;然后只能一年监禁。的具有讽刺意味的PD是当每个两个(或更多)政党行为自私和不配合其他(也就是说,当他承认),他们所做的行为比当他们无私,一起合作(也就是说,当他们保持沉默)。
PD不仅仅是一个有趣的假设问题;现实生活中具有类似特征经常被观察到。例如,两个店主从事价格战可能会陷入一个PD。每个店主知道,如果他比他的对手更低的价格,他将吸引竞争对手的客户,从而增加自己的利润。每个因此决定降低他的价格,结果既不获得任何客户和赚取小利润。同样的,国家的竞争军备竞赛和农民增加粮食产量也可以被视为表现PD。当两国继续购买更多的武器,以实现军事优势,无论是收益优势,比当他们开始都是贫穷的。一个农民可以增加他的利润增加的产量,但是当所有农民增加产量过剩随之而来的市场,利润较低。
它似乎悖论固有的在PD可以解决如果游戏反复播放。球员知道他们会做最好的行为当无私和合作。事实上,如果一个球员未能配合在一场比赛中,其他玩家可以在下一场比赛报复不合作,都将失去,直到他们开始“见光”和再次合作。当游戏重复固定数量的时期,然而,这个论点失败。看到这,假设两个店主设置他们的展位在为期10天的县集市。此外,假设每一个维护完整的价格,如果他不知道,第二天他的竞争对手将报复。最后一天,然而,每个店主不再意识到他的竞争对手可以报复,所以没有理由不降低他们的价格。但是如果每个店主知道他竞争对手最后一天会降低他的价格,他没有理由维持价格的第九天。持续这种推理,得出结论:理性店主每天将价格战。只有当游戏反复播放,和球员都不知道序列将结束时,,合作策略可以成功。
1980年,美国政治学家罗伯特•阿克塞尔罗德的博弈论者从事循环比赛。在每一个匹配的策略两个理论家,纳入计算机程序,在一系列PDs对彼此竞争,没有明确的结束。一个“好”策略被定义为一个球员总是与合作的对手合作。同样,如果一个球员的对手没有合作一把,大多数策略规定不合作在下一圈的时候,但是一个球员“宽容”战略恢复迅速合作一旦对手又开始合作。在这个实验中结果表明每一个不错的策略表现策略,并不好。此外,好的策略,宽容的表现最好。
移动理论
另一种方法诱导合作在PD和其他变量sum游戏理论的移动(汤姆)。提出的美国政治学家Steven j .位开始,汤姆可以让玩家在任何回报的结果矩阵、移动和矩阵内的报复行动,从而捕捉变化的战略游戏,因为他们的性质随时间而变化。特别是,汤姆假设球员提前思考后果所有的参与者将由此制定计划。因此,汤姆嵌入粗放型计算在正常形式,推导两种形式的优点:nonmyopic思维的扩展形式有纪律的正常的经济形式。
为了说明nonmyopic汤姆的观点,考虑会发生什么在PD的函数开始玩:
-
当玩非合作的开始,球员们,不管他们看的有多远,因为一旦一个球员离开,其他球员,不会享受着最好的结果,但他继续前进。结果:球员呆在非合作的结果。
-
当游戏开始合作,无论是球员将缺陷,因为如果他这样做,其他球员也将缺陷,他们都将会更糟。思考未来,因此,无论是球员将缺陷。结果:球员呆在合作的结果。
-
游戏开始时的一输一赢的结果(最好为一个球员,最差),玩家做的最好就知道如果他不是宽宏大量的,因此不合作的结果,他的对手将非合作的结果,造成他年收入最高的球员而且结果。因此,在巴西最富裕的玩家的利益,以及他的对手,他高尚地行动,预计,如果他不,非合作的结果(而且对于),而不是合作的结果(最好的),将被选择。结果:巴西最富裕的玩家将合作的结果,在那里将继续玩。
这种理性的举措并不超出了大多数玩家的苍白。事实上,他们通常是由那些超越自己的选择的直接后果。这样有远见的玩家可以摆脱困境在PD-as可怜的结果在其他变量sum games-provided玩不非合作的开始。因此,汤姆不预测无条件的合作在PD,但相反,使它玩耍的起点的函数。
生物应用
一个有趣的和意想不到的应用博弈理论,尤其是PD,发生在生物学。当两个男性面对彼此,是否竞争配偶或者一些有争议的领土,他们可以表现得像“鹰派”喷射器火警,直到一个残废,死亡,或者flees-or像“鸽子”姿态有点但离开之前任何严重危害。(实际上,鸽子虽然老鹰不合作。)这两种行为,事实证明,是理想的生存:一种只包含鹰派伤亡率很高;一个物种只包含鸽子脆弱的鹰派的入侵或突变,产生鹰派,因为人口增长速度竞争的鹰派最初会高得多的鸽子。
因此,一个物种雄性组成专门的鹰派或鸽子是脆弱的。英国生物学家约翰•梅纳德•史密斯的男性显示,第三种类型的行为,他被称为“资产阶级”,将是更稳定的纯鹰派或纯粹的鸽子。资产阶级可能像鹰或鸽子,这取决于一些外部线索;例如,它可能会开会时坚忍不拔的竞争对手在自己的领土但是开会时产生相同的竞争对手的地方。实际上,资产阶级动物外部仲裁提交他们的冲突避免长期和相互毁灭的斗争。
所示传播。史密斯显示,资产阶级入侵成功对一个完全通过观察,当鹰鹰人口面临一个鹰失去5,而资产阶级失去了只有2.5。(因为人口主要被认为是鹰,入侵的成功可以通过比较预测的平均数量的后代鹰将产生时面临的另一个鹰的平均数量的后代资产阶级将产生当面对老鹰。)显然,资产阶级入侵完全鸽子人口能否成功,获得资产阶级6后代。另一方面,一个完全资产阶级人口不能入侵鹰派和鸽派,因为资产阶级得到5反对资产阶级,这比老鹰或鸽子当面对资产阶级。注意在这个应用程序中,问题不是什么战略理性的玩家选择动物并不认为会有意识的选择,尽管他们的类型可以通过变异却什么组合的变化是稳定的,因此可能会进化。
,史密斯的支付矩阵构造各种可能的结果(例如,死亡、致残成功交配),以及与他们相关联的成本和收益(例如,失去的时间成本),加权的预期数量的基因史密斯给了几个例子,说明资产阶级策略在实践中使用。例如,男性斑点木蝴蝶寻求阳光斑点在森林的地面上,女性经常被发现。缺乏这样的地方,然而,和一个陌生人和居民之间的对抗,陌生人收益率经过短暂的决斗的战士圆。对手的决斗技能对结果没有影响。当一个蝴蝶却强行放在另一个领土,以便每个认为另一个侵略者,两个蝴蝶决斗公义的愤怒更长一段时间。