两人常和游戏

的游戏完美的信息

任何真正的简单的游戏理论兴趣是一个二人常和游戏完美的信息。这类游戏的例子包括国际象棋、跳棋和日本的游戏。1912年,德国数学家恩斯特策梅洛证明,这种游戏是绝对确定的;利用所有可用的信息,玩家可以推断策略最优,使得结果预定(严格确定)。象棋中,例如,三种结果必须发生如果球员做出最优的选择:(1)白赢了(有战略赢得反对任何黑);(2)黑赢了;或(3)黑白画。原则上,一个足够强大的超级计算机可以确定哪些将发生的三个结果。然而,考虑到有一些1043不同40-move下棋,似乎不可能,这样的电脑现在或在可预见的未来发展。因此,尽管国际象棋博弈理论是仅有的小兴趣,很可能保持持久的游戏知识的兴趣。

的游戏不完全信息

一个“saddlepoint”二人常和游戏是理性的玩家会选择的结果。(它的名字来源于它的最低一行,也是最大的收益矩阵的一列是说明shortly-which对应的形状鞍)。saddlepoint总是存在于游戏完美的信息,但不一定存在于不完全信息的游戏。通过选择策略与此相关的结果,每个玩家获得一笔至少等于他的回报结果,不管什么其他的球员。这种回报称为游戏的价值;在完全信息的游戏,它是由球员注定的选择与saddlepoint相关的策略,使这类游戏严格确定。

标准形式游戏表1是用来说明saddlepoint的计算。两个政党,一个B,每个必须决定如何处理在一个特定的选举中一个有争议的问题。每一方可以支持这个问题,反对它,或逃避模棱两可的。的决定一个B在这个问题上确定的百分比投票,每个党接收。回报的条目矩阵代表党一个的比例的选票(剩下的百分比B)。例如,当一个支持问题,B躲避它,一个得到80%和B20%的选票。

假设每一方想最大化其投票。一个起初的决定似乎很难,因为这取决于B的选择策略。一个最好的支持如果吗B躲避,反对B支持,和逃避B反对。一个因此必须考虑B做自己的之前的决定。注意,无论如何一个做的,B获得最大的百分比投票(最小的百分比一个)反对这个问题而不是支持或逃避。一次一个认识到这一点,其策略显然应该逃避,解决了30%的选票。因此,30 - 70%的选票,一个B分别是游戏的saddlepoint。

一个更系统的的方式找到一个saddlepoint是确定所谓的极大极小,极大极小值。一个首先确定最低比例的选票可以获得它的策略;然后找到了最大这三个最小值,极大极小。最小的比例一个会如果它支持、反对或躲避,分别为20、25、30。30,其中最大的是极大极小值。同样的,对于每一个策略B选择,它决定了最大比例的选票一个会赢(因此最低能赢)。在这种情况下,如果B支持、反对或躲避,最大一个会是80,和80年,分别。B将获得通过最小化其最大百分比一个的最大比例的选票,极大极小。最小的一个的最大是30,所以30吗B极大极小值。因为极大极小和极大极小值一致,30 saddlepoint。双方不妨提前宣布他们的策略,因为另一方无法获得这些知识。

混合策略和极大极小定理

当saddlepoints存在时,最优策略和结果可以很容易地确定,只是就是明证。然而,当没有saddlepoint计算是更复杂的,如所示表2

雇用一个警卫保护两个保险箱在单独的位置:年代1包含10000美元年代2包含100000美元。卫兵只能保护一个安全的从一个窃贼。窃贼和警卫必须提前决定,不知道对方要做什么,安全试图抢劫和安全保护。当他们去同一个安全,窃贼什么也没得到;当他们去不同的保险箱,窃贼被保护的内容安全。

在这样一个游戏,游戏理论并不表明任何一个特定的策略是最好的。相反,它规定根据策略选择概率分布,在这个简单的例子很容易计算。在更大、更复杂的游戏,找到这个策略需要解决的一个问题线性规划,可困难得多。

计算适当的概率分布在这个例子中,每个玩家采取一种策略,让他对他的对手做什么。假设卫兵保护年代1的概率p年代2的概率1−p。因此,如果窃贼试图年代1、他会成功只要卫兵保护年代2。换句话说,他将获得10000美元的概率1−p和$ 0的概率p平均增加10000美元(1−p)。类似地,如果窃贼试图年代2,他将得到100000美元的概率p和$ 0的概率1−p平均增加100000美元p

卫兵将冷漠安全的窃贼选择如果被盗的平均数量是相同的在这两种情况是,如果10000美元(1−p)= 100000美元p。解p给了p= 1/11。如果警卫保护年代1概率为1/11年代2概率为10/11,他将失去,平均不超过约9091美元的窃贼。

使用相同的参数,它可以显示平均窃贼将得到至少9091美元,如果他试图偷年代1,从概率为10/11年代2概率为1/11。这个解决方案的混合策略,认为是随机概率表示,类似的游戏的解决方案与saddlepoint(纯,或者最好,策略存在每个玩家)。

窃贼和卫队放弃如果他们宣布他们将随机的概率选择各自的策略。另一方面,如果他们让自己表现出任何可预测的模式选择,此信息可以被其他玩家所利用。

冯·诺依曼的极小极大定理,证明早在1928年,美国每一个有限的,二人常和游戏解决方案在纯或混合策略。具体地说,它说,每一个球员之间的这种游戏一个B,有一个价值v和策略一个B这样,如果一个采用最优(极大极小)策略,将至少有利的结果一个作为v;如果B采用最优(极大极小)策略,结果将不再有利一个v。因此,一个B有动机和能力来执行一个结果,给出了一个(预期)的回报v

效用理论

在前面的示例中,它是默认为玩家最大化他们的平均利润,但在实践中玩家可以考虑其他因素。例如,很少有人会风险确定获得1000000美元的机会赢得3000000美元或美元0,即使从这个赌注是预期的(平均)获得1500000美元。事实上,许多人们做出的决定,如购买保险政策、玩彩票和赌博在赌场,表明它们不是最大化他们的平均利润。博弈论并不试图国家球员的目标应该是什么;相反,它显示了一个球员可以最好地实现他的目标,无论这个目标是什么。

冯·诺依曼和Morgenstern理解这种差别;适应所有的球员,不管他们的目标,他们构建了一个理论实用程序。他们开始通过列出某些公理,他们认为所有理性的决策者会(例如,如果一个人喜欢茶比咖啡和咖啡比牛奶更好,那么那个人应该像茶比牛奶)。然后证明了这是可以定义一个效用函数等反映他们的决策者首选项。从本质上讲,一个效用函数分配每位玩家的数量选择转达他们的相对吸引力。某人的最大化期望效用自动决定一个球员最优先的选择。然而,近年来,一些疑问已提高了人们的行为是否符合这些公理,和替代公理。