博弈论:纳什均衡

著名的纳什均衡(Nash equilibrium)由美国数学家John Forbes Nash Jr.于1950年发表。在一个博弈过程中,无论对方的策略选择如何,当事人一方都会选择某个确定的策略,则该策略被称作支配性策略。

如果两个博弈的当事人的策略组合分别构成各自的支配性策略,那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什均衡,当每个博弈者的均衡策略都是为了达到自己期望收益的最大值,与此同时,其他所有博弈者也遵循这样的策略。

用一个大白话来说,就是在一场博弈中,每个玩家都不愿意主动更改自己的策略。

纳什均衡实验:猜数字游戏

斯坦福的公开课上举了一个例子来说明纳什均衡。猜数字游戏要求每个人从1-100中选择一个整数,最后从最接近平均值三分之二的人中随机选一个获得奖励,假设参加这项游戏的人数足够多。

在这种情况下,纳什均衡会是多少呢?由于获胜者要求是接近平均值的三分之二,如果我们假设大家的选择都是均匀分布,那均值应该是$50$,最终最可能获胜的数字应该是$50\times \frac{2}{3} =33$

而如果获胜数字最有可能是$33$,那最有可能获胜的数字应该是$30\times \frac{2}{3} =22$

再往下,最有可能获胜的数字应该是$22\times \frac{2}{3} =11$

……

到了最后,假设大家都是理智的,纳什均衡的解将是0。这时候最终获奖者将随机从0中选出。

这是一个美国的真实实验,最终结果中,2%的实验者选择了$66$、5 %选择了$50$、10 %选择了$33$、6 %选择了$22$、12 %选择了$0$或者$1$。但最后的获胜数字为$19$。这也说明了实际博弈中,不是所有玩家都是理性的

纳什均衡

在之前提到的囚徒困境中,纳什均衡点将是双方都招供,因为在未知对方选择的情况下,招供是己方的支配性策略(Strongly dominates)。所谓支配型策略,就是指一个策略在任何时刻的效用都最大。

相对的,如果一个策略在任何状态下的效用都不小于另一个策略,则被称为弱支配策略(Weakly dominates)。

如果一个决策支配其他所有决策,那么称之为占优策略。如果该决策严格压制每一个其他决策,那么称之为严格占优策略,并且该策略唯一。由占优策略组成的策略组合一定是纳什均衡点,全部由严格占优策略组成的策略组合一定是唯一的纳什均衡点。

硬币正反游戏

百度百科的纳什均衡条目下给出了一个游戏:

两个人玩一个硬币正反的游戏,规则是:双方各自亮出硬币的一面,或正或反。如果我们都是正面,则玩家A给玩家B$3$元,如果都是反面,玩家A给玩家B$1$元,剩下的情况玩家B给玩家A$2$元。现在问题是,这个游戏对A公平吗?

每一种游戏依具其规则的不同会存在两种纳什均衡,一种是纯策略纳什均衡,也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面),使得每人都赚得最多或亏得最少;或者是混合策略纳什均衡,而在这个游戏中,便应该采用混合策略纳什均衡。

可以构建一个收益矩阵:

玩家B/玩家A 正面 反面
正面 (3, -3) (-2, 2)
反面 (2, -2) (1, -1)

假如A出正面的概率是X,反面概率是1-X,B出正面的概率是Y,反面是1-Y。为了利益最大化,应该使得B无论什么决策时的收益都相等(因为对手一旦改变决策的策略就会使得A的收益下降)。

A的期望收益可以列出方程如下:

$3y+(-2)\times (1-y)=(-2)\times y+1\times (1-y)$

$y=\frac{3}{8}$

B的期望收益则为:

$-3x+(-2)\times (1-x)=(-2)\times x+(-1)\times (1-x)$

$x=\frac{3}{8}$

对于B,每次博弈的期望收益是$2(1-x)-3x=\frac{1}{8}$元。这意味着,双方每次都采取最优策略时,平均每次B的收益都是$\frac{1}{8}$元。那么,只要B采取$\frac{3}{8}$,$\frac{5}{8}$的混合策略,就会立于不败之地。

如果A全出正面,那么每次的期望收益是$\frac{3+3+3-2-2-2-2-2}{8}=-\frac{1}{8}$元。

如果A全出反面,每次的期望收益也是$\frac{-2-2-2+1+1+1+1+1}{8}=-\frac{1}{8}$元。

如果A用完全随机$(\frac{1}{2},\frac{1}{2})$策略,收益是$\frac{1}{2}(\frac{3}{8} * 3 + \frac{5}{8} * (-20)) + \frac{1}{2}(\frac{3}{8}* (-2) + \frac{5}{8} * 1) = -\frac{1}{8}$元。


这个问题还有另一种思考方式:只要A的期望不为$0$,这个游戏就对他不公平。而他的期望收益可以列为:

$E(A)=3p-2p-2(1-p)=p+2p-2=3p-2$

如果$E(A)=0$,那么这是公平的。此时求得$p$为$\frac{2}{3}$,即如果A按照$\frac{2}{3}$的概率选择正面,那么游戏就对他公平。

而这个游戏的纳什均衡是A选择正面,B选择正面,或A选择反面,B也选择反面。

如何挑选纳什均衡点?

从定义上来看,纳什均衡就是给定其他决策者的决策,每个决策者都没有单独改变决策的动机。(也就是当前决策是最优决策)

假设一共有A、B、C三个决策者,知A、B决策下C做出最优决策C*,已知A、C决策下B做出最优决策B*,已知B、C决策下A做出最优决策C*,则(A*,B*,C*)是一个纳什均衡点。

如何从决策矩阵中挑选纳什均衡点?

看该单元格,是否左侧的值是该列左侧值的最大值,右侧的值是否是该行右侧值的最大值。

1/2 C D
C -1,-1 -4,0
D 0,-4 -3,-3 <–NE点
1/2 C D
C 1,1 <–NE点 0,0
D 0,0 1,1 <–NE点
1/2 C D
C 2,1 <–NE点 0,0
D 0,0 2,1 <–NE点

也存在无纯策略纳什均衡的情况,例如:

1/2 C D
C 1,-1 -1,1
D -1,1 1,-1

注意:

  • 纳什均衡不一定是全局最优。比如囚徒困境。
  • 纳什均衡也不是自发实现的,需要有一定的沟通协商规定,总之就是直接间接获取他人的决策信息。

帕累托最优

前面提到的纳什均衡是个体寻找自身的最佳策略,而在整个博弈中,要找到一个对大家都最优的策略,这就是帕累托最优(Pareto Optimality)。

帕累托最优的核心思想是,给定一组多目标或多标准的评价指标,如果没有办法在不损害任何一个目标的前提下改善其他目标,那么我们就说该解决方案是帕累托最优的。它要解决的问题就是多目标优化问题。

简单来说,如果一个解决方案或策略在满足所有给定标准或目标的同时,无法进一步改进或优化,那么它就被认为是帕累托最优的。

也就是说,我们从全局出发,只要有一个全局的策略组合对于所有玩家的效用都高,那么它就是帕累托最优,同时它对于其他策略组合产生了帕累托支配的关系。例如,如果有 $( \mathrm{\large O}(7,8) ) $和$ ( \mathrm{\large O}^{\prime}(4,5) )$,则 $(\mathrm{O}) Pareto-dominates (\mathrm{O}^{\prime}).$

注意:

  • 一场游戏中可能有多个帕累托最优决策组合。
  • 一场游戏中最少含有一个帕累托最优决策组合。

2023/12/31 于苏州家中