博弈论：纳什均衡

著名的纳什均衡(Nash equilibrium)由美国数学家John Forbes Nash Jr.于1950年发表。在一个博弈过程中，无论对方的策略选择如何，当事人一方都会选择某个确定的策略，则该策略被称作支配性策略。

如果两个博弈的当事人的策略组合分别构成各自的支配性策略，那么这个组合就被定义为纳什均衡。一个策略组合被称为纳什均衡，当每个博弈者的均衡策略都是为了达到自己期望收益的最大值，与此同时，其他所有博弈者也遵循这样的策略。

用一个大白话来说，就是在一场博弈中，每个玩家都不愿意主动更改自己的策略。

纳什均衡实验：猜数字游戏

斯坦福的公开课上举了一个例子来说明纳什均衡。猜数字游戏要求每个人从1-100中选择一个整数，最后从最接近平均值三分之二的人中随机选一个获得奖励，假设参加这项游戏的人数足够多。

在这种情况下，纳什均衡会是多少呢？由于获胜者要求是接近平均值的三分之二，如果我们假设大家的选择都是均匀分布，那均值应该是$50$，最终最可能获胜的数字应该是$50\times \frac{2}{3} =33$

而如果获胜数字最有可能是$33$，那最有可能获胜的数字应该是$30\times \frac{2}{3} =22$

再往下，最有可能获胜的数字应该是$22\times \frac{2}{3} =11$

……

到了最后，假设大家都是理智的，纳什均衡的解将是0。这时候最终获奖者将随机从0中选出。

这是一个美国的真实实验，最终结果中，2%的实验者选择了$66$、5 %选择了$50$、10 %选择了$33$、6 %选择了$22$、12 %选择了$0$或者$1$。但最后的获胜数字为$19$。这也说明了实际博弈中，不是所有玩家都是理性的。

纳什均衡

在之前提到的囚徒困境中，纳什均衡点将是双方都招供，因为在未知对方选择的情况下，招供是己方的支配性策略(Strongly dominates)。所谓支配型策略，就是指一个策略在任何时刻的效用都最大。

相对的，如果一个策略在任何状态下的效用都不小于另一个策略，则被称为弱支配策略(Weakly dominates)。

如果一个决策支配其他所有决策，那么称之为占优策略。如果该决策严格压制每一个其他决策，那么称之为严格占优策略，并且该策略唯一。由占优策略组成的策略组合一定是纳什均衡点，全部由严格占优策略组成的策略组合一定是唯一的纳什均衡点。

硬币正反游戏

百度百科的纳什均衡条目下给出了一个游戏：

两个人玩一个硬币正反的游戏，规则是：双方各自亮出硬币的一面，或正或反。如果我们都是正面，则玩家A给玩家B$3$元，如果都是反面，玩家A给玩家B$1$元，剩下的情况玩家B给玩家A$2$元。现在问题是，这个游戏对A公平吗？

每一种游戏依具其规则的不同会存在两种纳什均衡，一种是纯策略纳什均衡，也就是说玩家都能够采取固定的策略(比如一直出正面或者一直出反面)，使得每人都赚得最多或亏得最少；或者是混合策略纳什均衡，而在这个游戏中，便应该采用混合策略纳什均衡。

可以构建一个收益矩阵：

玩家B/玩家A	正面	反面
正面	(3, -3)	(-2, 2)
反面	(2, -2)	(1, -1)

假如A出正面的概率是X，反面概率是1-X，B出正面的概率是Y，反面是1-Y。为了利益最大化，应该使得B无论什么决策时的收益都相等（因为对手一旦改变决策的策略就会使得A的收益下降）。

A的期望收益可以列出方程如下：

$3y+(-2)\times (1-y)=(-2)\times y+1\times (1-y)$

$y=\frac{3}{8}$

B的期望收益则为：

$-3x+(-2)\times (1-x)=(-2)\times x+(-1)\times (1-x)$

$x=\frac{3}{8}$

对于B，每次博弈的期望收益是$2(1-x)-3x=\frac{1}{8}$元。这意味着，双方每次都采取最优策略时，平均每次B的收益都是$\frac{1}{8}$元。那么，只要B采取$\frac{3}{8}$，$\frac{5}{8}$的混合策略，就会立于不败之地。

如果A全出正面，那么每次的期望收益是$\frac{3+3+3-2-2-2-2-2}{8}=-\frac{1}{8}$元。

如果A全出反面，每次的期望收益也是$\frac{-2-2-2+1+1+1+1+1}{8}=-\frac{1}{8}$元。

如果A用完全随机$(\frac{1}{2}，\frac{1}{2})$策略，收益是$\frac{1}{2}(\frac{3}{8} * 3 + \frac{5}{8} * (-20)) + \frac{1}{2}(\frac{3}{8}* (-2) + \frac{5}{8} * 1) = -\frac{1}{8}$元。

这个问题还有另一种思考方式：只要A的期望不为$0$，这个游戏就对他不公平。而他的期望收益可以列为：

$E(A)=3p-2p-2(1-p)=p+2p-2=3p-2$

如果$E(A)=0$，那么这是公平的。此时求得$p$为$\frac{2}{3}$，即如果A按照$\frac{2}{3}$的概率选择正面，那么游戏就对他公平。

而这个游戏的纳什均衡是A选择正面，B选择正面，或A选择反面，B也选择反面。

如何挑选纳什均衡点？

从定义上来看，纳什均衡就是给定其他决策者的决策，每个决策者都没有单独改变决策的动机。（也就是当前决策是最优决策）

假设一共有A、B、C三个决策者，知A、B决策下C做出最优决策C*，已知A、C决策下B做出最优决策B*，已知B、C决策下A做出最优决策C*，则(A*,B*,C*)是一个纳什均衡点。

如何从决策矩阵中挑选纳什均衡点？

看该单元格，是否左侧的值是该列左侧值的最大值，右侧的值是否是该行右侧值的最大值。

1/2	C	D
C	-1,-1	-4,0
D	0,-4	-3,-3 <–NE点

1/2	C	D
C	1，1 <–NE点	0,0
D	0,0	1，1 <–NE点

1/2	C	D
C	2，1 <–NE点	0，0
D	0，0	2，1 <–NE点

也存在无纯策略纳什均衡的情况，例如：

1/2	C	D
C	1,-1	-1,1
D	-1,1	1,-1

注意：

纳什均衡不一定是全局最优。比如囚徒困境。
纳什均衡也不是自发实现的，需要有一定的沟通协商规定，总之就是直接间接获取他人的决策信息。

帕累托最优

前面提到的纳什均衡是个体寻找自身的最佳策略，而在整个博弈中，要找到一个对大家都最优的策略，这就是帕累托最优(Pareto Optimality)。

帕累托最优的核心思想是，给定一组多目标或多标准的评价指标，如果没有办法在不损害任何一个目标的前提下改善其他目标，那么我们就说该解决方案是帕累托最优的。它要解决的问题就是多目标优化问题。

简单来说，如果一个解决方案或策略在满足所有给定标准或目标的同时，无法进一步改进或优化，那么它就被认为是帕累托最优的。

也就是说，我们从全局出发，只要有一个全局的策略组合对于所有玩家的效用都高，那么它就是帕累托最优，同时它对于其他策略组合产生了帕累托支配的关系。例如，如果有 $( \mathrm{\large O}(7,8) ) $和$ ( \mathrm{\large O}^{\prime}(4,5) )$，则 $(\mathrm{O}) Pareto-dominates (\mathrm{O}^{\prime}).$

注意：

一场游戏中可能有多个帕累托最优决策组合。
一场游戏中最少含有一个帕累托最优决策组合。

2023/12/31 于苏州家中

博弈论

#博弈论

解读LlaMA Paper: 开放且高效的基础语言模型集上一篇

博弈论：利己主义者的游戏下一篇