博弈论:基本概念

博弈论是我从22年底就在断断续续看的东西,这个部分的内容是我根据斯坦福博弈论公开课,冯诺依曼的博弈论以及一些网络资源的理解得到的结论,因此理解上可能有所偏差。


今天早上打2v2斗地主的时候,碰到对面两个人均70万豆的土豪(原谅我们没见过世面,账户上的豆从来没超过十万:P),刚好这一局我们炸弹不少,等到最后双方只有几十张牌的时候,倍数已经叠到好几万了。这时候,记牌器显示对面还有8张10,而我们一个人手上有一个6张的2的炸弹,另一个人手上有2张2。

这时我们面临一个选择,这8张10是在一个人手上,还是每个人各4张?如果是前者,那我们如果选择炸掉,那输的时候,倍数就会翻倍,而如果是后者,那我们就稳赢了。基于他们是大土豪,他们是不是有很大的概率前面一直不出炸弹,而是留到最后?从他们的角度,我们俩个加起来才1万6的豆子,即使输,收益也不会输很多,因此会不会想着放我们走?

最后我们飞快打出炸弹,赢下了这一局,爽吃1万6的豆。这个过程无疑与博弈论息息相关。

博弈的定义

根据定义,博弈是在一定的规则下,各个参与者根据掌握的信息,决定自己的行动策略,以实现利益最大化或是风险最小化。

博弈论起源于运筹学和经济学,更像是数学和社会科学的结合体,因此社会/经济中的很多现象都可以用博弈论进行解释。此外生物学中也会用博弈论来预测生物的进化。

博弈四要素

参与者/玩家(Player):博弈中的每个参与者被称为玩家,每个玩家都有自己的目标和策略。

策略(Strategies):策略即玩家可以采取的行动。
支付(Payoffs):支付是玩家在策略组合中的收益和损失。
信息(Infomation):信息是玩家进行决策时获得的信息。

博弈的分类

博弈的基本分类

博弈的分类主要可以从三个维度来看,分别是是否合作,行动顺序,玩家的信息水平:

  • 合作博弈:玩家之间是否有一个具有约束力的协议/规则。
  • 行动顺序:玩家的决策是否有时间顺序。
  • 信息水平:玩家对于其他玩家的了解程度。
信息/行动顺序 静态(玩家同时行动/彼此不知道行动) 动态(玩家行动由先后顺序)
完全信息 完全信息静态博弈(纳什均衡) 完全信息动态博弈(子博弈完美纳什均衡)
不完全信息 不完全信息静态博弈(贝叶斯纳什均衡) 不完全信息动态博弈(完美贝叶斯纳什均衡)

博弈的数学定义

博弈可以被抽象为范式,比较典型的有以下几个:

  1. 博弈的玩家集可以表示为 $N={1,2,…,n}$

  2. 每个玩家的策略集表示为 $S_{i},\forall i\in N$

  3. 每个玩家的支付集表示为 $R_{i},\forall i\in N$

因此,一个静态博弈可以表示为 $\left.v=\langle N,{S_{i}},{R_{i}}\right\rangle$

此外,还有一种定义:
设定${N}$是玩家的集合,每个玩家$i\in\mathbb{N};$都有一个策略集合:
$\pi : \prod_{i \in \mathbb{N}} i \to \mathbb{R}^{\mathbb{N}}$

也就是说,只要知道玩家的策略集合,就可以找到一个对应的实数。

TCP Backoff游戏和收益矩阵

斯坦福大学的博弈论课程中以一个TCP backoff机制作为引子介绍了博弈论。

这是计算机网络中的退避协议,用来处理网络拥堵时的流量分配。两台电脑之间想要实现通信,可以选择建立回退机制以及不建立回退机制。如果AB双方均建立回退机制,则双方延迟都是1。如果A、B一方建立回退机制,另一方不建立,那么建立的一方延迟是4,不建立的一方延迟是0。如果双方都不建立回退机制,则双方延迟都是3。

根据这种规则,可以构建一个矩阵如下:

B / A Y N
Y (-1,-1) (-4,0)
N (0,-4) (-3,3)

上面这个矩阵被称为收益矩阵,在博弈论中起到了重要的作用。A/B的不同选择带来的收益,将由一个实数进行表示。


今天先写到这,下次再继续写。

2023/12/30 于苏州