博弈论：基本概念

博弈论是我从22年底就在断断续续看的东西，这个部分的内容是我根据斯坦福博弈论公开课，冯诺依曼的博弈论以及一些网络资源的理解得到的结论，因此理解上可能有所偏差。

今天早上打2v2斗地主的时候，碰到对面两个人均70万豆的土豪（原谅我们没见过世面，账户上的豆从来没超过十万:P），刚好这一局我们炸弹不少，等到最后双方只有几十张牌的时候，倍数已经叠到好几万了。这时候，记牌器显示对面还有8张10，而我们一个人手上有一个6张的2的炸弹，另一个人手上有2张2。

这时我们面临一个选择，这8张10是在一个人手上，还是每个人各4张？如果是前者，那我们如果选择炸掉，那输的时候，倍数就会翻倍，而如果是后者，那我们就稳赢了。基于他们是大土豪，他们是不是有很大的概率前面一直不出炸弹，而是留到最后？从他们的角度，我们俩个加起来才1万6的豆子，即使输，收益也不会输很多，因此会不会想着放我们走？

最后我们飞快打出炸弹，赢下了这一局，爽吃1万6的豆。这个过程无疑与博弈论息息相关。

博弈的定义

根据定义，博弈是在一定的规则下，各个参与者根据掌握的信息，决定自己的行动策略，以实现利益最大化或是风险最小化。

博弈论起源于运筹学和经济学，更像是数学和社会科学的结合体，因此社会/经济中的很多现象都可以用博弈论进行解释。此外生物学中也会用博弈论来预测生物的进化。

博弈四要素

参与者/玩家(Player)：博弈中的每个参与者被称为玩家，每个玩家都有自己的目标和策略。

策略(Strategies)：策略即玩家可以采取的行动。
支付(Payoffs)：支付是玩家在策略组合中的收益和损失。
信息(Infomation)：信息是玩家进行决策时获得的信息。

博弈的分类

博弈的基本分类

博弈的分类主要可以从三个维度来看，分别是是否合作，行动顺序，玩家的信息水平：

合作博弈：玩家之间是否有一个具有约束力的协议/规则。
行动顺序：玩家的决策是否有时间顺序。
信息水平：玩家对于其他玩家的了解程度。

信息/行动顺序	静态（玩家同时行动/彼此不知道行动）	动态（玩家行动由先后顺序）
完全信息	完全信息静态博弈（纳什均衡）	完全信息动态博弈（子博弈完美纳什均衡）
不完全信息	不完全信息静态博弈（贝叶斯纳什均衡）	不完全信息动态博弈（完美贝叶斯纳什均衡）

博弈的数学定义

博弈可以被抽象为范式，比较典型的有以下几个：

博弈的玩家集可以表示为 $N={1,2,…,n}$
每个玩家的策略集表示为 $S_{i},\forall i\in N$
每个玩家的支付集表示为 $R_{i},\forall i\in N$

因此，一个静态博弈可以表示为 $\left.v=\langle N,{S_{i}},{R_{i}}\right\rangle$

此外，还有一种定义：
设定${N}$是玩家的集合，每个玩家$i\in\mathbb{N};$都有一个策略集合：
$\pi : \prod_{i \in \mathbb{N}} i \to \mathbb{R}^{\mathbb{N}}$

也就是说，只要知道玩家的策略集合，就可以找到一个对应的实数。

TCP Backoff游戏和收益矩阵

斯坦福大学的博弈论课程中以一个TCP backoff机制作为引子介绍了博弈论。

这是计算机网络中的退避协议，用来处理网络拥堵时的流量分配。两台电脑之间想要实现通信，可以选择建立回退机制以及不建立回退机制。如果AB双方均建立回退机制，则双方延迟都是1。如果A、B一方建立回退机制，另一方不建立，那么建立的一方延迟是4，不建立的一方延迟是0。如果双方都不建立回退机制，则双方延迟都是3。

根据这种规则，可以构建一个矩阵如下：

B / A	Y	N
Y	(-1,-1)	(-4,0)
N	(0,-4)	(-3,3)

上面这个矩阵被称为收益矩阵，在博弈论中起到了重要的作用。A/B的不同选择带来的收益，将由一个实数进行表示。

今天先写到这，下次再继续写。

2023/12/30 于苏州

博弈论

#博弈论

写在2023的最后一天上一篇

Python开发：Argparse/配置环境变量下一篇