博弈论:利己主义者的游戏
利己代理
博弈论中有一个名词:Self-Interested Agents。字面意思就是利己代理。换句话说,博弈中的玩家的目的并非是只考虑自己,或者是伤害别人。Self-Interested更多意义是指决策者根据自己所得到的信息,依照自己的判断做出决策。
因此,为了量化这个性质,引出了效用理论(Utility Theory),这个理论认为每个玩家都有自己的一个效用函数,这个函数决定了玩家的决策。而决策者的每个行为都为了最大化效用期望。
经典造反问题
之前提到可以用收益矩阵来衡量博弈论的问题,但是有些问题比较复杂,不好写成矩阵。例如造反问题:
共有$10000000$个人,每个人都可以选择是否造反,只有达到$2000000$个人才算造反成功。如果造反达到人数要求,无论决策者选择什么收益都是$1$;如果造反没有达到人数要求,则决策者选择造反的收益是$-1$;如果造反没有达到人数要求,则决策者选择不造反的收益是$0$。
这种情况下,可以如此定义:
玩家:$\text{Players:} : N = {1,…,10,000,000} $
每个玩家i的决策集:$\text{Actions Set for player i:} : A_i = { \text{Revolt, Not} } $
每个玩家的效用函数:
(1) $u_i(a_i) = 1 : \text{if} : j : a_j = \text{Revolt} \geqslant 2,000,000 $
(2) $u_i(a_i) = -1 : \text{if} : j : a_j = \text{Revolt} < 2,000,000 : \text{and} : a_i = \text{Revolt} $
(3) $u_i(a_i) = -0 : \text{if} : j : a_j = \text{Revolt} < 2,000,000 : \text{and} : a_i = \text{Not}$
零和博弈
什么是零和博弈?两个人对局,必有一个人赢,一个人输。如果我们把获胜看作$1$分,失败看作$-1$,那么每一局的总分永远为$0$。换句话说,零和博弈中,不存在共赢的现象,总有一方是绝对赢家,另一方是输家。
定义:零和博弈(zero-sum game),又称零和游戏,与非零和博弈相对,是博弈论的一个概念,属非合作博弈。它是指参与博弈的各方,在严格竞争下,一方的收益必然意味着另一方的损失,博弈各方的收益和损失相加总和永远为“零”,故双方不存在合作的可能。
一个零和博弈的例子:玩家1和2都有三个策略供选择,并且每种决策组合的总得分都是0。
A | B | C | |
---|---|---|---|
1 | (30,-30) | (-10,10) | (20,-20) |
2 | (10,-10) | (20,-20) | (-20,20) |
现实生活中并不是所有博弈都是要拼个你死我活的,也就是说,共同的收益不是始终为0。囚徒困境就是一个典型的非零和博弈。
囚徒困境
著名的囚徒困境描述了一个非零和博弈的场景:
两个罪犯被关入监狱,不能互相沟通情况。
- 如果两个人都不揭发对方,每个人都坐牢一年;
- 若一人揭发,而另一人沉默,则揭发者立即获释,沉默者则因不合作而入狱十年;
- 若互相揭发,则因证据确凿,二者都判刑八年。
我们可以把这个场景画成一个收益矩阵:
罪犯2/罪犯1 | 不合作 | 合作 |
---|---|---|
不合作 | (1,1) | (-2,2) |
合作 | (2,-2) | (-1,-1) |
从全局来看,双方都不合作的收益最大。然而每个人的个人最优策略都是合作,因此他们会倾向于互相揭发,而不是同守沉默。
我们可以看一下为什么每个人的最佳策略都是合作。以罪犯1为例,当他选择合作时,不管罪犯2选择什么策略,合作带来的收益都要高于不合作($2>1$, $-1>-2$),这样的选择被称为绝对占优策略。后面我们会知道,绝对占优策略并不是全局最佳策略,但是玩家往往会选择这种策略。
一个法国网红小哥根据这个题材拍了个[视频](如果您殺了人….哪一種朋友會幫你保守秘密到最後? - YouTube),有兴趣的人可以去看一下。
重要的前提:博弈论中的理论都基于玩家是理性的。这意味着他们会根据自己的效用函数进行决策。脱离这个前提就无法进行合理的推理。
单次博弈和多次博弈
单次博弈和多次博弈的结果是不一样的。在囚徒困境案例中,由于是单次博弈,失败的玩家并没有重来的机会。而多次博弈中,玩家将有机会惩罚另一个玩家在上一回合的结果。这也是需要考虑的点。
Robert Axelrod的博弈论模拟实验
1980年,时任密歇根大学政治学教授Robert Axelrod举办了一场针对囚徒困境的计算机程序模拟大赛。他邀请了多个博弈论家设计一个计算机程序,然后让不同程序彼此多次的两两进行博弈。每个程序都会根据自己的策略和对手之前的行为来决定是否选择合作还是背叛。
提交的一些战略有以下几种:
- 总是背叛:程序每回合都选择背叛,也是最安全的策略,但失去了合作的机会。
- 总是合作:该策略遇到合作的程序时,效果非常好,然而遇到背叛时,这个策略会带来糟糕的结果。
- 随机:程序以50%的概率合作。
最终获胜的程序是一报还一报(TIT FOR TAT),由多伦多大学的数学教授Anatol Rapoport提交。这个策略是在第一次选择合作,随后根据之前的对局选择是否合作。如果上一局对方选择背叛,下一局程序也选择背叛作为惩罚,反之则合作。
第二次实验:静态群体
这个实验之后又举办了第二次。第二次有63个程序参加了实验,最终前15名中,只有1个程序是不善良的,其余的程序都具备善良,被激怒性,宽容性。冠军策略是之前TIT FOR TAT策略的一种变体,程序在遇到对手背叛时会连续两次背叛进行惩罚。而当遇到合作的程序时,它将一直保持合作。
- 善良性:从来不主动背叛对手。
- 被激怒性:对于对手的背叛会加以惩罚。
- 宽容性:对于一次背叛,不会无休止的惩罚。
第三次实验:动态群体
第二次实验后,又进行了第三次实验,这次加入了进化的规则,程序会逐渐学习并进化。每一轮实验中,得分最高的程序会在第二轮实验中拥有更高的占比。
实验结果中,TIT FOR TAT策略的程序的占比从最开始的$\frac{1}{63}$,进化1000代后,占比上升到总体的24%。前15的程序中,唯一不善良的程序的策略是,先合作,如果对手一直合作,就突然背叛一次。等对手开始报复时,它又开始合作。等对手继续合作时,再一次背叛。
总得分最高不一定需要每次博弈都要最高分。
2023/12/31 于苏州