教你算一下概率,以后就可以称霸抛硬币游戏了
正所谓后发制人先发制于人
新年流流,我们来玩一个游戏吧。连续抛掷硬币,直到最近
三次硬币抛掷结果是“正反反”或者“反反正”。如果是前者,那
么我获胜,你需要给我1元钱;如果是后者,那么你获胜,
我会给你1元钱。
你愿意跟我玩这样的游戏吗?换句话说,这个游戏是公平的
吗?
乍看上去,你似乎没有什么不同意这种玩法的理由,毕竟“正
反反”和“反反正”的概率是均等的。连续抛掷三次硬币可以产
生8种不同的结果,上述两种各占其中的1/8。况且,序
列“正反反”和“反反正”看上去又是如此对称,获胜概率怎么看
怎么一样。
实际情况究竟如何呢?
实际情况是,这个游戏并不是公平的——我的获胜概率是你
的3倍!
虽然“正反反”和“反反正”在一串随机硬币正反序列中出现的
频率理论上是相同的,但别忘了这两个序列之间有一个竞争
的关系,它们要比赛看谁先出现。一旦抛掷硬币产生出了其
中一种序列,游戏即宣告结束。
这样一来,你就会处于一个非常窘迫的位置:不管什么时候,
只要掷出了一个正面,如果你还没赢的话,你就赢不了了
——在出现“反反正”之前,我的“正反反”必然会先出现。事实
上,整个游戏的前两次硬币抛掷结果就已经决定了两人最终
的命运。
只要前两次抛掷结果是“正正”、“正反”、“反正”中的一个,我
都必胜无疑,你完全没有翻身的机会;只有前两次掷出的是
“反反”的结果,你才会赢得游戏的胜利。因此,我们两人的
获胜概率是3:1,我的优势绝不止是一点。
你或许想问,如果已知我的硬币序列是“正反反”,那么你应
该选择一个怎样的硬币序列,就能保证获胜概率超过我呢?
研究表明,你可以选择“正正反”,这样一来,我们两人的获
胜概率将会变为1:2,换句话说你将会有2/3的概率获胜。
A、B两人打算玩这么一个游戏。首先,A选择一个长
度为n的正反序列,然后B再选择另一个长度为n的正
反序列。之后,不断抛掷硬币,哪名玩家所选的正反序列最
先出现,哪名玩家就获胜。
我们的问题是,假如两名玩家都采取最优策略的话,对于哪
些n,游戏对玩家A更有利一些(换句话说,玩家A拥
有超过50%的胜率),对于哪些n,游戏对玩家B更有
利一些(换句话说,玩家B拥有超过50%的胜率)。
今后,为了方便起见,我们用数字1代表“正面”,用数字0
代表“反面”。当n=1时,两名玩家的获胜概率显然相同。
当n=2时,可以验证,除了00打10以及11打01的
胜率之比是1:3以外,其他所有情况(包括00打11、00
打01、01打10、11打10等四种)的胜率之比都
是1:1。
因而,如果两名玩家都采用最优策略的话,A一定会选择
01和10之一,从而避免B获得3倍于自己的胜率。最
终结果便是,两人的胜率之比维持在1:1的位置,获胜概率
仍然相同。令人意想不到的是,当n>2时,游戏总是对玩
家B更有利的。
换句话说,我们要证明,当n>2时,不管A选择的01串
是什么,玩家B总能有针对性地选择一个恰当的01串,
使得他获胜的概率大于50%。
事实上,我们会证明这样一个结论:玩家B总可以截取A
所选的01串的前n–1位,再在前面加上一个数字0或
者数字1作为自己的01串,从而使得自己获胜的概率至
少有。
不妨把A选择的01串记作Py(其中P是一个长度为
n–1的01串,y则表示数字0或者数字1),我们先
来看看,如果B选择的01串是0P,结果将会怎样。
不断抛掷硬币,直到最近n–1次硬币抛掷结果正好是序列
P。这有三种情况:情况一,最近n次硬币抛掷结果是0P;
情况二,最近n次硬币抛掷结果是1P;情况三,目前硬
币抛掷次数还不足n次。
情况三是最为特殊的,它意味着整个游戏的前n–1次硬币
抛掷结果正好就是序列P,其概率为(1/2)^(n-1)。让我们
假设情况一出现的概率是p1,则情况二出现的概率就是。
如果出现了情况一,那么玩家B就直接获胜了,游戏结束;
如果出现了情况二或者情况三,那么游戏仍需继续进行下去。
不妨把此时的游戏局面叫做节点X。现在,玩家A离胜利
已经非常接近了。如果下一次抛掷硬币的结果正好是y,
那么玩家A就获胜了,游戏结束;如果下一次抛掷硬币的
结果是y'(这里y'表示与y相反的数字),那么游戏将会
到达另外一个关键的中间状态:最近n次硬币抛掷结果为
Py'。
对于两名玩家来说,这是全新的起跑线。如果下一次出现P
的时候,它前面的那个数字是0,那么玩家B就直接获胜
了,游戏结束;如果下一次出现P的时候,它前面的那个
数字是1,那么游戏状态又会回到节点X,玩家A将会
再次得到一个制胜的绝佳机会。
不妨假设以Py'打头的随机01序列中,下一个P的前面
正好是数字0的概率为p2,那么下一个P的前面正好是
数字1的概率就是1–p2。于是,整个游戏的状态转移图
如下图所示。玩家B获胜的概率就可以用p1和p2表示
出来了。首次出现P的时候玩家B就获胜的概率为p1,
有另外1–p1的概率进入节点X。进入节点X以后,A
将会有1/2的概率获胜,B将会有(1/2)·p2的概率获胜,
其余情况下游戏局面将会回到节点X,刚才的各种事件会
以相同比例的概率再次发生,并且有可能一遍一遍地重复下
去。
因此,总的来说,进入节点X以后,两名玩家的获胜概率
之比是(1/2):((1/2)·p2);进而得出,进入节点X以后,
玩家B获胜的概率就是
((1/2)·p2)/(1/2+(1/2)·p2)=p2/(1+p2)
综上所述,玩家B的获胜概率应为:
W0=p1+(1–p1)·p2/(1+p2)
别忘了,上述概率值仅仅是A在选择了01串Py之后,
B以0P应对时获胜的概率。如果B选择以1P应对呢?
整个游戏的状态转移图将会变成下面这样。前面我们说过,
硬币序列里第一次出现P的时候,最近n次硬币抛掷结果
是0P,最近n次硬币抛掷结果是1P,目前硬币抛掷次
数还不足n次,这三种情况的发生概率分别为p1、和
(1/2)^(n-1)。
然而,这次玩家B选择的01串变成了1P,因而游戏开
始时进入两条支线的概率就成为了图中所示的那样。另外,
从Py出发随机产生01串,下次出现P时它的前面正好
是数字1的概率为1–p2,因而我们需要把第一幅状态转
移图当中的所有p2都替换成1–p2。可以计算出,进入
节点X以后,两人的胜率之比为(1/2):((1/2)·(1–p2)),
其中B的获胜概率为
((1/2)·(1–p2))/(1/2+(1/2)·(1–p2))=(1–p2)/(2–p2)
玩家B的总获胜概率就是:我们要证明的即是,W0和
W1总有一个大于等于。注意到,如果固定p2不变,把W0
和W1都看作是关于p1的函数,那么W0将会是一个线
性递增函数,W1则是一个线性递减函数,因此最坏的情
况将会发生在W0=W1的时候,此时W0和W1中的较
大值达到最小。解得把上式代回W0或者W1当中的任意
一个,得到的是一个与p2无关的数,它正是。下图是n=
3时W0和W1的图像,可以看到两个图像相交在一起,
形成了一条高度大约为0.58的交线。
至此,我们便成功地证明了,当n>2时,不管A选的01
串是什么,B总能有针对性地选择另一个01串,使得获
胜概率可以高达50%以上。事实上,如果把玩家A的选
择记作Py,那么玩家B的最优策略一定就是0P和1P
之一。这个结论是由LeonidasGuibas和AndyOdlyzko
在1978年合写的一篇论文里证明的。
当n=3时,玩家B的最优策略可以归纳如下:
如果A选的是那么B应该选两人的胜率之比
0001001:70011001:30100011:20110011:21001101:21011
101:21100111:31110111:7
本文发布于:2022-11-13 22:12:41,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/13664.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
| 留言与评论(共有 0 条评论) |