
博弈论
博弈论(Game Theory),亦名“对策论”、“赛局理论”,
是一种处理竞争与合作问题的数学决策方法;研究竞争中参加者为争
取最大利益应当如何做出决策的数学方法;根据信息分析及能力判
断,研究多决策主体之间行为相互作用及其相互平衡,以使收益或效
用最大化的一种对策理论;研究决策主体的行为发生直接相互作用
时候的决策以及这种决策的均衡问题。
博弈论是二人在平等的对局中各自利用对方的策略变换自己
的对抗策略,达到取胜的目的。博弈论思想古已有之,我国古代
的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博
弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,
人们对博弈局势的把握只停留在经验上,没有向理论化发展。 博
弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优
化策略。近代对于博弈论的研究,开始于策墨洛(),
Zermelo
波雷尔()及冯·诺伊曼()。
Borelvon Neumann
1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了
博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦共著的划时
代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并
将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和
理论体系。1950~1951年,约翰·福布斯·纳什(
John Forbes
Nash Jr
)利用不动点定理证明了均衡点的存在,为博弈论的一般
1
化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》
(1950),《非合作博弈》(1951)等等,给出了纳什均衡的
概念和均衡存在定理。此外,塞尔顿、哈桑尼的研究也对博弈论
发展起到推动作用。今天博弈论已发展成一门较完善的学科。
博弈的分类根据不同的基准也有所不同。一般认为,博弈主
要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作
用的当事人之间有没有一个具有约束力的协议,如果有,就是合
作博弈,如果没有,就是非合作博弈。从行为的时间序列性,博
弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择
或虽非同时选择但后行动者并不知道先行动者采取了什么具体行
动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行
动者能够观察到先行动者所选择的行动。通俗的理解:"囚徒困境
"就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有
先后次序的,属于动态博弈 。按照参与人对其他参与人的了解程
度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过
程中,每一位参与人对其他参与人的特征、策略空间及收益函数
有准确的信息。如果参与人对其他参与人的特征、策略空间及收
益函数信息了解的不够准确、或者不是对所有参与人的特征、策
略空间及收益函数都有准确的准确信息,在这种情况下进行的博
弈就是不完全信息博弈。目前经济学家们现在所谈的博弈论一般
是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论
息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全
信息动态博弈。
博弈要素: (1)决策人:在博弈中率先作出决策的一方,这一
方往往依据自身的感受、经验和表面状态优先采取一种有方向性
的行动。(2) 对抗者:在博弈二人对局中行动滞后的那个人,与
决策人要作出基本反面的决定,并且他的动作是滞后的、默认的、
被动的,但最终占优。他的策略可能依赖于决策人劣势的策略选
择,占去空间特性,因此对抗是唯一占优的方式,实为领导人的
阶段性终结行为。(3)局中人(players):在一场竞赛或博弈中,
每一个有决策权的参与者成为一个局中人。只有两个局中人的博
弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人
博弈”。(4)策略(strategies):一局博弈中,每个局中人都有选
择实际可行的完整的行动方案,即方案不是某阶段的行动方案,
而是指导整个行动的一个方案,一个局中人的一个可行的自始至
终全局筹划的一个行动方案,称为这个局中人的一个策略。如果
在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,
否则称为“无限博弈”。(5)得失(payoffs):一局博弈结局时的结
果称为得失。每个局中人在一局博弈结束时的得失,不仅与该局
中人自身所选择的策略有关,而且与全局中人所取定的一组策略
有关。所以,一局博弈结束时每个局中人的“得失”是全体局中
人所取定的一组策略的函数,通常称为支付(payoff)函数。(6)
次序(orders):各博弈方的决策有先后之分,且一个博弈方要
3
作不止一次的决策选择,就出现了次序问题;其他要素相同次序
不同,博弈就不同。(7)博弈涉及到均衡:均衡是平衡的意思,在
经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商
品市场如果在某一价格下,想以此价格买此商品的人均能买到,
而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。
所谓纳什均衡,它是一稳定的博弈结果。
纳什均衡(Nash Equilibrium):1950年和1951年纳什的
两篇关于非合作博弈论的重要论文,彻底改变了人们对竞争和市
场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的
存在性,即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的
内在联系。纳什的研究奠定了现代非合作博弈论的基石,后来的
博弈论研究基本上都沿着这条主线展开的。纳什均衡的提出和不
断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、
军事科学等领域奠定了坚实的理论基础。纳什均衡的主要内容是:
在一策略组合中,所有的参与者面临这样一种情况,当其他人不
改变策略时,他此时的策略是最好的。也就是说,此时如果他改
变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与
者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提
是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博
弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策
略b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a,
那么局中人A的支付不会超过他采取原来的策略a*的支付。这一
4
结果对局中人B亦是如此。这样,“均衡偶”的明确定义为:一
对策略a*(属于策略集A)和策略b*(属于策略集B)称之为均衡
偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总
有:偶对(a, b*)≤偶对(a*,b*)≥偶对(a*,b)。对于非零和博
弈也有如下定义:一对策略a*(属于策略集A)和策略b*(属于
策略集B)称为非零和博弈的均衡偶,对任一策略a(属于策略集
A)和策略 b(属于策略集B),总有对局中人A的偶对(a, b*)
≤偶对(a*,b*);对局中人B的偶对(a*,b)≤偶对(a*,b*)。有了上
述定义,就立即得到纳什定理:任何具有有限纯策略的二人博弈
至少有一个均衡偶。这一均衡偶就称为纳什均衡点。 纳什定理
的严格证明要用到不动点理论,不动点理论是经济均衡研究的主
要工具。通俗地说,寻找均衡点的存在性等价于找到博弈的不动
点。纳什均衡点概念提供了一种非常重要的分析手段,使博弈论
研究可以在一个博弈结构里寻找比较有意义的结果。但纳什均衡
点定义只局限于任何局中人不想单方面变换策略,而忽视了其他
局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的
结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡
点”。
智猪博弈:猪圈里有两头猪,一头大猪,一头小猪。猪圈的
一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投
食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就
有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会
5
在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,
则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半
残羹。那么,两只猪各会采取什么策略?答案是:小猪将选择“搭
便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残
羹不知疲倦地奔忙于踏板和食槽之间。原因何在?因为,小猪踩
踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论
大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知
小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所
以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的
游戏规则所导致的。规则的核心指标是:每次落下的食物数量和
踏板与投食口之间的距离。
如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着
大猪跑”的景象吗?试试看。
者来说,这个规则的成本相当高(每次提供双份的食物);而且
因为竞争不强烈,想让猪们去多踩踏板的效果并不好。
改变方案三:减量加移位方案。投食仅原来的一半分量,但
同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢
着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费
完。对于游戏设计者,这是一个最好的方案。成本不高收获最大。
原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待
为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,
小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有
效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公
司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游
戏规则的核心指标设置是否合适了。比如,公司的激励制度设计,
奖励力度太大,又是持股,又是期权,公司职员个个都成了百万
富翁,成本高不说,员工的积极性并不一定很高。这相当于“智
猪博弈”增量方案一所描述的情形。但是如果奖励力度不大,而
具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不
创造效益但分享成果的人,等等。因此,对于制订各种经济管理
的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。
博弈论的研究方法和其他许多利用数学工具研究社会经济现
象的学科一样,都是从复杂的现象中抽象出基本的元素,对这些
元素构成的数学模型进行分析,而后逐步引入对其形势产影响的
其他因素,从而分析其结果。基于不同抽象水平,形成三种博弈
表述方式,标准型、扩展型和特征函数型利用这三种表述形式,
可以研究形形色色的问题。因此,它被称为“社会科学的数学”从
理论上讲,博弈论是研究理性的行动者相互作用的形式理论,而
实际上正深入到经济学、政治学、社会学等等,被各门社会科学
所应用。博弈论是指某个个人或是组织,面对一定的环境条件,
在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或
策略进行选择并加以实施,并从各自取得相应结果或收益的过程,
在经济学上博弈论是个非常重要的理论概念。可以这样说,要想赢
得生意,不可不学博弈论;要想赢得生活,同样不可不学博弈论。
囚徒困境:在博弈论中,含有占优战略均衡的一个著名例子
是由塔克给出的“囚徒困境”()博弈模
prisoners’ dilemma
型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故
事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警
方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌
疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,
8
交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;
如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则
以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者
有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不
足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱
1年。
下表给出了这个博弈的支付矩阵
A╲B 坦白 抵赖
坦白 -8,-8 0,-10
抵赖 -10,0 -1,-1
我们来看看这个博弈可预测的均衡是什么。对A来说,尽管
他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”
总是最优的。显然,根据对称性,B也会选择“坦白”,结果两
人都被判刑8年,倘若他们都选择“抵赖”,每人只被判刑1年。
在表中的四种行动选择组合中,“抵赖、抵赖”是合作博弈最优
选择,因为偏离这个行动选择组合的任何其他行动选择组合都至
少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑
人的占优战略,而“坦白,坦白”是一个占优战略均衡。按照亚
当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白
交代是最佳策略。因为坦白交代可以期望得到最好的结果——不
被判刑,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。
9
这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。
如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划
算了!因此,在这种情况下还是应该选择坦白交代,即使两人同
时坦白,至多也只判8年,总比被判10年好吧。所以,两人合
理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(免
刑)就不会出现。这样两人都选择坦白的策略以及因此被判8年
的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在
选择策略时都没有“共谋”(串供),他们只是选择对自己最有
利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,
这种策略组合由所有局中人(也称当事人、参与者)的最佳策略
组合构成。没有人会主动改变自己的策略以便使自己获得更大利
益。
“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集
体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳
什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与
抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当
他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到
最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不
见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每
一个人都从利己的目的出发,而最终全社会达到利他的效果。不
妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通
效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”
的原理的一个悖论:从利己目的出发,结果损人不利己,既不利
己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳
什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从
“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己
策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式
来对别人,但只有他们也按同样方式行事才行。也就是中国人说
的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,
“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要
比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩
的合作博弈理论的重大发展,甚至可以说是一场革命。
价格战博弈:现在我们经常会遇到各种各样的价格大战,这
成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈
双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬
高价格。另一个极端的情况是厂商用正常的价格,双方都可以获
得利润。从这一点,我们又引出一条基本准则:“把你自己的战
略建立在假定对手会按其最佳利益行动的基础上”。事实上,完
全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种
状态下,每一个厂商或消费者都是按照所有的别人已定的价格来
进行决策。在这种均衡中,每一企业要使利润最大化,消费者要
使效用最大化,结果导致了零利润,也就是说价格等于边际成本。
在完全竞争的情况下,非合作行为导致了社会所期望的经济效率
状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的
经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强
反垄断的意义所在。
污染博弈:假如市场经济中存在着污染,但政府并没有管制
的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,
也绝不会主动增加环保设备投资。按照看不见的手的原理,所有
企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳
的情况就是如此。只有在政府加强污染管制时,企业才会采取低
污染的策略组合。企业在这种情况下,获得与高污染同样的利润,
但环境将更好。
以牙还牙:重复的博弈理论上导致了合作的产生,但是谁也
不能保证合作的继续,因为之前已经说过,合作的代价是建立在
损害个人利益基础之上的。如果个人放弃未来收益或当前背叛收
益大于未来收益,背叛的风险仍然存在。那么在重复博弈中怎样
的策略才是最优。若干睿智而复杂在经过计算机中PK之后,极
其原始的“以牙换牙”策略脱颖而出,固然这个策略简单至极,
抗,集体将获得左右策略,但是这需要壮士断腕的勇气,部分人
可能因此受伤。这里是实力与勇气的较量,而且实力暂居上风。
酒吧博弈:如果人人理性,那么每一天到达酒吧的人数将是
差不多正好的,但是人非圣贤,往往是有限理性的。第一次到酒
吧的人多,那么大多人人认为酒吧人太多,太挤。第二次决定的
时候,参考前次而不去酒吧。少数去的人发现酒吧的人第二天很
少,感觉很爽,第三次将继续回来,并重新带回许多人……循环
就此开始。酒吧博弈一方面显示,现实的博弈参与者,是极其有
限理性的,其理性只前延后伸一小段。历史数据只对计算机有用,
对人,则不一定。另一个方面,酒吧博弈指出,胜利者永远只是
少数。尽管酒吧存在调谐的可能,譬如发短信时时提醒,但成本
击破之中任何一个,王者仍将归来。这就是先发优势。假设这是
一场类似CS的竞技,优秀的枪手击倒二号枪手,立刻获得奖励:
盾牌。那么三号枪手将陷入绝境。不过,不管怎样,这个博弈模
型,到底给了弱势者一份希望。机会永远存在。
猎鹿博弈:两个猎人合作猎鹿获得的收益将远大于分别猎兔
的收益,战略联盟将开始。这或许是件好事,不过有取决于最后
猎获的鹿——这一公共资源的分配,如果分配得当,整体的效率
将增加。如果一方主导,另一方受损,那么帕累托改善将无法进
行为开始变得“仪式化”,没有人真正流血。这只不过是两个巨
头玩弄的游戏,目的是警告后来者,想进来,那么也得陪我们一
起玩,可是你玩的起么?这正是百事的广告,即使暗含挑衅也最
多只到“敢为中国红”这样的地步的原因。
协和谬误:欧洲政府在大量投资协和飞机后,终于不能自拔。
即使前景黯淡,也撑着面子投下去,非要走投无路才放弃。而这
时投入的成本已经全打水漂了。如果,发现不能继续的时候,就
果敢放手,损失会小得多。可是他们会、能这么做么?壮士断腕,
是何等的壮烈,却也是何等的艰难!沉没成本很可能会延续人们
无畏的坚持。已经沉没的本该放弃,可惜大部分有赌徒式的心理,
相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的
支点之前,已经窒息了。协和谬误,倒是给了人们半途而废的理
由,会不会有人担心它的滥觞会左右一些本该坚持的目标?的确
有这个可能,但是应该相信人们足够理智,完全可以比较沉没成
本、机会成本与未来收益的关系。看清了的,必定会坦然地走出
协和谬误。
蜈蚣博弈:“蜈蚣博弈悖论”(简称“蜈蚣悖论”)是在博
弈论及博弈逻辑的研究中发现的悖论,是一种合理行为选择的悖
论。“蜈蚣博弈”(centipede game)是由罗森塞尔(Ronthal)
在1981年提出的一个动态博弈问题。由于这个博弈的扩展形很
和“不合作”两种。他们的博弈展开式如下:
A — B — A —…… A — B — A — B — (10,10)
| * * * | * * * | * * * * * * | * * *| * * * | * * * |
(1,1) * (0,3) * (2,2) * * * (8,8) * (7,10) * (9,9) * (8,11)
在图中,博弈从左到右进行,横向连杆代表合作策略,向下
的连杆代表不合作策略。每个人下面对应的括号代表相应的人采
取不合作策略,博弈结束后,各自的收益,括号内左边的数字代
表A的收益,右边代表B的收益。如果一开始A就选择了不合作,
则两人各得1的收益,而A如果选择合作,则轮到B选择,B如
果选择不合作,则A收益为0,B的收益为3,如果B选择合作,
则博弈继续进行下去。
可以看到每次合作后总收益在不断增加,合作每继续一次总
收益增加1,如第一个括号中总收益为1+1=2,第二个括号为
0+3=3,第二个括号则为2+2=4。这样一直下去,直到最后
两人都得到10的收益,总体效益最大。遗憾的是这个圆满结局
很难达到!
大家注意,在上图中最后一步由B选择时,B选择合作的收
益为10,选择不合作的收益为11。根据理性人假设,B将选择
不合作,而这时A的收益仅为8。A考虑到B在最后一步将选择
不合作,因此他在前一步将选择不合作,因为这样他的收益为9,
比8高。B也考虑到了这一点,所以他也要抢先A一步采取不合
17
作策略……如此推论下去,最后的结论是:在第一步A将选择不
合作,此时各自的收益为1!这个结论是令人悲伤的。
不难看出,在该博弈的推理过程中,运用的是逆推法。从逻
辑推理来看,逆推法是严密的,但结论是不合理的。因为一开始
就停止的策略A、B均只能获取1,而采取合作性策略有可能均
获取10,当然A一开始采取合作性策略有可能获得0,但1或者
0与10相比实在是很小。直觉告诉我们采取“合作”策略是好的。
而从逻辑的角度看,A一开始应选择“不合作”的策略。人们在
博弈中的真实行动“偏离”了运用逆推法关于博弈的理论预测,
造成二者间的矛盾和不一致,这就是蜈蚣博弈的悖论,一场颠前
倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是
一个睿智的策略,因果相报,把握好因缘,自有好结果。它的另
一个好处,就是使得未来的计划明晰化,是你不再徘徊。只可惜,
很多时候,碌碌无为的我们并没有看透迷局的眼睛。我们黑色的
眼睛只习惯于黑夜。蜈蚣博弈也有一个致命的悖论,仍旧是个人
利益和集体利益的冲突,因为最后一次的背叛收益始终优于合作。
可悲的是,这一次背叛将由于人性的理智,穿越时光隧道,回到
原始的地点:人们将从开始就拒绝合作。还是感谢我们这个不完
美的世界吧,事实上人们很少这样做。当然合作到最后的也很少,
这意味着,倒推法只在中间阶段突然发生了作用,只不过谁也不
能预测,中间一步在哪里。在那里,我们只有冀望信任、道德、
良知等等。
18

本文发布于:2023-11-10 09:01:03,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/169957806386764.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:博弈论.doc
本文 PDF 下载地址:博弈论.pdf
| 留言与评论(共有 0 条评论) |