博弈论

更新时间:2023-11-10 09:01:03 阅读: 评论:0

学习的名言-剃头师傅打一成语

博弈论
2023年11月10日发(作者:提升自己的能力)

博弈论

博弈论(Game Theory,亦名“对策论”、“赛局理论”,

是一种处理竞争与合作问题的数学决策方法;研究竞争中参加者为争

取最大利益应当如何做出决策的数学方法;根据信息分析及能力判

断,研究多决策主体之间行为相互作用及其相互平衡,以使收益或效

用最大化的一种对策理论;研究决策主体的行为发生直接相互作用

时候的决策以及这种决策的均衡问题。

博弈论是二人在平等的对局中各自利用对方的策略变换自己

的对抗策略,达到取胜的目的。博弈论思想古已有之,我国古代

的《孙子兵法》就不仅是一部军事著作,而且算是最早的一部博

弈论著作。博弈论最初主要研究象棋、桥牌、赌博中的胜负问题,

人们对博弈局势的把握只停留在经验上,没有向理论化发展。

弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优

化策略。近代对于博弈论的研究,开始于策墨洛(),

Zermelo

波雷尔()及冯·诺伊曼()。

Borelvon Neumann

1928年,冯·诺依曼证明了博弈论的基本原理,从而宣告了

博弈论的正式诞生。1944年,冯·诺依曼和摩根斯坦共著的划时

代巨著《博弈论与经济行为》将二人博弈推广到n人博弈结构并

将博弈论系统的应用于经济领域,从而奠定了这一学科的基础和

理论体系。19501951年,约翰·福布斯·纳什(

John Forbes

Nash Jr

利用不动点定理证明了均衡点的存在,为博弈论的一般

1

化奠定了坚实的基础。纳什的开创性论文《n人博弈的均衡点》

1950),《非合作博弈》(1951)等等,给出了纳什均衡的

概念和均衡存在定理。此外,塞尔顿、哈桑尼的研究也对博弈论

发展起到推动作用。今天博弈论已发展成一门较完善的学科。

博弈的分类根据不同的基准也有所不同。一般认为,博弈主

要可以分为合作博弈和非合作博弈。它们的区别在于相互发生作

用的当事人之间有没有一个具有约束力的协议,如果有,就是合

作博弈,如果没有,就是非合作博弈。从行为的时间序列性,博

弈论进一步分为两类:静态博弈是指在博弈中,参与人同时选择

或虽非同时选择但后行动者并不知道先行动者采取了什么具体行

动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行

动者能够观察到先行动者所选择的行动。通俗的理解:"囚徒困境

"就是同时决策的,属于静态博弈;而棋牌类游戏等决策或行动有

先后次序的,属于动态博弈 按照参与人对其他参与人的了解程

度分为完全信息博弈和不完全信息博弈。完全博弈是指在博弈过

程中,每一位参与人对其他参与人的特征、策略空间及收益函数

有准确的信息。如果参与人对其他参与人的特征、策略空间及收

益函数信息了解的不够准确、或者不是对所有参与人的特征、策

略空间及收益函数都有准确的准确信息,在这种情况下进行的博

弈就是不完全信息博弈。目前经济学家们现在所谈的博弈论一般

是指非合作博弈,由于合作博弈论比非合作博弈论复杂,在理论

息静态博弈,完全信息动态博弈,不完全信息静态博弈,不完全

信息动态博弈。

博弈要素: (1)决策人:在博弈中率先作出决策的一方,这一

方往往依据自身的感受、经验和表面状态优先采取一种有方向性

的行动。(2) 对抗者:在博弈二人对局中行动滞后的那个人,与

决策人要作出基本反面的决定,并且他的动作是滞后的、默认的、

被动的,但最终占优。他的策略可能依赖于决策人劣势的策略选

择,占去空间特性,因此对抗是唯一占优的方式,实为领导人的

阶段性终结行为。(3)局中人(players):在一场竞赛或博弈中,

每一个有决策权的参与者成为一个局中人。只有两个局中人的博

弈现象称为“两人博弈”,而多于两个局中人的博弈称为 “多人

博弈”。(4)策略(strategies):一局博弈中,每个局中人都有选

择实际可行的完整的行动方案,即方案不是某阶段的行动方案,

而是指导整个行动的一个方案,一个局中人的一个可行的自始至

终全局筹划的一个行动方案,称为这个局中人的一个策略。如果

在一个博弈中局中人都总共有有限个策略,则称为“有限博弈”,

否则称为“无限博弈”。(5)得失(payoffs):一局博弈结局时的结

果称为得失。每个局中人在一局博弈结束时的得失,不仅与该局

中人自身所选择的策略有关,而且与全局中人所取定的一组策略

有关。所以,一局博弈结束时每个局中人的“得失”是全体局中

人所取定的一组策略的函数,通常称为支付(payoff)函数。(6)

次序(orders):各博弈方的决策有先后之分,且一个博弈方要

3

作不止一次的决策选择,就出现了次序问题;其他要素相同次序

不同,博弈就不同。(7)博弈涉及到均衡:均衡是平衡的意思,在

经济学中,均衡意即相关量处于稳定值。在供求关系中,某一商

品市场如果在某一价格下,想以此价格买此商品的人均能买到,

而想卖的人均能卖出,此时我们就说,该商品的供求达到了均衡。

所谓纳什均衡,它是一稳定的博弈结果。

纳什均衡(Nash Equilibrium)1950年和1951年纳什的

两篇关于非合作博弈论的重要论文,彻底改变了人们对竞争和市

场的看法。他证明了非合作博弈及其均衡解,并证明了均衡解的

存在性,即著名的纳什均衡。从而揭示了博弈均衡与经济均衡的

内在联系。纳什的研究奠定了现代非合作博弈论的基石,后来的

博弈论研究基本上都沿着这条主线展开的。纳什均衡的提出和不

断完善为博弈论广泛应用于经济学、管理学、社会学、政治学、

军事科学等领域奠定了坚实的理论基础。纳什均衡的主要内容是:

在一策略组合中,所有的参与者面临这样一种情况,当其他人不

改变策略时,他此时的策略是最好的。也就是说,此时如果他改

变策略他的支付将会降低。在纳什均衡点上,每一个理性的参与

者都不会有单独改变策略的冲动。纳什均衡点存在性证明的前提

是“博弈均衡偶”概念的提出。所谓“均衡偶”是在二人零和博

弈中,当局中人A采取其最优策略a*,局中人B也采取其最优策

b*,如果局中人B仍采取b*,而局中人A却采取另一种策略a

那么局中人A的支付不会超过他采取原来的策略a*的支付。这一

4

结果对局中人B亦是如此。这样,“均衡偶”的明确定义为:一

对策略a*(属于策略集A)和策略b*(属于策略集B)称之为均衡

偶,对任一策略a(属于策略集A)和策略b(属于策略集B),总

有:偶对(a, b*)≤偶对(a*,b*)≥偶对(a*b)。对于非零和博

弈也有如下定义:一对策略a*(属于策略集A)和策略b*(属于

策略集B)称为非零和博弈的均衡偶,对任一策略a(属于策略集

A)和策略 b(属于策略集B),总有对局中人A的偶对(a, b*

≤偶对(a*,b*);对局中人B的偶对(a*b)≤偶对(a*,b*)。有了上

述定义,就立即得到纳什定理:任何具有有限纯策略的二人博弈

至少有一个均衡偶。这一均衡偶就称为纳什均衡点。 纳什定理

的严格证明要用到不动点理论,不动点理论是经济均衡研究的主

要工具。通俗地说,寻找均衡点的存在性等价于找到博弈的不动

点。纳什均衡点概念提供了一种非常重要的分析手段,使博弈论

研究可以在一个博弈结构里寻找比较有意义的结果。但纳什均衡

点定义只局限于任何局中人不想单方面变换策略,而忽视了其他

局中人改变策略的可能性,因此,在很多情况下,纳什均衡点的

结论缺乏说服力,研究者们形象地称之为“天真可爱的纳什均衡

点”。

智猪博弈:猪圈里有两头猪,一头大猪,一头小猪。猪圈的

一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投

食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就

有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会

5

在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,

则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半

残羹。那么,两只猪各会采取什么策略?答案是:小猪将选择“搭

便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残

羹不知疲倦地奔忙于踏板和食槽之间。原因何在?因为,小猪踩

踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论

大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知

小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所

以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的

游戏规则所导致的。规则的核心指标是:每次落下的食物数量和

踏板与投食口之间的距离。

如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着

大猪跑”的景象吗?试试看。

者来说,这个规则的成本相当高(每次提供双份的食物);而且

因为竞争不强烈,想让猪们去多踩踏板的效果并不好。

改变方案三:减量加移位方案。投食仅原来的一半分量,但

同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢

着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费

完。对于游戏设计者,这是一个最好的方案。成本不高收获最大。

原版的“智猪博弈”故事给了竞争中的弱者(小猪)以等待

为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,

小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有

效配置,规则的设计者是不愿看见有人搭便车的,政府如此,公

司的老板也是如此。而能否完全杜绝“搭便车”现象,就要看游

戏规则的核心指标设置是否合适了。比如,公司的激励制度设计,

奖励力度太大,又是持股,又是期权,公司职员个个都成了百万

富翁,成本高不说,员工的积极性并不一定很高。这相当于“智

猪博弈”增量方案一所描述的情形。但是如果奖励力度不大,而

具有赢利能力新产品、继而大举仿制牟取暴利的游资;公司里不

创造效益但分享成果的人,等等。因此,对于制订各种经济管理

的游戏规则的人,必须深谙“智猪博弈”指标改变的个中道理。

博弈论的研究方法和其他许多利用数学工具研究社会经济现

象的学科一样,都是从复杂的现象中抽象出基本的元素,对这些

元素构成的数学模型进行分析,而后逐步引入对其形势产影响的

其他因素,从而分析其结果。基于不同抽象水平,形成三种博弈

表述方式,标准型、扩展型和特征函数型利用这三种表述形式,

可以研究形形色色的问题。因此,它被称为“社会科学的数学”从

理论上讲,博弈论是研究理性的行动者相互作用的形式理论,而

实际上正深入到经济学、政治学、社会学等等,被各门社会科学

所应用。博弈论是指某个个人或是组织,面对一定的环境条件,

在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或

策略进行选择并加以实施,并从各自取得相应结果或收益的过程,

在经济学上博弈论是个非常重要的理论概念。可以这样说,要想赢

得生意,不可不学博弈论;要想赢得生活,同样不可不学博弈论。

囚徒困境:在博弈论中,含有占优战略均衡的一个著名例子

是由塔克给出的“囚徒困境”()博弈模

prisoners dilemma

型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故

事。假设有两个小偷AB联合犯事、私入民宅被警察抓住。警

方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌

疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,

8

交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;

如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则

以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者

有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不

足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱

1年。

下表给出了这个博弈的支付矩阵

AB 坦白 抵赖

坦白 -8-8 0-10

抵赖 -100 -1-1

我们来看看这个博弈可预测的均衡是什么。对A来说,尽管

他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”

总是最优的。显然,根据对称性,B也会选择“坦白”,结果两

人都被判刑8年,倘若他们都选择“抵赖”,每人只被判刑1年。

在表中的四种行动选择组合中,“抵赖、抵赖”是合作博弈最优

选择,因为偏离这个行动选择组合的任何其他行动选择组合都至

少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑

人的占优战略,而“坦白,坦白”是一个占优战略均衡。按照亚

当·斯密的理论,每一个人都是从利己的目的出发,他们选择坦白

交代是最佳策略。因为坦白交代可以期望得到最好的结果——不

被判刑,但前提是同伙抵赖,显然要比自己抵赖要坐10年牢好。

9

这种策略是损人利己的策略。不仅如此,坦白还有更多的好处。

如果对方坦白了而自己抵赖了,那自己就得坐10年牢。太不划

算了!因此,在这种情况下还是应该选择坦白交代,即使两人同

时坦白,至多也只判8年,总比被判10年好吧。所以,两人合

理的选择是坦白,原本对双方都有利的策略(抵赖)和结局(免

刑)就不会出现。这样两人都选择坦白的策略以及因此被判8

的结局被称为“纳什均衡”,也叫非合作均衡。因为,每一方在

选择策略时都没有“共谋”(串供),他们只是选择对自己最有

利的策略,而不考虑社会福利或任何其他对手的利益。也就是说,

这种策略组合由所有局中人(也称当事人、参与者)的最佳策略

组合构成。没有人会主动改变自己的策略以便使自己获得更大利

益。

“囚徒的两难选择”有着广泛而深刻的意义。个人理性与集

体理性的冲突,各人追求利己行为而导致的最终结局是一个“纳

什均衡”,也是对所有人都不利的结局。他们两人都是在坦白与

抵赖策略上首先想到自己,这样他们必然要服长的刑期。只有当

他们都首先替对方着想时,或者相互合谋(串供)时,才可以得到

最短时间的监禁的结果。“纳什均衡”首先对亚当·斯密的“看不

见的手”的原理提出挑战。按照斯密的理论,在市场经济中,每

一个人都从利己的目的出发,而最终全社会达到利他的效果。不

妨让我们重温一下这位经济学圣人在《国富论》中的名言:“通

效地促进社会利益。”从“纳什均衡”我们引出了“看不见的手”

的原理的一个悖论:从利己目的出发,结果损人不利己,既不利

己也不利他。两个囚徒的命运就是如此。从这个意义上说,“纳

什均衡”提出的悖论实际上动摇了西方经济学的基石。因此,从

“纳什均衡”中我们还可以悟出一条真理:合作是有利的“利己

策略”。但它必须符合以下黄金律:按照你愿意别人对你的方式

来对别人,但只有他们也按同样方式行事才行。也就是中国人说

的“己所不欲勿施于人”。但前提是人所不欲勿施于我。其次,

“纳什均衡”是一种非合作博弈均衡,在现实中非合作的情况要

比合作情况普遍。所以“纳什均衡”是对冯·诺依曼和摩根斯特恩

的合作博弈理论的重大发展,甚至可以说是一场革命。

价格战博弈:现在我们经常会遇到各种各样的价格大战,这

成垄断价格,并尽力获取垄断利润。如果垄断可以形成,则博弈

双方的共同利润最大。这种情况就是垄断经营所做的,通常会抬

高价格。另一个极端的情况是厂商用正常的价格,双方都可以获

得利润。从这一点,我们又引出一条基本准则:“把你自己的战

略建立在假定对手会按其最佳利益行动的基础上”。事实上,完

全竞争的均衡就是“纳什均衡”或“非合作博弈均衡”。在这种

状态下,每一个厂商或消费者都是按照所有的别人已定的价格来

进行决策。在这种均衡中,每一企业要使利润最大化,消费者要

使效用最大化,结果导致了零利润,也就是说价格等于边际成本。

在完全竞争的情况下,非合作行为导致了社会所期望的经济效率

状态。如果厂商采取合作行动并决定转向垄断价格,那么社会的

经济效率就会遭到破坏。这就是为什么WTO和各国政府要加强

反垄断的意义所在。

污染博弈:假如市场经济中存在着污染,但政府并没有管制

的环境,企业为了追求利润的最大化,宁愿以牺牲环境为代价,

也绝不会主动增加环保设备投资。按照看不见的手的原理,所有

企业都会从利己的目的出发,采取不顾环境的策略,从而进入“纳

的情况就是如此。只有在政府加强污染管制时,企业才会采取低

污染的策略组合。企业在这种情况下,获得与高污染同样的利润,

但环境将更好。

以牙还牙:重复的博弈理论上导致了合作的产生,但是谁也

不能保证合作的继续,因为之前已经说过,合作的代价是建立在

损害个人利益基础之上的。如果个人放弃未来收益或当前背叛收

益大于未来收益,背叛的风险仍然存在。那么在重复博弈中怎样

的策略才是最优。若干睿智而复杂在经过计算机中PK之后,极

其原始的“以牙换牙”策略脱颖而出,固然这个策略简单至极,

抗,集体将获得左右策略,但是这需要壮士断腕的勇气,部分人

可能因此受伤。这里是实力与勇气的较量,而且实力暂居上风。

酒吧博弈:如果人人理性,那么每一天到达酒吧的人数将是

差不多正好的,但是人非圣贤,往往是有限理性的。第一次到酒

吧的人多,那么大多人人认为酒吧人太多,太挤。第二次决定的

时候,参考前次而不去酒吧。少数去的人发现酒吧的人第二天很

少,感觉很爽,第三次将继续回来,并重新带回许多人……循环

就此开始。酒吧博弈一方面显示,现实的博弈参与者,是极其有

限理性的,其理性只前延后伸一小段。历史数据只对计算机有用,

对人,则不一定。另一个方面,酒吧博弈指出,胜利者永远只是

少数。尽管酒吧存在调谐的可能,譬如发短信时时提醒,但成本

击破之中任何一个,王者仍将归来。这就是先发优势。假设这是

一场类似CS的竞技,优秀的枪手击倒二号枪手,立刻获得奖励:

盾牌。那么三号枪手将陷入绝境。不过,不管怎样,这个博弈模

型,到底给了弱势者一份希望。机会永远存在。

猎鹿博弈:两个猎人合作猎鹿获得的收益将远大于分别猎兔

的收益,战略联盟将开始。这或许是件好事,不过有取决于最后

猎获的鹿——这一公共资源的分配,如果分配得当,整体的效率

将增加。如果一方主导,另一方受损,那么帕累托改善将无法进

行为开始变得“仪式化”,没有人真正流血。这只不过是两个巨

头玩弄的游戏,目的是警告后来者,想进来,那么也得陪我们一

起玩,可是你玩的起么?这正是百事的广告,即使暗含挑衅也最

多只到“敢为中国红”这样的地步的原因。

协和谬误:欧洲政府在大量投资协和飞机后,终于不能自拔。

即使前景黯淡,也撑着面子投下去,非要走投无路才放弃。而这

时投入的成本已经全打水漂了。如果,发现不能继续的时候,就

果敢放手,损失会小得多。可是他们会、能这么做么?壮士断腕,

是何等的壮烈,却也是何等的艰难!沉没成本很可能会延续人们

无畏的坚持。已经沉没的本该放弃,可惜大部分有赌徒式的心理,

相信阿基米德的杠杆终将启动。可惜他们在爬到足够撬动杠杆的

支点之前,已经窒息了。协和谬误,倒是给了人们半途而废的理

由,会不会有人担心它的滥觞会左右一些本该坚持的目标?的确

有这个可能,但是应该相信人们足够理智,完全可以比较沉没成

本、机会成本与未来收益的关系。看清了的,必定会坦然地走出

协和谬误。

蜈蚣博弈:“蜈蚣博弈悖论”(简称“蜈蚣悖论”)是在博

弈论及博弈逻辑的研究中发现的悖论,是一种合理行为选择的悖

论。“蜈蚣博弈”(centipede game)是由罗森塞尔(Ronthal)

1981年提出的一个动态博弈问题。由于这个博弈的扩展形很

和“不合作”两种。他们的博弈展开式如下:

A B A —…… A B A B (10,10)

| * * * | * * * | * * * * * * | * * *| * * * | * * * |

(1,1) * (0,3) * (2,2) * * * (8,8) * (7,10) * (9,9) * (8,11)

在图中,博弈从左到右进行,横向连杆代表合作策略,向下

的连杆代表不合作策略。每个人下面对应的括号代表相应的人采

取不合作策略,博弈结束后,各自的收益,括号内左边的数字代

A的收益,右边代表B的收益。如果一开始A就选择了不合作,

则两人各得1的收益,而A如果选择合作,则轮到B选择,B

果选择不合作,则A收益为0B的收益为3,如果B选择合作,

则博弈继续进行下去。

可以看到每次合作后总收益在不断增加,合作每继续一次总

收益增加1,如第一个括号中总收益为112,第二个括号为

033,第二个括号则为224。这样一直下去,直到最后

两人都得到10的收益,总体效益最大。遗憾的是这个圆满结局

很难达到!

大家注意,在上图中最后一步由B选择时,B选择合作的收

益为10,选择不合作的收益为11。根据理性人假设,B将选择

不合作,而这时A的收益仅为8A考虑到B在最后一步将选择

不合作,因此他在前一步将选择不合作,因为这样他的收益为9

8高。B也考虑到了这一点,所以他也要抢先A一步采取不合

17

作策略……如此推论下去,最后的结论是:在第一步A将选择不

合作,此时各自的收益为1!这个结论是令人悲伤的。

不难看出,在该博弈的推理过程中,运用的是逆推法。从逻

辑推理来看,逆推法是严密的,但结论是不合理的。因为一开始

就停止的策略AB均只能获取1,而采取合作性策略有可能均

获取10当然A一开始采取合作性策略有可能获得01或者

010相比实在是很小。直觉告诉我们采取“合作”策略是好的。

而从逻辑的角度看,A一开始应选择“不合作”的策略。人们在

博弈中的真实行动“偏离”了运用逆推法关于博弈的理论预测,

造成二者间的矛盾和不一致,这就是蜈蚣博弈的悖论,一场颠前

倒后的博弈。蜈蚣博弈的机理是以最终的结果倒退至开始。这是

一个睿智的策略,因果相报,把握好因缘,自有好结果。它的另

一个好处,就是使得未来的计划明晰化,是你不再徘徊。只可惜,

很多时候,碌碌无为的我们并没有看透迷局的眼睛。我们黑色的

眼睛只习惯于黑夜。蜈蚣博弈也有一个致命的悖论,仍旧是个人

利益和集体利益的冲突,因为最后一次的背叛收益始终优于合作。

可悲的是,这一次背叛将由于人性的理智,穿越时光隧道,回到

原始的地点:人们将从开始就拒绝合作。还是感谢我们这个不完

美的世界吧,事实上人们很少这样做。当然合作到最后的也很少,

这意味着,倒推法只在中间阶段突然发生了作用,只不过谁也不

能预测,中间一步在哪里。在那里,我们只有冀望信任、道德、

良知等等。

18

宣传教育-我的美丽天使

博弈论

本文发布于:2023-11-10 09:01:03,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/169957806386764.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:博弈论.doc

本文 PDF 下载地址:博弈论.pdf

标签:零和竞争
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|