搜档网
当前位置:搜档网 › 博弈论的应用-浅析博弈论经典模型

博弈论的应用-浅析博弈论经典模型

博弈论的应用-浅析博弈论经典模型
博弈论的应用-浅析博弈论经典模型

浅析博弈论经典模型

--囚徒困境模型及其启示

一、博弈论概述

博弈论又名“对策论”、“赛局理论”,属应用数学的一个分支,表示在多决策主体之间行为具有相互作用时,各主体根据所掌握信息及对自身能力的认知,做出有利于自己的决策的一种行为理论。简单说来就是一些个人或其他组织,面对一定的环境条件,在一定的规则下,同时或先后,一次或多次,从各自允许选择的行为或策略中进行选择并加以实施,各自取得相应结果的过程。由于冲突、合作、竞争等行为是现实世界中常见的现象,因此很多领域都能应用博弈论,例如军事领域、经济领域、政治外交,解决诸如战术攻防、国际纠纷、定价定产、兼并收购、投标拍卖甚至动物进化等问题。

二、博弈论的基本原理

从上述定义中可以看出,一个完整的博弈一般由以下几个要素组成:博弈的参加者,各博弈方各自选择的全部策略或行为的集合、博弈方的得益、结果、均衡等。

1、参与者指的是博弈中选择行动以最大化自己效用的决策主体(可以是个人,也可以是团体)。

2、行动是指参与人在博弈进程中轮到自己选择时所作的某个具体决策。

3、策略是指参与人选择行动的规则,即在博弈进程中,什么情况下选择什么行动的预先安排。

4、信息指的是参与人在博弈中所知道的关于自己以及其他参与人的行动、策略及其得益函数等知识。

5、得益是参与人在博弈结束后从博弈中获得的效用,一般是所有参与人的策略或行动的函数,这是每个参与人最关心的事情。

6、均衡是所有参与人的最优策略或行动的组合;均衡结果是指博弈结束后博弈分析者感兴趣的一些要素的集合,如在各参与人的均衡策略作用下,各参与人最终的行动或效用集合。

上述要素中,参与人、行动和结果统称为博弈规则,博弈分析的目的是使用博弈规则来决定均衡。

三、博弈的分类

博弈的分类根据不同的标准也有不同的分类。

根据参与人的多少,博弈可以分为二人博弈和多人博弈。

根据参与人是否合作,博弈可以分为合作博弈和非合作博弈。合作博弈和非合作博弈的区别在于相互发生作用的当事人之间有没有一个具有约束力的协议,如果有,就是合作博弈,如果没有,就是非合作博弈。

根据各方得益的不同情况,博弈可以分为零和博弈和变和博弈。零和博弈中各方利益之间是完全对立的。变和博弈有可能存在合作关系,争取双赢的局面。

根据行为的时间序列性,博弈可以分为静态博弈、动态博弈。静态博弈是指在博弈中,参与人同时选择或虽非同时选择但后行动者并不知道先行动者采取了什么具体行动;动态博弈是指在博弈中,参与人的行动有先后顺序,且后行动者能够观察到先行动者所选择的行动。

根据参与人对其他参与人的了解程度,博弈可以分为完全信息博弈和不完全信息博弈。完全信息博弈是指在博弈过程中,每一位参与人对其他参与人的特征、策略空间及收益函数有准确的信息。不完全信息博弈是指如果参与人对其他参与人的特征、策略空间及收益函数信息了解

的不够准确、或者不是对所有参与人的特征、策略空间及收益函数都有准确的信息,在这种情况下进行的博弈就是不完全信息博弈。

四、纳什均衡

假设有n个局中人参与博弈,给定其他人策略的条件下,每个局中人选择自己的最优策略(个人最优策略可能依赖于也可能不依赖于他人的战略),从而使自己利益最大化。所有局中人策略构成一个策略组合。纳什均衡指的是这样一种战略组合,这种策略组合由所有参与人最优策略组成。即在给定别人策略的情况下,没有人有足够理由打破这种均衡。纳什均衡,从实质上说,是一种非合作博弈状态。

纳什均衡达成时,并不意味着博弈双方都处于不动的状态,在顺序博弈中这个均衡是在博弈者连续的动作与反应中达成的。纳什均衡也不意味着博弈双方达到了一个整体的最优状态,以下的囚徒困境就是一个例子。

五、博弈论的经典模型—“囚徒困境”

这个博弈问题是1950年图克提出的,它虽然非常简单,但却很好地反映了非合作博弈的根本特征,而且这个博弈模型正是解释众多经济现象,研究经济效率问题的非常有效的基本模型和范式。该博弈模型提出后曾引发了大量的相关研究,对博弈论的发展起了不小的推动作用。故事如下:

警察抓住了两个罪犯,但是警察局却缺乏足够的证据指证他们所犯的罪行。如果罪犯中至少有一人供认犯罪,就能确认罪名成立。为了得到所需的口供,警察将这两名罪犯分别关押,防止他们串供或结成攻守同盟,并分别跟他们讲清了他们的处境和面临的选择:如果他们两人都拒不认罪,则他们会被以较轻的妨碍公务罪各判一年徒刑;如果两人中有一人坦白认罪,则坦白者立即释放而另一人将重判10年徒刑;如果两

人都坦白认罪,则他们将被各判8年监禁。问:两个罪犯会如何选择(即是坦白还是抵赖)?

下面可将整个博弈过程的结果用一矩阵形式表示出来。这种矩阵称为博弈的“得益矩阵(支付矩阵)”。

表3.1A与B的得益矩阵

囚徒B坦白囚徒B不坦白

囚徒A坦白(-8,-8)(0,-10)

囚徒A不坦白(-10,0)(-1,-1)可见:(1)对于囚徒A来说,囚徒B有“坦白”和“不坦白”两种可能的选择。如果B选择“坦白”,则对A来说,“不坦白”得益为-10,“坦白”得益为-8。如果B选择“不坦白”,则A“不坦白”得益为-1,“坦白”得益为0。若A只考虑自身的利益,则“坦白”为他的最优选择。

(2)同样的,对于囚徒B来说,囚徒A有“坦白”和“不坦白”两种可能的选择。如果A选择“坦白”,则对B来说,“不坦白”得益为-10,“坦白”得益为-8。如果A选择“不坦白”,则B“不坦白”得益为-1,“坦白”得益为0。若B只考虑自身的利益,则“坦白”为他的唯一选择。

由于法对罪犯分别审讯,因而这个问题可以归结为非合作博模型

。其中,局中人集合

,1代表囚徒A,2代表囚徒B。两个人具有相同的策略集合:

,其中C代表坦白,D代表抗拒的策略。对于策略组合

两个局中人的支付函数如下:

由支付函数可以看出,囚徒A的最佳策略是坦白,囚徒B的最佳策略也是坦白,故纳什均衡为(坦白,坦白)。

囚徒困境反映了一个很深的问题,这就是个人理性与集体理性的矛盾。即使两个囚徒在被警察抓住之前建立一个攻守同盟(死不坦白),这个攻守同盟也没有用,因为它不构成纳什均衡,没有个人有积极性遵守协定。

通过对囚徒困境问题的分析,从中可得到一个重要的结论:一种制度安排,要发生效力,必须是一种纳什均衡,否则,这种制度安排便不能成立。

五、囚徒困境的几点启示

(一)囚徒困境理论的启示之一:双方的最佳策略均是“坦白”,然而双方得到的结局却是最糟糕的,它说明个人理性与社会理性、个人选择与社会选择存在深刻的冲突;它说明许多具有广泛性的集体性的悲剧并不是像常人想象的那样是人们素质低、愚昧的结果,而是一种囚徒困境。

(二)囚徒困境理论启示之二:如何打造诚信社会。

1.为什么中国的商业诚信问题如此之多?流行的观点有两个,一是礼崩乐坏,二是法律惩治与政府监管力度太小。

2.博弈论对诚信与合作的解释:决定人与人之间是否合作的关键也许是双方的博弈是否重复。所谓重复博弈就是指双方多次玩相同的博

弈。

A.一次性博弈由于缺乏来自未来的奖惩机会,可能刺激博弈双方选择不合作。

B.重复博弈由于存在未来的奖惩机会,会刺激博弈双方选择合作,但是有两个前提条件:一是双方都看重未来的长期利益;二是每一次博弈结束后双方均认为存在下一次继续博弈的机会,即博弈是无限重复的。

C.在我国,改善商业伦理环境的重要途径之一就是鼓励与发展重复博弈,这更主要的是依赖博弈参与人自己的努力。

3.在重复博弈中一定要警惕“最后一次不合作现象”,几乎所有的商业欺诈都与“最后一次不合作”有关。

(三)囚徒困境的启示之三:如何利用囚徒困境为公司服务?

1.其实我们每个人都从囚徒困境中大获其利,因为没有企业间的竞争就没有消费者的今天,而许多竞争其实就是企业间的囚徒困境;也正是因为有了囚徒困境,才使得寡头之间的勾结难以成功。

2.让你的员工处于竞争中。相对业绩考核其实就是利用了囚徒困境来调动员工的工作积极性。

3.在利用囚徒困境为你服务时,一定要记住:囚徒困境必须和赏罚有关;尽可能在对手之间制造不信任、制造混乱。

综上所述,对生活中的一般问题都能运用博弈论的观点进行简单的分析,如日常生活中,小到下棋打牌,大到企业之间的竞争和合作,都可以归结为博弈问题。通过对博弈论的学习,必将帮助我们找到解决各种难题的优化方案,使我们在工作和生活中得到效益的最大值,解决各种问题。

(完整版)博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、 决策主体是理性的,最大化自己的收益。 2、 完全理性是共同知识 3、 每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、 传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P ,I),其中P 为市场价格,I 为消费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

关于定价的博弈论模型

CH13 关于定价的博弈论模型 分析寡头市场的最大困难在于策略问题。在此情形下,市场上仅有几家企业,每一家企业在做决策时,都必须在一定程度上考虑其它企业的行为。博弈论就是用以研究策略选择的一种主要的工具。 一、基本概念 在一些情况下,个人或企业必须作出策略性选择,并且最终的结果依赖于每一个行动者的选择,这种情况就可以看成是一个博弈。 1.博弈的三要素 任何一个博弈都必须具备三个要素: (1)博弈的参与者 参与人的具体身份无关紧要,在博弈中没有“好人”与“坏蛋”之分,我们只是简单地假设每个参与者在考虑到对手行为的前提下,做出最有利的策略性选择。 (2)策略 策略是博弈参与者的行动规则。 在非合作博弈中,参与者之间不能就策略选择达成一个有约束力的协议。 (3)支付(payoffs ) 支付是参与者的最终受益。支付包括了与博弈结果相关的所有方面,既包括显性的货币报酬,也包括隐性的参与者关于结果的心理感受。 2. 符号 两个参与者(A 和B )之间的博弈G 用下式表示 [,,(,),(,A B A B G S S U a b U a b 其中,A S 和B S 分别表示参与者A 和参与者B 的可选策略,(,)A U a b 和(,)B U a b 分别表示当参与者A 和B 分别选择策略a 和策略b 时,各自所得到的支付(,A B a S b S ∈∈)。 二、Nash 均衡 市场均衡:在均衡价格和产量下,买方和卖方都没有动力去改变自己的行为。

Nash 均衡:对于策略组合(**,a b ),如果给定其它参与者的策略,没有一个参与者会选择单方面偏离,那么这个策略组合就构成一个Nash 均衡。也就是说 ** * (,)(,)A A U a b U a b '≥ 对于所有A a S '∈ ** * (,)(,)B B U a b U a b '≥ 对于所有B b S '∈ 对纳什均衡的理解 设想所有参与者在博弈之前达成一个(没有约束力的)协议,规定每个参与人选择一个特定的战略。那么,给定其他参与人都遵守此协议,是否有人不愿意遵守此协议?如果没有参与人有积极性单方面背离此协议,我们说这个协议是可以自动实施的(self-enforcing ),这个协议就构成一个纳什均衡。否则,它就不是一个纳什均衡。 三、一个例子 两个厂商(A 和B )决定自己花多少钱用于做广告。每个厂商可以选择较高的预算(H )或较低的预算(L )。 1.博弈的扩展式表述 图13.1 2.博弈的策略式(规范式)表述 表13.1 3.占优策略和Nash 均衡 从表13.1可以看出,低预算(L )是厂商B 的占优策略,即不管厂商A 选择哪一种策略,L 都是厂商B 的最佳选择。由于该博弈的结构是公共知识,厂商A 也知道L 是厂商B 的占优策略,所以厂商A 将选择L 。因此,该博弈的均衡是(L ,L )。 请验证(L ,L )构成一个Nash 均衡,而其它三个策略组合都不是Nash 均衡。

从博弈论角度看古诺模型

从博弈论角度看古诺模 型 WTD standardization office【WTD 5AB- WTDK 08- WTD 2C】

博弈论的观点看古诺模型 罗思蕴 (华中师范大学数学与应用数学系,武汉430079) 摘要:运用博弈论的研究方法,对古诺模型的几种变式进行分析,给出模型解法的代数表达式,并对结果进行适当的对比分析,最后总结出不同模型对结论的改变情况。 关键词:古诺模型纳什均衡完全信息不完全信息静态博弈动态博弈 古诺模型(Cournot model)是博弈论中最具有代表性的模型之一,也是是纳什均衡最早的版本。它是法国经济学家古诺(Augustin Cournot)在1938年出版的《财富理论的数学原理研究》一书中最先提出的。而古诺的定义比纳什的定义早了一百多年,足以体现博弈论这样一个学科是深深扎根于经济学的土壤中的。从经济学的角度,它的研究价值在于古诺模型是介于两种极端状况完全竞争和垄断之间。 在古诺生活的时代,大多数市场都只有少数的厂商经营,所以这个模型在当时是极具现实意义的。随着时间的推移,古诺模型也演变出了各种不同的版本。如果从博弈论的角度分析,有四种情况极具代表性:完全信息静态博弈的古诺模型、不完全信息静态博弈的古诺模型、完全且完美信息动态博弈的古诺模型、无限次重复博弈的古诺模型。 1 经典古诺模型 古诺模型最初的形态是来自于经济学的。在经济学中,寡头的概念是指那种在某一产业只有少数几个卖者的市场组织形式。古诺模型对寡头具有如下的基本假设。一,

假定一个产业只有两个寡头,每个寡头生产同质产品,并追求利润最大化。二,两个寡头之间进行的是产量的竞争而不是价格竞争,且产品的价格依赖于两者生产的产品总量。三,寡头之间无勾结行为。四,每个生产者都把对方的产出水平视为定值。五,边际成本为常数。 在经典的古诺模型中,每个企业具有相同的不变单位成本: 需求函数为: 第i个企业的利润为: 最优化的一阶条件为: 反应函数为: 解得纳什均衡为: 每个公司的利润为: 古诺模型是在假定寡头具有完全信息的基础上导出的。在这一均衡中,每个寡头都可以准确猜测对手的产量,从而选择自己的最大产出。 最重要的是,古诺均衡解在寡头无勾结的假定下求出的。如果考虑寡头之间相互勾结而达到均衡的情况,那么经过计算可以得到实际产出水平与实际价格上等于完全垄断条件下达到的产量与价格。更广泛的,考虑无勾结寡头市场、垄断市场、自由市场,可以得到:无论是产量还是价格,无勾结寡头市场都是处于中间的位置。也就是说,如果寡头市场不存在勾结的行为,其效率高于完全垄断,低于完全竞争。 2 博弈分类下的两种古诺模型 不完全信息静态博弈的古诺模型 完全信息静态博弈的古诺模型即经济学中最经典的形式,它假设了厂商相互完全

(完整版)博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、决策主体是理性的,最大化自己的收益。 2、完全理性是共同知识 3、每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息)等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博 弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则 为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信 息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P,I),其中P为市场价格,I为消

费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 2、 参与人的行动顺序,即每个参与 人在何时行动; 3、 序列结构:每个参与人行动时面 临的决策问题,包括参与人行动时可供选择的行动方案、所了解的信息; 4、 参与人的支付函数。 比较: 1、战略式博弈从本质上来讲是一种静态模型。 2、扩展式博弈从本质上来讲是一种动态模型。 {1,2,...,} n Γ={1,2,...,}n Γ=11 (,...,,...,) n i i n i s s s s ==∏

博弈论经典模型全解析

博弈论经典模型全解析(入门级) 1. 囚徒困境这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不

会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈在博弈论(Game Theory)经济学中,“智猪博弈”是一个着名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时到槽边,收益比是

博弈论经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 嫌疑犯乙

案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 价格战 案例:假设市场中仅有A 、B 两家企业,每家企业可采取的定价策略都是10元或15元,我们可以得出得益矩阵如下: 分析:无论对企业A 还是企业B 来说,低价都是他们的占优战略。从表可见,企业A 的占优战略是10元,因为无论B 采取什么战略,企业A 都能获取比定价15元更多的利润。 如果企业B 定价10元,企业A 定价10元能够获利80万元,而定价15元只能获得30万元;如果企业B 定价15元,企业A 定价10元可获利170万元,而定价15元却只能获利120万元。同样地,企业B 的占优战略也是定价10元的策略。 企业B 男

博弈论的总结|博弈论总结

博弈论学习的个人总结刘艳丽 第一部分基本情况 视频来源耶鲁公开课《博弈论》1----5讲,人人影视 参考资料耶鲁校园网 《博弈论--战略分析入门》,美,罗杰A麦凯恩,原毅军译,机械工业出版社,2006,42元《策略博弈》,阿维纳什迪克西特,蒲勇健译,中国人民大学出版社,第二版,2009,65元班级工商,人力08级学生 课时8节 我的时间投入视频26个小时;书籍,25小时;上网时间,无法统计。 第二部分知识层面 一、The five lessons五个基本的结论 1、Don"t play a strictly dominated strategy

2、Rational choices can lead to bad outcomes 3、You can"t get what you want 4、Put yourself in other people"s shoes 5、Yale students are evil 二、Game 2: "pick a number."数字游戏 Without showing your neighbor what you"re doing, put in the box below a whole number between 1 and a 100 [whole number between 1 and 100--integer.] We will calculate the average number chosen in the class. The winner in this game is the person whose number is closest to two-thirds times the average in the class. 三、The Prisoners" Dilemmasome examples囚徒困境 A joint project Price competition

博弈论培训心得

博弈论培训心得 -------李佳航 经过两次对博弈论的培训本人感触很深,也看了许多关于博弈的案例也从案例从学习了很多关系学习生活为人方面的博弈。 学习后现在简单总结一下: 1、博弈论中有很多的模型,其实记住模型并不是最重要的东西,掌握将问题变成博弈格局图以及进行优势策略标注法,找到纳什均衡更加重要。世界上的事情千变万化,仅仅靠这几个模型是无法全部解释的,而且模型与模型之间,仅仅变换几个数字,则发生变化。 2、博弈论可以将社会问题变成一个数学模型来计算推理,因此我们运用此模型时,需要相对准确地核定博弈各方的支付大小,解决问题的过程中,可设法改变参数让博弈对自己更加有利。 3、基本博弈模型的作用在于解决问题时更加容易去套,而不需要计算即知道博弈的结果将是什么,因此对于分析问题是有益的。有了模型在,对于一些谈判,容易让人站在博弈论的高度去分析它,这往往让人对谈判更加具有控制力。 4、对于较为简单的事件,完全不需要学习博弈论即能找到问题的答案,我们现实生活中的都自然而然的达到了博弈的均衡结果。 本周培训主要是讲的卡尼曼的前景理论和损失规避。 前景理论: 1、“二鸟在林,不如一鸟在手”,在确定的收益和“赌一把”之间,多数人会选择确定的好处。所谓“见好就收,落袋为安。称之为“确定效应”。 2、在确定的损失和“赌一把”之间,做一个抉择,多数人会选择“赌一把”。称之为“反射效应”。 3、白捡的100元所带来的快乐,难以抵消丢失100元所带来的痛苦。称之为“损失规避”。 4、很多人都买过彩票,虽然赢钱可能微乎其微,你的钱99.99%的可能支持福利事业和体育事业了,可还是有人心存侥幸搏小概率事件。称之为“迷恋小概率事件”。 5、多数人对得失的判断往往根据参照点决定,举例来说,在“其他人一年挣6万元你年收入7万元”和“其他人年收入为9万元你一年收入8万”的选择题中,大部分人会选择前者。称之为“参照依赖”。 损失规避: 如何理解“损失规避”?用一句话打比方,就是“白捡的100元所带来的快乐,难以抵消丢失100元所带来的痛苦”。 前景理论最重要也是最有用的发现之一是:当我们做有关收益和有关损失的决策时表现出的不对称性。对此,就连传统经济学的坚定捍卫者保罗·萨缪尔森,也不得不承认:“增加100元收入所带来的效用,小于失去100元所带来的效用。” 这其实是前景理论的第3个原理,即“损失规避”(lossaversion):

博弈模型

有趣味的博弈论模型 按语: 本文已经发表在“百科知识”2009年6月下半月总第413期第14-15页;在今年2月下半月总第405期第11-13页上发表了“网络科学三大里程碑”;2005年11月上半月总第326期第21-22页发表了“网络科学的三大发现”。令我意外的是去年在网上偶然发现“共检索到 10 条读者推荐文章”(请看最后附录),这篇科普文章名列首位,我们还有一篇文章名列第七。如果读者有兴趣可以去看看,或等我有时间找出来。我觉得,把新兴科学应用通俗易懂的语言写出来,有利于科学知识普及。这也应该是一个科学工作者的责任。 在自然界和人类社会经济等领域中广泛存在合作与竞争,而能够反映这种既激烈竞争又需要合作的一门学科就是博弈论(Game Theory),也称对策论,它是模拟和分析理性的个体在利益冲突环境下相互作用的形式、决策及其均衡理论,研究个体之间行为的相互影响和相互作用规律,它可以描述现实生活中参与者面对有限资源的合作与竞争行为。令人惊奇的是,有三次诺贝尔获奖者是博弈论的杰出科学家,他们是1985年获得诺贝尔奖的公共选择学派的领导者布坎南,1994年经济学诺贝尔奖颁发给美国普林斯顿大学的纳什博士、塞尔屯、哈桑尼3位博弈论专家,1995年获奖的理性主义学派的领袖卢卡斯。博弈论在经济学、政治学、管理学、社会学、军事学、生物学等诸多学科领域具有广泛的实际背景和应用价值。进入20世纪末,随着复杂网络科学的一些新的发现,博弈论也成为网络时代人们的一种思维方式、竞争与合作的模式。 博弈论对人有一个最基本假定:人是理性的,人在具体策略选择的目的全是使自己的利益最大化。博弈论就是研究理性的人之间如何进行策略选择的,因此博弈论也称为对策论。博弈论就凭这么一条最简单的假定可以展开广泛的研究,并获得了丰富多彩的结果,利用博弈论可以解读人类的社会行动或集体行动,更易理解人类社会的复杂性和特殊性。为了刻画个体间利益的冲突对整个系统的影响,人们已经提出和研究了许多博弈模型,比较著名的有三个模型:囚徒困境、“雪堆”博弈和“少数者”博弈,下面笔者通过对这三个模型进行简单而通俗的介绍,让大家了解博弈论及其应用概况。 “囚徒困境”模型 囚徒困境作为一个经典的博弈模型受到广泛关注。这个博弈模型假设两个小偷合伙作案时被捕,分别关在不同的屋子里,如果双方都拒绝承认同伴的罪行,则由于证据不足两人都会被轻判(收益为);为此,警方设计了一个机制:如果一方出卖同伴,而另一方保持忠 诚,则背叛者将无罪释放(收益为T ) ;坚持忠诚的一方将被重判(收益为);如果双方都背叛了对方,则双方都会被判刑(收益为R S P ) 。这里假设上述收益参数满足下面的条件:。对每个参与者来说,如果对手坚持忠诚,则他也选择忠诚得到的收益T R P S >>>R 小于他选择背叛得到的收益T ;如果对手选择背叛,则他选择忠诚得到的收益仍小于他选择背叛得到的收益。 S P 可见,无论对手采取哪种策略,自己的最佳策略就是背叛,双方都选择背叛称为囚徒困境的唯一“纳什均衡”(纳什因其提出的“非合作完全信息博弈的纳什均衡”概念而荣获了1994年的诺贝尔获得经济学奖);同时选择背叛所取得的平均收益要低于两个人同时选择合作取得的平均收益。在这种情况下,理性参与者面临着两难的困境。 自然界中广泛存在的合作现象——从单细胞生物的协同工作到人类的无私奉献的行为

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

博弈论理论经典讲解

博弈论经典案例 冰晶淩(杂物区)2010-04-09 22:31:28 阅读258 评论0 字号:大中小订阅 引用 光光的博弈论经典案例 1994年诺贝尔经济学奖授给了三位博弈论专家:纳什,泽尔腾和海萨尼.而博弈论可以划分为合作博弈和非合作博弈.那三位博弈论专家的贡献主要是在非合作博弈方面,而且现在经济学家谈到博弈论,一般指的是非合作博弈,很少指合作博弈.合作博弈与非合作博弈之间的区别主要在于人们的行为相互作用时,当事人能否达成一个具有约束力的协议,如果有,就是合作博弈;反之,就是非合作博弈.非合作博弈强调的是个人理性,个人最优决策,其结果可能是有效率的,也可能是无效率的.而合作博弈强调的是团体理性.下面是我收集的张维迎教授的几个有关博弈论的经典 案例. <案例一:囚徒困境> 囚徒困境讲的是两个嫌疑犯作案后被警察抓住,分别关在不同的屋子里审讯.警察告诉他们:如果两人都坦白,各判刑8年;如果两个都抵赖,各判1年(或许因证据不足);如果其中一人坦白一人抵赖,坦白的放出去,不坦白的判刑10年(这有点'坦白从宽,抗拒从严'的味道).这里,每个囚徒都有两种战略:坦白或抵赖.表中每一格的两个数字代表对应战略组合下两个囚徒的支付(效用),其中第一个数字是第一个囚徒的支付,第二个数字为第二个囚徒的支付.战略形式又称标准形式,是博弈的两种表述形式之一,它特别方便于静态博弈分析. 在这个例子里,纳什均衡就是(坦白,坦白):给定B坦白的情况下,A的最优战略是坦白;同样,给定A坦白的情况下,B的最优战略也是坦白.事实上,这里,(坦白,坦白)不仅是纳什均衡,而且是一个占优战略均衡.就是说,不论对方如何选择,个人的最优选择是坦白.比如说,如果B不坦白,A坦白的话被放出来,不坦白的话判1年,所以坦白比不坦白好;如果B坦白,A坦白的话判8年,不坦白的话判10年,所以,坦白还是比不坦白好。 这样,坦白就是A占优战略;同样,坦白也是B的占优战略.结果是,每个人都选择坦白,各判刑8年. <案例二:智猪博弈> 这个例子讲的是,猪圈里有两头猪,一大一小.猪圈的一头有一个猪食槽,另一头安装一个按钮,控制着猪食的供应。按一下按钮会有10个单位的猪食进槽,但谁按按钮需要付2个单位的成本.若大猪先到,大猪吃到9个单位,小猪只能吃1个单位;若同时到,大猪吃7个单位,小猪吃3个单位;若小猪先到,大猪吃6个单位,小猪吃4个单位。表中第一格表示两猪同时按按钮,因而同时走到猪食槽,大猪吃7个,小猪吃3个,扣除2个单位的 成本,支付水平分别为5和1.其他情形可以类推. 在这个例子中,什么是纳什均衡?首先我们注意到,无论大猪选择"按"还是"等待",小猪的最优选择均是"等待".比如说给定大猪按,小猪也按时得到1个单位,等待则得到4个单位;给定大猪等待,小猪按得到-1单位,等待则得0单位,所以,"等待"是小猪的占优战略.给定小猪总是选择"等待",大猪的最优选择只能是"按".所以,纳什均衡就是:大猪按,小猪等待,各得4个单位.多劳者不多得! <案例三:性别战>

博弈论经典案例《智猪博弈》

在经济学中,在经济学中,智猪博弈”(PigS ' PayoffS(BoXed PigS) 是一个著名博弈论例子。 这个例子讲的是:猪圈里有两头猪,一头大猪,一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略?答案是:小猪将选择搭 便车”策略,也就是舒舒服服地等在食槽边;而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。 原因何在?因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。 小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之 间的距离。 如果改变一下核心指标,猪圈里还会出现同样的小猪躺着 大猪跑”的景象吗?试试看。 改变方案一:减量方案。投食仅原来的一半分量。结果是小 猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡

献食物,所以谁也不会有踩踏板的动力了。 如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然 是失败的。 改变方案二:增量方案。投食为原来的一倍分量。结果是小 猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的 共产主义”社会,所以竞争意识却不会很强。 对于游戏规则的设计者来说,这个规则的成本相当高(每次提供双份的食物);而且因为竞争不强烈,想让猪们去多踩踏板的效 果并不好。 改变方案三:减量加移位方案。投食仅原来的一半分量,但同时将投食口移到踏板附近。结果呢,小猪和大猪都在拼命地抢着踩踏板。等待者不得食,而多劳者多得。每次的收获刚好消费 宀 完。 对于游戏设计者,这是一个最好的方案。成本不高,但收获最 大。 原版的智猪博弈”故事给了竞争中的弱者(小猪)以等待为最佳策略的启发。但是对于社会而言,因为小猪未能参与竞争,小猪搭便车时的社会资源配置的并不是最佳状态。为使资源最有效配置,规 则的设计者是不愿看见有人搭便车的,政府如此,公 司的老板也是如此。而能否完全杜绝搭便车”现象,就要看游戏 规则的核心指标设置是否合适了。

博弈论案例分析

博弈论案例分析 一、经济学中的“智猪博弈” (Pigs’payoffs) 故事背景:猪圈里有一头大猪和一头小猪。猪圈的一边有个踏板,每踩一下踏板,在远离踏板的猪圈的另一边的投食口就会落下少量的食物。如果有一只猪去踩踏板,另一只猪就有机会抢先吃到另一边落下的食物。当小猪踩动踏板时,大猪会在小猪跑到食槽之前刚好吃光所有的食物;若是大猪踩动了踏板,则还有机会在小猪吃完落下的食物之前跑到食槽,争吃到另一半残羹。 那么,两只猪各会采取什么策略,答案是:小猪将选择“搭便车”策略,也就 是舒舒服服地等在食槽边; 而大猪则为一点残羹不知疲倦地奔忙于踏板和食槽之间。原因何在,因为,小猪踩踏板将一无所获,不踩踏板反而能吃上食物。对小猪而言,无论大猪是否踩动踏板,不踩踏板总是好的选择。反观大猪,已明知小猪是不会去踩动踏板的,自己亲自去踩踏板总比不踩强吧,所以只好亲力亲为了。“小猪躺着大猪跑”的现象是由于故事中的游戏规则所导致的。规则的核心指标是:每次落下的事物数量和踏板与投食口之间的距离。如果改变一下核心指标,猪圈里还会出现同样的“小猪躺着大猪跑”的景象吗,试试看。改变方案一:减量方案。投食仅原来的一半分量。结果是小猪大猪都不去踩踏板了。小猪去踩,大猪将会把食物吃完;大猪去踩,小猪将也会把食物吃完。谁去踩踏板,就意味着为对方贡献食物,所以谁也不会有踩踏板的动力了。如果目的是想让猪们去多踩踏板,这个游戏规则的设计显然是失败的。改变方案二:增量方案。投食为原来的一倍分量。结果是小猪、大猪都会去踩踏板。谁想吃,谁就会去踩踏板。反正对方不会一次把食物吃完。小猪和大猪相当于生活在物质相对丰富的“共产主义”社会,所以竞争意识却不会很强。对于游戏规则的设计者来说,这个规则的成相当高(每次提供双份的食物) ;而且因为竞争不强烈,想让猪们去多踩踏板的

博弈论经典案例

博弈论经典案例: 案例一 囚徒困境 在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的“囚徒困境”(prisoner's dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果两个犯罪嫌疑人都坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪,各被判刑8年;如果只有一个犯罪嫌疑人坦白,另一个人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。 囚徒困境博弈[Prisoner's dilemma] A╲B 坦白抵赖 坦白-8,-8 0,-10 抵赖-10,0 -1,-1 对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择“坦白”总是最优的。显然,根据对称性,B也会选择“坦白”,结果是两人都被判刑8年。但是,倘若他们都选择“抵赖”,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,“坦白”是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。 案例二 智猪博弈 一、经济学中的“智猪博弈”(Pigs’payoffs)这个例子讲的是: 假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是9∶1;同时行动(去按按钮),收益比是7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。

博弈论浅谈

博弈论浅谈 2015年6月15日 ***学院

摘要 通过半个学期对博弈论这门课的学习,我对博弈论有了自己初步的看法,并且能运用其简单的去分析一些事情。我觉得这是我学习博弈论所获得的最大收获。当今社会是一个激烈竞争的社会,是一个各方利益明争暗斗和各方势力此消彼长的社会。面对错综复杂的社会关系和日益功利的社会环境,如何在不对等情况和不公平背景下以弱制强,以少胜多是我们必须深思的问题。那么,如何在面对各种对自己不利的博弈中胜出呢?我想多少了解一点博弈论对自己是有好处的。 博弈是智慧的较量,互为攻守却又相互制约。有人的地方就有竞争,有竞争的地方就有博弈。人生充满博弈,若想在现代社会做一个有成就,就必须懂得博弈的运用。在博弈论中,有以下几种博弈:囚徒困境(引申出来的有“旅行者困境”)、纳什均衡、智猪博弈、猎鹿博弈、酒吧博弈、枪手博弈、警察与小偷博弈、斗鸡博弈、协和博弈、海盗分金博弈、讨价还价博弈和路径依赖博弈等。如果我们可以将博弈论的原理和规则运用到自己的人生实践中,那么面对问题并可做出理性选择,一定程度上避免盲目行动。 关键词:博弈论囚徒困境智猪博弈公路飙车博弈

目录 摘要 .................................................................................................................................... II 目录 ................................................................................................................................... I II 一.对博弈论的理解 (1) 二.几个模型 (3) 1.囚徒困境 (3) 2. 智猪博弈 (4) 3.公路飙车博弈 (4) 三.总结 (6) 参考文献 (7)

博弈论三大经典案例

经典的囚徒困境 1950年,由就职于兰德公司的梅里尔·弗拉德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问阿尔伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: ?若对方沉默、背叛会让我获释,所以会选择背叛。 ?若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 由囚徒困境可以写出类似的员工困境: 一名经理,数名员工; 前提,经理比较苛刻; 如果所有员工都听从经理吩咐,则奖金等待遇一样,不过所有人都超负荷工作 如果某人不听从吩咐,其他人听从吩咐,则此人下岗。其他人继续工作 如果所有人都不听从经理吩咐,则经理下岗 但是,由于员工之间信息是不透明的,而且,都担心别人听话自己不听话而下岗,所以,大家只能继续繁重的工作. 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。

博弈论模型

1. 囚徒困境 这是博弈论中最最经典的案例了——囚徒困境,非常耐人寻味。 “囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发 现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情 形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他 们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这 两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就 可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪 来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会 得到奖赏。 那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看, 他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。 但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔 丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也 意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一 理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保 持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个 逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。 企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打 交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互 之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对 方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪, 就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。 2. 智猪博弈 在博弈论(Game Theory)经济学中,“智猪博弈”是一个著名的纳什均衡的例子。假设猪圈里有一头大猪、一头小猪。猪圈的一头有猪食槽,另一头安装着 控制猪食供应的按钮,按一下按钮会有10个单位的猪食进槽,但是谁按按钮就会首先付出2个单位的成本,若大猪先到槽边,大小猪吃到食物的收益比是 9∶1;同时到槽边,收益比是7∶3;小猪先到槽边,收益比是6∶4。那么,在两头猪都有智慧的前提下,最终结果是小猪选择等待。 实际上小猪选择等待,让大猪去按控制按钮,而自己选择“坐船”(或称为搭便车)的原因很简单:在大猪选择行动的前提下,小猪也行动的话,小猪可得到1

相关主题