搜档网
当前位置:搜档网 › 博弈论导论

博弈论导论

博弈论导论
博弈论导论

第一部分

理性决策制定

1 单人决策问题

晨起穿衣,你准备享用早餐。天生也幸,你生活在一个提供丰富自助餐的大学生宿舍,桌上食物种类繁多,可以左挑右拣。也可能你是一位不那么走运的研究生,工作间的壁橱里只有两盒半空的荞麦食品,所选乏味之极。但无论是哪种情况,你都面临着同样一个问题:你该如何享用你的早餐?

这类情况正是随处可见的决策问题的一个例子。不管是作为个人还是群体(如企业和其他组织),我们每天都要面对各种各样的决策问题。此种例子不胜枚举:企业经理需要就是否开展一项新的研发计划做出决策;国会议员需要决定是否投票赞成某项法案;本科生需要选择自己的主修科目;棒球投手想要掷出何种类型的球;再如迷路的驴友们困惑于该朝哪个方向走。这种情况的列表可以无穷无尽。

有些决策微不足道,比如你如何选择早餐。举个例子,如果Apple Jacks和Bran Flakes是你的壁橱里仅有的两种荞麦食品,而且如果你不喜欢Bran Flakes(它们属于你的室友),那么你的选择显然会是吃Apple Jacks。与此相比,一名经理是否选择启动一项有风险的研发项目,或者一个立法者对法案的抉择则是一些更加复杂的决策问题。

本章将介绍一种分析语言,它可以给出严格的基础以支持博弈中潜在的策略互动这一思想。这种分析语言是比较形式化的,它可以表达各类问题中的决策主体,为我们思考决策问题在结构方式方面提供一套工具。这种分析上的正式性帮助我们澄清思想,磨砺思维。当然,在保持问题更为现实层面的能力和意愿上,这种形式化的努力不能在分析的内核上对之有所冲淡。

引入这种形式语言,我们必须就决策者或者参与人的行为给出一套假设。有时候,这些假设似乎接受起来不会遇到什么质疑。不过在另外一些时候,这些假设却不大能为我们所接受,因为它们可能会构成对我们信念的重大挑战。尽管如此,正如我们的分析所将展示的那样,我们还是会由衷的赞叹由这些假设出发而得到的结论其洞察力是何等的敏锐。

和任何理论框架一样,我们从中所得到的结论的价值,最多只能和我们在假设上的洞察力一样好。在计算机科学中有一句名言——“垃圾进,垃圾出!”——意思是说,如果进入计算系统的数据有问题,那么最终结果也会有问题。尽管

这句话开始只是被用在计算机上,但是它在更一般性的问题上也同样适用,比如对于这里接受的决策理论就是如此。因此,我们时常会以事实挑战我们的假设,质疑我们分析上的有效性。虽然如此,我们还是认为应该肯定这里所给出的理论是一个有用的分析基准(benchmark)。

1.1行动、结果和偏好

我们来看前面给出的例子:选择早餐、启动一项研究计划或投票给一项法案。这些问题都有一个共同的结构:一个个体,或参与人,面对一个他需要从多个备选项中进行选择这样的情境。每个选择都会产生某个结果,该结果的后果将由参与人自己赋予(有时候也由其他参与人赋予)。

对参与人来说,要以一种明智的方式解决这一问题,他必须要认识到该问题的三个基本特征:他可能的选择是什么?这些选择的结局如何?1每个结局如何影响他的福利?理解了问题的这三个方面有助于帮助参与人选择对他而言最优的行动。这一简单的观察所得给我们提供了第一个在任何决策问题中总可适用的定义:

决策问题一个决策问题由以下三个特征构成:

1.行动(actions):是参与人所能选择的所有备选项。

2.结果(outcomes):是由任一行动得到的可能后果。

3.偏好(preferences):描述了该参与人对可能的结果集从最可欲到最不可欲进行的排序。偏好关系描述了该参与人的偏好,意即“x

至少与y一样好”。

为便于说明,我们就从选择Apple Jacks和Bran Flakes两种食物这一司空见惯的决策问题开始。我们将行动集定义为,其中a表示对Apple Jacks 的选择,b表示对Bran Flakes的选择。2在这个简单的例子里,我们这里的行动

实际上和结果是同义的,不过为了使这种区分更加清楚,我们用表示

1这里我们把outcome翻译成“结果”,consequence翻译成“后果”,result翻译成“结局”,但是也不一定,有时候可能有变化,读者诸君请将其中中文的任何感情色彩祛除来看这些术语。——译者注

2关于集合的概念和适当的标示可以在19.1节数学附录中找到。

结果,这里x表示吃Apple Jacks(选择Apple Jacks的结果),y表示吃Bran Flakes。

11.1 偏好关系

现在来看大家还不是那么熟悉的概念:偏好关系,假设你喜欢吃Apple Jacks 甚于吃Bran Flakes。那么我们可以写成,这应被读作“x至少与y一样好”。

如果反过来你更喜欢Bran Flakes,那么我们可以写成,这应被读作“y至少

与x一样好”。这样我们的偏好关系就可以以一种便捷的方式来表达参与人对所有可能结果的排序。

我们遵从经济学和决策理论中的共同传统,将偏好表达为一个“弱”序。也就是说,表述“x至少与y一样”和“x优于y或x与y同样好”是一致的。为了在这两种表述间做出区分,我们使用严格偏好关系,,表示“x严格优于y”和无差异关系,,表示“x与y一样好”。

很多决策问题并不必然像选择早餐吃什么这个问题那样,行动与结果是等同的。举个例子,你和一个朋友一起在酒吧喝酒,结果他喝得烂醉。你的行动可以是让他独自开车回家,抑或帮他打一辆出租车。让朋友独自开车回家其结果肯定是一场事故的发生(他确实是烂醉),而为他打一辆出租车的结果则是安全到家。因而对于这个决策问题你的行动和结果就不再是相同的。

在这些例子中,行动集是一个有限集,但是在有些情况下我们可能会有无穷多的行动可供选择。进一步而言,所选择的行动又可能会产生无穷多的结果。举一个简单的例子:我拿给你一桶两加仑的水来解决你的口渴问题。你选择自己要喝多少,并将剩下的水还给我。在这种情况下,你的行动集可以描述为一个区间:你可以选择行动a只要它属于这个区间,我们可以用两种方式来写,

即或者。3如果我们在这个例子中将行动等同于结果,那么结

果也是。最后,更多即更好也不必然成立。如果你很口渴,那么喝一品脱水可能比什么都没喝要好。但是,要是喝上一加仑水就可能让你胃痛,因此你会更喜欢一品脱胜过一加仑水。

3表示符号意思是“属于”。因此“”意即“元素x和y属于集合X”。如果你不熟悉有关集合的知识和这一类的描述方式,可以参考19.1节数学附录。

在继续以一种有利的方式来表示定义在不同结果上的参与人偏好之前,值得着重强调的是,我们对参与人思考决策问题的能力要给出两个重要的假设。4首先,我们要求参与人能够对结果集里的任何两个结果进行排序。把这一表述表达的更正式,即:

完备性公理偏好关系是完备的:任意两个结果都可以由该偏好

关系进行排序,所以要么,要么。

在某种程度上完备性公理几乎毫无争议。如果给你两种食物,你应该能够根据你喜欢它们的程度而进行排序(如果你认为它们同样可口而且富有营养,可以无差异的选择二者)。如果给你两辆车,你应该也能够根据你喜欢驾驶它们的程度和其安全性能等等之类的标准来对它们进行排序。如果给你提供两种投资组合,你也应该能够根据你平衡风险和支付的意愿来对它们进行排序。换言之,完备性公理不会让你在任何两种结果面前无所适从。5

我们所做的第二个假设可以保证一个参与人能够对所有结果进行排序。为此,我们需要引入可传递性这个更为严格的一致性条件:

可传递性公理偏好关系是可传递的:对于任意三个结果都可

以由该偏好关系排序,如果且,那么。

面对几个结果,完备性可以保证任何两个都能被排序,而可传递性则保证这种排序不会出现矛盾,也即不会产生无法决策下去的循环这种情况。为了看一下违反传递性公理的情况,我们考虑一个严格偏好Apple Jacks甚于Bran Flakes的参与人,,Bran Flakes严格偏好于Cheerios,,而Cheerios又严格偏

好于Apple Jacks,。当面对任何两盒不同的荞麦食品,比如说,

4这些假设也被称之为“公理”,这是为了遵奉冯·诺依曼和摩根斯坦恩(1944)的原创著作的用语,该书为决策理论和博弈论都打下了多方面的基础。

5换言之,这个公理通即解决了常所说的“布里丹的驴子”这类问题。其中一个故事版本是这样的,一个驴子被置于两堆完全无差别的干草之间,并假设这头驴子总是选择就近的干草。然而,由于两堆干草与这头驴子是等距离的,所以它无法在二者之间进行选择,最终只能饿死。

该参与人在选择他更偏爱的a盒上毫无问题。然而,当呈现给他所有三个选项——即——时,发生了什么呢?这个可怜的家伙将无法判断三个之中

应该选择哪一个,因为对于其中任一个荞麦食品盒,总是有另外一个他更为偏好。因此,通过要求参与人具有完备性和传递性偏好,我们基本上可以保证在任何结果集上,他总是可以至少选择一个最优结果,它在这个结果集里与任何别的结果相比更优或至少一样好。

为了预示何为决策制定的前提,我们把满足完备性和传递性的偏好关系称之为理性偏好关系。我们将仅关注具有这种理性偏好的参与人,因为没有这样的偏好我们既不能提供预测也无法对其行为进行解释。

评论正如1785年马奎斯·德·孔多塞所提到的,一个由理性个体参与人组成的群体——把这些理性个体参与人聚在一起作为一个群体制定决策时——可能会成为一个“非理性”的群体。举一个例子,设想有三个室友,称为参与人1、2、3,他们必须从其公寓厨房里选出一个荞麦食品盒子。参与人1的偏好是:

,参与人2的偏好是:,参与人3的偏好是:。

假设我们这三位参与人以一种民主方式进行选择,运用多数投票原则来达成决策。这个群体的最终偏好是什么呢?当面对a和c这对选项时,参与人1和3会投票给Apple Jacks,因此有。当面对c和b这对选项时,参与人1和2会投票给Cheerios,因此。当面对a和b这对选项时,参与人2和3会投票给Bran Flakes,因此。结果,我们这三位理性参与人却无法运用得自多

数投票原则下的群体偏好以达成一个最终的决策!这类源自多数投票原则的群体决策不畅,常被称之为“孔多塞悖论”。因为我们不会去分析群体决策,所以这还不是我们要面对的问题,但是在脑海中记住这样的现象是有益无害的,它提醒我们个体理性并不意味着“群体理性”。

1.1.2 支付函数(payoff functions)

当我们把注意力集中在具有理性偏好的参与人身上时,我们不仅可以得到一个以一种具有一致性和说服力的方式行事的参与人,而且基于更大的便利我们还可以以一种更加友好、更加具有操作性的工具来取代偏好关系。我们来看下面这

个简单的例子。假设你在你家附近的街角开了一家柠檬汽水店。你有三种可能的行动:选择低质量的柠檬水(),将花去10美元,卖掉后得到15美元收入;选择中等质量的柠檬水(),将花去15美元,卖掉后得到25美元收入;选择高

质量的柠檬水(),将花去28美元,卖掉后得到35美元收入。因此行动集为:

,结果集由净利润表示,即,这里行动获得利润5美

元,行动获得利润10美元,行动获得利润7美元。假设获得更高的利润总是

更好的,我们有。因此你应该会选择备择项,从而得到10美元利润。

注意,这里我们取的是一个很浅显的利润最大化的例子,可以把它裁剪进我们的决策问题框架中来。我们可以导出与利润最大化一致的偏好关系,这也是任何一家逐利企业的目标。可以证明,如果我们这样来看待行动及其相应的利润,理解这一问题也更加自然、更加容易。尤其是我们以一种显而易见的方式来定义利润函数:每个行动都会取得一个利润。那么,不考虑定义在利润结

果上的偏好关系,我们只是直接来看每种行动所得到的利润,也可以选择出最大化利润的行动。换言之,我们可以使用利润函数来评价行动和结果。

正如这个简单的例子所说明的那样,利润函数是参与人对其行动进行排序的更加直接的方式。那么现在问题就是我们能否找到类似的方法来研究不只是关乎利润的那些决策问题呢?我们的确可以这样做,如果参与人具有理性偏好,我们就可以定义支付函数。6

定义1.1 如果对于任何,当且仅当,那么支付函

数就表征了偏好关系。

将这一定义用自然语言表示就是,偏好关系可以由支付函数—

—该函数给中的每一个结果赋予了一个实数值——来表示,当且仅当该函数给更高排序的结果赋予更大的值。

值得注意的是,用支付函数表征偏好的确很方便,但是支付取值本身并无额6回忆一下,函数是将各种投入与一种产出联系起来的关系。关于这点更多内容可以参看数学附录19.2节。

外的含义,它只是表达了偏好的排序而已。支付是一种序数构造:它被用于对备选项进行由最可欲到最不可欲的排序。比如说,我喜欢Apple Jacks胜过Bran Flakes,那么我就可以构造支付函数,满足,。我也可以构

造一个不同的支付函数来表征同样的偏好:令,。正

如华氏温度和摄氏温度是两种不同的描述冷热程度的方式一样,还有很多其他方式可以用支付函数来表征偏好。

使用支付函数而不是偏好,可以就具有理性偏好的决策者应该如何行为以及通常将会如何行为的理论提供具有更强的可操作性。决策者会选择行动,最大化表征其偏好的支付函数。我们需要问的最后一个问题是,我们是否肯定的知道这种方法能够行得通:参与人确实具有一个能表征其偏好的支付函数吗?对这一问题的回答并不困难,也值得简略的认识一下。下面我们给出一个正式的命题,以及一个正式且相当易于理解的证明。

命题 1.1如果结果集是有限的,那么上任何理性偏好关系都可以由一个支付函数来表征。

证明:这一证明是构造式的。因为偏好关系是完备的和可传递的,所以我们可以找出最不被偏好的结果,使得所有的都至少和一样好,也即对

于所有其他的有。现在定义“最劣结果等价集”,标示为,它包括

以及其他参与人觉得和其无差异的结果。那么,从中剩下的元素7,可以

定义为“次劣结果等价集”,标示为,以此类推,直到“最好结果等价集”

出现为止。由于是有限集,且是理性的,所以这n个等价集的总和集

(collection)必然存在。现在考虑n个任意值,其支付

赋值是根据以下函数完成的:对于任一,有。这一支付函数表

征了。因此,我们就证明了有这样的函数存在。▋

这个命题很有用:对于很多这样的实际情况而言,我们总能创造出一个支付7标示意思是“集合中A不属于B集合的元素组成的集合”,或者有时候也称“集合A减去集合B”。

函数,它可以像利润函数那样以同样的方式来运行,这种方式是参与人在选择行动上趋利避害的法宝。在此我们将不再深入探讨这一主题,不过即便在不少无限多结果的情况下支付表征也是存在的。对这些情况的处理超出了这本教科书的范围,如果你想深入学习,可以参考教科书中有关这一主题——名为“表征定理”——更为全面的处理。(例如可以参看Kreps[1990a,第18-37页,以及1988]中对该主题颇富深度的处理。)

到现在为止,我们已经看到,决策问题的正式结构为分析提供了一个一致性的框架。然而,数十年来,教师、学生和其他研究者反而是使用一种叫做决策树的更直观、以图示为表达的简单工具来描述。

假设你的早餐在Apple Jacks(a)和Bran Flakes(b)之外还包括一个松饼(m)和一个烤饼(s)。你的偏好是:。(回忆一下,我们现在考虑的偏好是建立在结果之上,也是直接建立在行动之上的。)考虑以下这些支付表征:

,,以及。我们可以写下如图1.1所描述的决策树。

【此处插入:图1.1 一个简单的早餐决策树player以后都译为“参与人”,以后不赘——译者】

我们来看这个简单的决策树,其中参与人居于左边的树“根”处,然后依次是树枝,每一个枝都代表着一个可能的行动。在选择早餐的例子里,每一个行动都会产生一个最后的支付,这些支付写在每个相应的行动枝之后。我们的理性决

策者会统揽全树,对每一个枝的支付都有虑及,而后选择出最高支付的那个枝。

参与人需要做决策的结点被称为是决策结。那些位于树末端的结点,后有支付相附的,被称为终点结。本书下一章将会表明,决策树的结构会逐渐变得更加复杂,不过这对于描述更为复杂的决策问题,决策树也会很有好处。在第七章我们还会用类似的决策树来讨论,在那里我们会考察众多可能的参与人之间的策略互动,这也是本书的主要关注之所在。

1.2理性选择范式

现在,我们要引入“经济人(Homo economicus或economic man)”这个概念。经济人是“理性的”,因为他总是选择最大化其福利的行动,就像定义在最终结果上的支付函数一样。8参与人是理性的假设占据着所谓的理性选择范式的要津。理性选择理论认为,当决策者在各种潜在的行动之间进行选择时,他总是会以理性为引导,选出其最优行动。对于个体人类行为来说这可以被假设是成立的,同样对于那些其他实体——如公司、委员会或者国家政府——来说,也是如此。

不过,值得特别注意的是,接受理性选择理论范式,我们就已然给出了一些隐含的假设,现在我们来明确的表述出来。

理性选择假设参与人完全理解决策问题,因为他知晓:

1.所有可能的行动,;

2.所有可能的结果,;

3.每一个行动会影响到哪种结果确然发生;

4.其在结果之上的理性偏好(支付)。

可能乍看之下,这些假设有点过于严格,进一步深思你或许会觉得对于多数决策问题来说全部满足这些假设是不可能的。但它们只是决策问题被参与人全部理解这样一种基准状态,在这一状态下,参与人总能以一种系统的结构性方式处

8经济人模型的一个相对简单的应用是假设我们的参与人知道对他的长期福利而言什么是最好的,因之总是可以做出对自己来说正确的决定。本书通篇都采用这一简单的方式来看取经济人,尽管有时候我们也会质疑这种方式是否完全合适。

理其所遇到的决策问题。如果我们漏掉四个假设要求中的任何一个,我们都不能再冠以理性选择的名号。如果(1)是未知的,那么参与人可能不清楚什么行动是其最优行动。如果(2)或(3)是未知的,那么参与人可能无法正确预知其行动的真正后果。最后,如果(4)是未知的,那么参与人就可能无法正确的认识到其选择的后果对其福利的影响。

为了使理性范式可操作,我们必须在行动中进行选择,而我们现在只是定义了在结果而非行动上的偏好以及支付函数。因此,如果我们能够将偏好定义在行动上——从而给出支付函数——而不是将偏好定义在结果上,那就会更加有用。在选择荞麦食品或喝多少水的例子中,行动和结果是同义的,不过这并非总是如此。我们来看是否让你的朋友酒驾这种情况,其行动和结果就不相同,尽管每个行动还是只能带来一个且只有一个结果:让他酒驾会导致事故发生,帮他打车会安全到家。因此,即便偏好和支付被定义在结果上,这一在行动和结果之间的一一对应或函数也意味着我们可以考虑定义在行动上的偏好和支付,而且我们能够运用这种在行动和结果之间的对应关系来定义行动上的支付如下:如果是得

自行动a的结果,那么得自行动a的支付由下式给出:,支付得自。这样一来,我们就可以运用来代表得自行动a的支付。9现在,我们

可以精确的定义理性参与人:

定义1.2面对一个决策问题,具有定义在行动上的支付函数的参与人是

理性的,如果他总是选择一个行动来最大化其支付。也即会被选中,

当且仅当,。10

现在我们有了经济人的正式定义:一个具有理性偏好的参与人,且其所以是理性的是因为他知晓他所面对的决策问题的所有方面,而且总能从可能的行动集合中选出带给他最高支付的那一个。

到目前为止,我们已经看到过具有有限行动集的一些简单例子。现在我们开

9写的更为准确些,即,我们令表示从行动映射到结果的函数,令定义在结果上的支付函数为:。我们把行动上的支付函数定义为如下复合函数:,这里。

10符号表示“对于所有的”。——译者注

始考虑具有连续性行动空间的情况,这需要一些微积分知识。假设你在一个聚会上在想是否应该出于社交的需要喝点酒。给定你的身体条件,你更喜欢喝点葡萄酒,不但口味适合而且也可能放松情绪,但是太多也会让你难受。现在有一瓶一公升的葡萄酒,因此你的行动集就是,这里表示你选择喝的量。

你的偏好由下面这个定义在行动上的支付函数表示:,如图 1.2

所示。如你所见,喝点酒比一点都不喝要好(0.1公升带给你的是正的支付,而什么都不喝带给你的支付为零),但是喝掉整瓶要比一点都不喝还要糟糕()。你应该喝多少?你的最大化问题是:

取此函数的导数,并令其等于0,可以求得该问题的解,即或,

也就是比两个一般的玻璃杯差不多的量。11这样一来,你应该喝多少葡萄酒这个决策问题,经过思考,你可以求得最优的行动。

【此处插入:图1.2 喝葡萄酒的支付】

1.3总结

·一个简单决策问题有三个部分:行动、结果和定义在结果上的偏好。

11准确地说,我们也必须确定,第一,这个解的二阶导数都是负的,这才是一个局部最大值,第二,的值不会大于两个边界点和。关于函数最大值问题更多的内容,可以参看数学附录19.3

节的内容。

·一个理性的参与人有定义在结果上的完备性和可传递性偏好,因之总能从其可能的行动中找出最优的备选项。这些偏好可以由定义在结果上的支付(或利润)函数以及相对应的定义在行动上的支付函数来表征。

·一个理性的参与人总是力所能及从可能的行动集中选出带给他最高可能支付的那个行动。因此,通过最大化定义在其备选行动集上的支付函数,理性参与人会选择最优决策。

·决策树是决策问题的一个简单的图示表达。

1.4习题

1.1你的决策:想一个你常遇到的简单决策,并把它形式化为一个决策问题,

细心的列出行动和结果,先不列出偏好关系。然后将支付赋予给结果,

画出决策树。

1.2看电影:在你的社区有两家电影院:Cineclass,在离你家一英里处;

Cineblast,在离你家三英里处。它们都在放映三个片子。Cineclass在放

映:《卡萨布兰卡》、《乱世佳人》和《奇爱博士》;而Cineblast放映的是:

《黑客帝国之矩阵革命》、《银翼杀手》和《异形》。你的问题是,选择

去哪一家电影院。

a.画出一个决策树,表达一下没有赋予支付值的这一问题。

b.假设你不关心距离,你对电影的偏好才是第一位的(也即你最喜欢《异形》,最不喜欢《黑客帝国之矩阵革命》)。使用支付

值1-6,将你在a中所画的决策树完善起来。你会选择哪一选项?

c.现在假设你的车还在修车店,步行的话,每英里成本等于一个支付单位。更新你决策树中的支付。你的选择会有所变化吗?

1.3水果还是糖果:在当地的自助餐厅里,一根香蕉价值0.5美元,一颗糖

果价值0.25美元。你口袋里有1.25美元,你总是用钱来衡量价值。吃

第一根香蕉你所得到与货币等价的价值(支付)为1.20美元,而再加一

个香蕉只有之前那一个的一半价值(第二根香蕉带给你的价值为0.6美

元,第三根香蕉只有0.3美元,如此等等)。同样,你吃第一颗糖果所得

到的支付为0.4美元,每加一块糖果,你的效用减半(0.2美元、0.1美

元,等等)。你吃香蕉所得的价值不会受到你吃多少块糖果的影响,反之亦然。

a.给定你1.25美元的预算,你可以采取的可能的行动集是什么?

b.画出与此决策问题相联系的决策树。

c.你应当如何在这家自助餐厅里将所有的钱花掉?请用理性选择的观点来论证你的答案。

d.现在假设一块糖果的价格提升到0.3美元。你会有多少可能的行动?你在c中的答案会变化吗?

1.4酒类消费:回想一下本章中你需要喝多少的例子。假设你的支付函数为

,此处是一个取决于你的身体条件的参数。每一个人都有一个

不同的值,在整个人群中,以下几点是人所共知的:(1)最小的为

0.2;(2)最大的为6;(3)大个子比小个子有更高的值。

a.你能找到一个每人应该喝酒的量吗?

b.如果你的=1,你该喝多少酒?如果=4呢?

c.证明一般来说小个子的人应该比大个子的少喝。

d.一个人应该喝超过一公升的酒吗?

1.5买车:你计划买一辆二手车。你口袋里有12000美元,而且你不喜欢借

钱。汽车的价格如下:

(生产商,型号,年份,价格剩下的车名不翻译)对任一给定的年份,你偏爱Camry胜于Impreza,Impreza胜于Corolla,Corolla胜于Civic,Civic胜于LeSabre。对于任一给定年份,你愿意为了从一辆车变换到下一款更喜欢的车付出999美元。比如说,如果Corolla 的价格为z元,那么你愿意买下它而不是一辆Civic,如果Civic的价格超过(z-999)美元的话,但是如果Civic的价格不超过此数的话,你还

是宁愿买Civic。同样,你在c美元上更偏爱Civic胜过一辆花费超过(z+1000)美元的Corolla,但是如果Corolla的价格更低的话,你会偏爱Corolla。对于任一辆汽车,如果价格便宜至少500美元,你愿意去买更老一点的车型。比如说,如果一辆2003年的Civic价格为z美元,那么你会愿意购买它,而不是一辆2002年的Civic,如果这辆2002年的Civic价格超过(z-500)美元的话,而如果它的价格少于此数,你宁愿买一辆2002年的Civic。

a.你可能的备选项集合是什么?

b.在a中备选项之间你的偏好关系是什么?

c.画出决策树,并将支付赋予到与可能的备选项相联的终点结上。你会怎么选?

d.你能画出一个表达了同一问题的具有不同支付的决策树吗?

1.6果树:在你的花园里,你还有可栽两株果树的地方。这些果树可以是苹

果、桔子和梨。苹果树的维护成本为100美元,桔子树为70美元,而梨树则为120美元。你的食品账单可以因为每株你栽的苹果树缩减130美元,每株梨树则缩减145元,每株桔子树缩减90美元。你只关心你在做出种植决策上的总支出。

a.可能行动及其相关结果的集合是什么?

b.每个行动/结果的支付是多少?

c.画出相应的决策树。理性的参与人会选什么?

d.现在假设种植同类的果树,对你的账单缩减只有第一株的一半(你喜欢花样繁多)。也就是说,第一株苹果树仍然缩减你的

账单130元,但是如果你种两株评估书,你的食品账单将会缩

减130+65=195美元,对于梨树和桔子树也是如此。一个理性参

与人现在应该如何选择?

1.7城市公园:某城市的市长要决定在公园和娱乐设施方面投出多少资金。

城市法规将这类支出严格限制在不超过预算的5%,该城市年预算为20000000美元。市长希望取悦他的选民,这些人对公园有着递减的收益。

在公园上支出c可以取得的等价收益为。

a.该城市市长的行动集是什么?

b.这位市长应该支出多少?

c.电影《难以忽视的真相》改变了公众的观点,现在人们更愿意为公园多做支付。人们的新偏好由给出。现在,该市长的行动集是什么,他应该选择多少支出来取悦他的选民?

(完整版)博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、 决策主体是理性的,最大化自己的收益。 2、 完全理性是共同知识 3、 每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、 传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P ,I),其中P 为市场价格,I 为消费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

博弈论复习题及答案(DOC)

囚徒困境说明个人的理性选择不一定是集体的理性选择。(√) 子博弈精炼纳什均衡不是一个纳什均衡。(×) 若一个博弈出现了皆大欢喜的结局,说明该博弈是一个合作的正和博弈。()博弈中知道越多的一方越有利。(×) 纳什均衡一定是上策均衡。(×) 上策均衡一定是纳什均衡。(√) 在一个博弈中只可能存在一个纳什均衡。(×) 在一个博弈中博弈方可以有很多个。(√) 在一个博弈中如果存在多个纳什均衡则不存在上策均衡。(√) 在博弈中纳什均衡是博弈双方能获得的最好结果。(×) ~ 在博弈中如果某博弈方改变策略后得益增加则另一博弈方得益减少。(×)上策均衡是帕累托最优的均衡。(×) 因为零和博弈中博弈方之间关系都是竞争性的、对立的,因此零和博弈就是非合作博弈。 (×) 在动态博弈中,因为后行动的博弈方可以先观察对方行为后再选择行为,因此总是有利的。(×) 在博弈中存在着先动优势和后动优势,所以后行动的人不一定总有利,例如:在斯塔克伯格模型中,企业就可能具有先动优势。 囚徒的困境博弈中两个囚徒之所以会处于困境,无法得到较理想的结果,是因为两囚徒都不在乎坐牢时间长短本身,只在乎不能比对方坐牢的时间更长。 (×) 纳什均衡即任一博弈方单独改变策略都只能得到更小利益的策略组合。(√)不存在纯战略纳什均衡和存在惟一的纯战略纳什均衡,作为原博弈构成的有限次重复博弈,共同特点是重复博弈本质上不过是原博弈的简单重复,重复博弈的子博弈完美纳什均衡就是每次重复采用原博弈的纳什均衡。(√) — 多个纯战略纳什均衡博弈的有限次重复博弈子博弈完美纳什均衡路径:两阶段都采用原博弈同一个纯战略纳什均衡,或者轮流采用不同纯战略纳什均衡,或者两次都采用混合战略纳什均衡,或者混合战略和纯战略轮流采用。(√) 如果阶段博弈G={A1, A2,…,An; u1, u2,…,un)具有多重Nash均衡,那么可能(但不必)存在重复博弈G(T)的子博弈完美均衡结局,其中对于任意的t

博弈论案例分析

博弈论 博弈论(Game Theory),亦名―对策论‖、―游戏理论‖,属应用数学的一个分支,博弈论已经成为经济学的标准分析工具之一。目前在生物学、经济学、国际关系、计算机科学、政治学、军事战略和其他很多学科都有广泛的应用。博弈论主要研究公式化了的激励结构间的相互作用。是研究具有斗争或竞争性质现象的数学理论和方法。也是运筹学的一个重要学科。博弈论考虑游戏中的个体的预测行为和实际行为,并研究它们的优化策略。生物学家使用博弈理论来理解和预测进化论的某些结果。 博弈论是指某个个人或是组织,面对一定的环境条件,在一定的规则约束下,依靠所掌握的信息,从各自选择的行为或是策略进行选择并加以实施,并从各自取得相应结果或收益的过程,在经济学上博奕论是个非常重要的理论概念。 什么是博弈论?古语有云,世事如棋。生活中每个人如同棋手,其每一个行为如同在一张看不见的棋盘上布一个子,精明慎重的棋手们相互揣摩、相互牵制,人人争赢,下出诸多精彩纷呈、变化多端的棋局。博弈论是研究棋手们―出棋‖ 招数中理性化、逻辑化的部分,并将其系统化为一门科学。换句话说,就是研究个体如何在错综复杂的相互影响中得出最合理的策略。现在,我们就一些例子来讨论博弈论相关内容。 一、从“囚徒困境”开始 在博弈论中,含有占优战略均衡的一个著名例子是由塔克给出的―囚徒困境‖(prisoners’ dilemma)博弈模型。该模型用一种特别的方式为我们讲述了一个警察与小偷的故事。假设有两个小偷A和B联合犯事、私入民宅被警察抓住。警方将两人分别置于不同的两个房间内进行审讯,对每一个犯罪嫌疑人,警方给出的政策是:如果一个犯罪嫌疑人坦白了罪行,交出了赃物,于是证据确凿,两人都被判有罪。如果另一个犯罪嫌疑人也作了坦白,则两人各被判刑8年;如果另一个犯罪嫌人没有坦白而是抵赖,则以妨碍公务罪(因已有证据表明其有罪)再加刑2年,而坦白者有功被减刑8年,立即释放。如果两人都抵赖,则警方因证据不足不能判两人的偷窃罪,但可以私入民宅的罪名将两人各判入狱1年。下表给出了这个博弈的支付矩阵。 表囚徒困境博弈 [Prisoner's dilemma] 我们来看看这个博弈可预测的均衡是什么。对A来说,尽管他不知道B作何选择,但他知道无论B选择什么,他选择―坦白‖总是最优的。显然,根据对称性,B也会选择―坦白‖,结果是两人都被判刑8年。但是,倘若他们都选择―抵赖‖,每人只被判刑1年。在表2.2中的四种行动选择组合中,(抵赖、抵赖)是帕累托最优的,因为偏离这个行动选择组合的任何其他行动选择组合都至少会使一个人的境况变差。不难看出,―坦白‖是任一犯罪嫌疑人的占优战略,而(坦白,坦白)是一个占优战略均衡。 要了解纳什的贡献,首先要知道什么是非合作博弈问题。现在几乎所有的博弈论教科书上都会讲―囚犯的两难处境‖的例子,每本书上的例子都大同小异。 话说有一天,一位富翁在家中被杀,财物被盗。警方在此案的侦破过程中,抓到两个犯罪嫌疑人,斯卡尔菲丝和那库尔斯,并从他们的住处搜出被害人家中丢失的财物。但是,他们矢口否认曾杀过人,辩称是先发现富翁被杀,然后只是顺手牵羊偷了点儿东西。于是警方将两人隔离,分别关在不同的房间进行审讯。由地方检察官分别和每个人单独谈话。

博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、 决策主体是理性的,最大化自己的收益。 2、 完全理性是共同知识 3、 每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、 传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P ,I),其中P 为市场价格,I 为消费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

博弈论知识点总结

博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、决策主体是理性的,最大化自己 的收益。 2、完全理性是共同知识 3、每个参与人被假定为可以对所处 环境以及其他参与者的行为形成正确的 信念与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完 全信息)等的信息。

1、

2、 既定下,消费者效用只依赖于自己 的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅 选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相 比,扩展式博弈更注重对参与人在博弈过程 {1,2,...,} n Γ=11 (,...,,...,) n i i n i s s s s ==∏

博弈论基础作业及答案

博弈论基础作业 一、名词解释 纳什均衡占优战略均衡纯战略混合战略子博弈精炼纳什均衡 贝叶斯纳什均衡精炼贝叶斯纳什均衡共同知识 见PPT 二、问答题 1.举出囚徒困境和智猪博弈的现实例子并进行分析。 囚徒困境的例子:军备竞赛;中小学生减负;几个大企业之间的争相杀价等等; 以中小学生减负为例:在当前的高考制度下,给定其他学校对学生进行减负,一个学校最好不减负,因为这样做,可以带来比其他学校更高的升学率。给定其他学校不减负,这个学校的最佳应对也是不减负。否则自己的升学率就比其他学校低。因此,不论其他学校如何选择,这个学校的最佳选择都是不减负。每个学校都这样想,所以每个学校的最佳选择都是不减负,因此学生的负担越来越重。 请用同样的方法分析其他例子。 智猪博弈的例子:大企业开发新产品;小企业模仿;股市中,大户搜集分析信息,散户跟随大户的操作策略 以股市为例:给定散户搜集资料进行分析,大户的最佳选择是跟随。而给定散户跟随,大户的最佳选择是自己搜集资料进行分析。但是不论大户是选择分析还是跟随,散户的最佳选择都是跟随。因此如果大户和散户是聪明的,并且大户知道散户也是聪明的,那么大户就会预见到散户会跟随,而给定散户跟随,大户只有自己分析。 请用同样的方法分析其他例子。 2.请用博弈论来说明“破釜沉舟”和“穷寇勿追”的道理。 破釜沉舟是一个承诺行动。目的是要断绝自己的退路,让自己无路可退,让自己决一死战变得可以置信。也就是说与敌人对决时,只有决一死战,这样才可以取得胜利。否则,如果不破釜沉舟,那么遇到困难时,就很有可能退却,也就无法取得胜利。穷寇勿追就是要给对方一个退路,由于有退路,对方就不会殊死抵抗。否则,对方退无可退,只有坚决抵抗一条路,因而必然决一死战。自己也会付出更大的代价。

博弈论导论

第一部分 理性决策制定

1 单人决策问题 晨起穿衣,你准备享用早餐。天生也幸,你生活在一个提供丰富自助餐的大学生宿舍,桌上食物种类繁多,可以左挑右拣。也可能你是一位不那么走运的研究生,工作间的壁橱里只有两盒半空的荞麦食品,所选乏味之极。但无论是哪种情况,你都面临着同样一个问题:你该如何享用你的早餐? 这类情况正是随处可见的决策问题的一个例子。不管是作为个人还是群体(如企业和其他组织),我们每天都要面对各种各样的决策问题。此种例子不胜枚举:企业经理需要就是否开展一项新的研发计划做出决策;国会议员需要决定是否投票赞成某项法案;本科生需要选择自己的主修科目;棒球投手想要掷出何种类型的球;再如迷路的驴友们困惑于该朝哪个方向走。这种情况的列表可以无穷无尽。 有些决策微不足道,比如你如何选择早餐。举个例子,如果Apple Jacks和Bran Flakes是你的壁橱里仅有的两种荞麦食品,而且如果你不喜欢Bran Flakes(它们属于你的室友),那么你的选择显然会是吃Apple Jacks。与此相比,一名经理是否选择启动一项有风险的研发项目,或者一个立法者对法案的抉择则是一些更加复杂的决策问题。 本章将介绍一种分析语言,它可以给出严格的基础以支持博弈中潜在的策略互动这一思想。这种分析语言是比较形式化的,它可以表达各类问题中的决策主体,为我们思考决策问题在结构方式方面提供一套工具。这种分析上的正式性帮助我们澄清思想,磨砺思维。当然,在保持问题更为现实层面的能力和意愿上,这种形式化的努力不能在分析的内核上对之有所冲淡。 引入这种形式语言,我们必须就决策者或者参与人的行为给出一套假设。有时候,这些假设似乎接受起来不会遇到什么质疑。不过在另外一些时候,这些假设却不大能为我们所接受,因为它们可能会构成对我们信念的重大挑战。尽管如此,正如我们的分析所将展示的那样,我们还是会由衷的赞叹由这些假设出发而得到的结论其洞察力是何等的敏锐。 和任何理论框架一样,我们从中所得到的结论的价值,最多只能和我们在假设上的洞察力一样好。在计算机科学中有一句名言——“垃圾进,垃圾出!”——意思是说,如果进入计算系统的数据有问题,那么最终结果也会有问题。尽管

博弈论 蒋文华 浙江大学

第一讲、博弈论概述 献给诸位 知人者智,自知者明; 胜人者力,自胜者强; 小胜者术,大胜者德。 第一章何为“博弈” 博:博览全局弈:对弈棋局→谋定而动 是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。 第一节从一个简单的故事说起 博弈时要搞清楚对手是谁!博弈时要搞清楚和别人比什么!

行为选择既跟对手的情况有关,又跟所遇到的外部环境的变化有关。 特别提示: 博弈既可以是竞争,也可以是合作! 特别提示: 博弈,必须学会换位思考! 特别提示: 博弈,只需领先一步,高人一筹! 博弈就是你中有我,我中有你。由于直接相互作用(互动),每个博弈参与者的得益不仅取决于自己的策略(行动),还取决于其他参与者的策略(行动)。博弈的核心在于整体思维基础上的理性换位思考,用他人的得益去推测他人的策略(行动),从而选择最有利于自己的策略(行动)。 特别提示: 站在别人的立场上想一想,就是为自己未来的遭遇着想。——米兰·昆德拉

如果因为对方眼中的你的傻,而让对方更愿意和你合作,何乐而不为呢?(大智若愚)特别提示: 请不要在一个充分竞争的市场去追求成功! 特别提示: 选对市场(对手)比选对策略更重要! 特别提示: 在博弈之前,博弈就已经开始了! 第二节博弈的渊源 一、中国的理解 博+弈=下围棋 略观围棋,法于用兵,怯者无功,贪者先亡。

----汉代刘向,《围棋赋》二、西方的理解 game(规则) 费厄泼赖(fairplay) 第三节学习博弈论的收益一、当局者清 更有利的选择 更快速的反应 二、旁观者更清 理解历史与现实 预测未来的发展

博弈论经典案例分析

博弈论经典案例分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

用博弈论分析生活中的现象

上海第二工业大学 2012-2013学年第二学期 用博弈论分析生活现象论文

博弈论分析生活中现象 博弈论它较好地解决了对竞争等问题的可操作性分析,成为经济学中激荡人心的一个研究领域,主要是研究各相关行为主体的决策行为相互影响、相互作用的假定条件下,博弈论就是分析博弈行为和博弈决策的一门科学。其实博弈现象不只现身于经济领域对于我们日常生活中也是处处可见的,所以博弈论的思想不仅仅能够用来分析经济从而获得最大的盈利,我们也可以尝试将博弈论的思想运用到生活实践中从而获得最优的策略。 比如某一天你觉得应该是你女朋友的生日,但又不能肯定,如果是女朋友的生日的话,你可以送一束花,女朋友会特别高兴,你不送花,女朋友会埋怨你忘了她的生日如果不是女朋友的生日的话,你可以送女朋友一束花女朋友感到意外的惊喜,你不送花结果生活同往常一样。 生日非生日 买花 1 ,1 2 ,1 不买花-1,-1 0 ,0 确定今天是女朋友的生日或确定今天不是女朋友的生日,但你的最好行动都是买花。 谈到博弈论我们不得不说到囚徒困境,其内容大致为两名罪犯A 和B隔离审讯。如果两个都不招,因为证据不充分,两人都只能判1年。如果一方招了,属立功表现,功罪相抵,无罪释放;而另一方则属抗拒从严,判10年刑但如果两人都招了,则各判 5 年。结果大家都知道:两个人争先恐后地招了,结结实实地各判了5年。两个犯

人陷入的就是囚徒困境, A B 招不招 招 5 ,5 无罪释放,10 不招10,无罪释放 1 ,1 其结果就是A和B都招,判5年刑。如果两人协商后选择不招,但如果A或B其中一人招了,另一人就会判10年,而招的一人就会无罪释放,这样的诱惑足以让两名罪犯违背两人协议。而选择招。这样最有可能就是俩人都招。 人际交往中的博弈 人与人之间的相互矛盾和相互冲突的关系实际上就是一种博弈关系。矛盾冲突的结果也有三种情况负和游戏、零和游戏和正和游戏。“负和游戏”是一种两败俱伤的游戏故也称为双输博弈。在人与人的交往时由于相互的冲突和矛盾不能达到统一交际双方都不让步,最后使交际活动不能展开,结果是交际的双方都从中受损两败俱伤。如果是朋友,也会因不断发生“负和游戏”而逐渐疏远,夫妻间经常出现“负和”现象感情自然会受到影响。交际中之所以经常会发生“负和博弈”现象,大多是因为心胸狭窄,遇事爱使性负气,必然会出现“负和”局面。如果不使性负气,而是互相谅解,与人交往采取合作态度,便能使有矛盾和冲突的交际活动朝好的方向发展。在交际中如果遇到了和交际对象发生冲突的时候能够想着退一步海阔天高,采取一种和对方合作的态度就一定能避免交际中“负和游戏”的发生。至于“零和游戏”这种简单的“你输我赢”的思考方式往往会给人们带来更大的麻烦。其实在人与人之间的交往中双方的关系并不是简单

博弈论课后习题

第一章导论 1、什么是博弈?博弈论的主要研究内容是什么? 2、设定一个博弈模型必须确定哪几个方面? 3、举出烟草、餐饮、股市、房地产、广告、电视等行业的竞争中策略相互依存的例子。 4、“囚徒的困境”的内在根源是什么?举出现实中囚徒的困境的具体例子。 5、博弈有哪些分类方法,有哪些主要的类型? 6、你正在考虑是否投资100万元开设一家饭店。假设情况是这样的:你决定开,则的概率你讲收益300万元(包括投资),而的概率你将全部亏损;如果你不开,则你能保住本钱但也不会有利润,请你(a)用得益矩阵和扩展形式表示该博弈;(b)如果你是风险中性的,你会怎样选择?(c)如果你是风险规避的,且期望得益的折扣系数为,你的策略选择是什么?(d)如果你是风险偏好的,期望得益折算系数为,你的选择又是什么? 7、一逃犯从关押他的监狱中逃走,一看守奉命追捕。如果逃犯逃跑有两条可选择的路线,看守只要追捕方向正确就一定能抓住逃犯。逃犯逃脱可以少坐10年牢,但一旦被抓住则要加刑10年;看守抓住逃犯能得到1000元奖金。请分别用得益矩阵和扩展形式表示该博弈,并作简单分析。 第二章完全信息静态博弈 1、上策均衡、严格下策反复消去法和纳什均衡相互之间的关系是什么? 2、为什么说纳什均衡是博弈分析中最重要的概念? 3、找出现实经济或生活中可以用帕累托上策均衡、风险上策均衡分析的例子。 4、多重纳什均衡是否会影响纳什均衡的一致预测性质,对博弈分析有什么不利影响? 5、下面的得益矩阵表示两博弈方之间的一个静态博弈。该博弈有没有纯策略纳什均衡?博弈的结果是什么? 6、求出下图中得益矩阵所表示的博弈中的混合策略纳什均衡。 7、博弈方1和2就如何分10 000元进行讨价还价。假设确定了以下规则:双方同时提出自己要求的数额S1和S2,0≤s1,s2≤10 000,如果s1+s2≤10 000,则两博弈方的要求都得到满足,即分别得到s1和s2,但如果是s1+s2>10 000,则该笔钱就被没收。问该博弈的纯策略纳什均衡是什么?如果你是其中一个博弈方,你会要求什么数额,为什么? 8、设古诺模型中有n家厂商、qi 为厂商i的产量,Q=q1+…+qn 为市场总产量、P为市场出清价格,且已知P=P(Q)=a-Q(当Q<a时,否则P=0)。假设厂商i生产qi产量的总成本为Ci=Ci(qi)=cqi,也就是说没有固定成本且各厂商的边际成本都相同,为常数c(c<a).假设各厂商同时选择产量,该模型的纳什均衡是什么?当n趋向于无穷大时博弈分析是否仍然有效? 9、两寡头古诺模型,P(Q)=a-Q等与上题相同,但量厂商的边际成本不同,分别为c1和c2。如果0<ci <a/2,问纳什均衡产量各为多少?如果c1<c2<a,但2c2>a+c1,则纳什均衡产量又为多少? 10、甲乙两公司分属两个国家,在开发某种新产品方面有下面得益矩阵表示的博弈关系(单位:百万美元)。该博弈的纳什均衡有哪些?如果乙公司所在国政府想保护本国公司利益,有什么好的办法? 11、设一个地区选民的观点标准分布于【0,1】上,竞选一个公职的每个候选人同时宣布他们的竞选立场,即选择0到1之间的一个点。选民将观察候选人们的立场,然后将选票投给立场与自己的观点最接近的候选人。例如有两个候选人,宣布的立场分别为x1=和x2=,那么观点在x=左边的所有选民都会投候选人1的票,而观点在x=右边的选民都会投候选人2的票,候选人1将以60%的选票获胜。再设如果又候选人的立场相同,那么立场相同的候选人将平分该立场所获得的选票,得票领先的候选人票数相同时则用抛硬币决定哪个候选人当选。我们假设候选人唯一关心的知识当选(即不考虑自己对观点的真正偏好),如果又两个候选人,问纯策略纳什均衡是什么?如果又三个候选人,也请作出一个纳什均衡。 12、运用本章的均衡概念和思想讨论下列得益矩阵表示的静态博弈。

博弈论案例分析

(1)失火了,你往哪个门跑 失火了,你往哪个门跑——这就是博弈论 一天晚上,你参加一个派对,屋里有很多人,你玩得很开心。这时候,屋里突然失火,火势很大,无法扑灭。此时你想逃生。你的面前有两个门,左门和右门,你必须在它们之间选择。但问题是,其他人也要争抢这两个门出逃。如果你选择的门是很多人选择的,那么你将因人多拥挤、冲不出去而烧死;相反,如果你选择的是较少人选择的,那么你将逃生。这里我们不考虑道德因素,你将如何选择?这就是博弈论! 你的选择必须考虑其他人的选择,而其他人的选择也考虑你的选择。你的结果——博弈论称之为支付,不仅取决于你的行动选择——博弈论称之为策略选择,同时取决于他人的策略选择。你和这群人构成一个博弈(game)。 上述博弈是一个叫张翼成的中国人在1997年提出的一个博弈论模型,被称之为少数者博弈或少数派博弈(Minority Game)。当然,原来的博弈形式不是这么简单,这里我把它简化了,我们在第三部分论述归纳推理时还要谈这个博弈模型。现在很多学者在研究这个问题。 生活中博弈的案例很多,你会见到很多例子。只要涉及到人群的互动,就有博弈。 什么叫博弈?博弈的英文为game,我们一般将它翻译成“游戏”。而在西方,game的意义不同于汉语中的游戏。在英语中,game即是

人们遵循一定规则下的活动,进行活动的人的目的是使自己“赢”。奥林匹克运动会叫Olympic Games。在英文中,game有竞赛的意思,进行game的人是很认真的,不同于汉语中游戏的概念。在汉语中,游戏有儿戏的味道。因此将关于game的理论,即game theory翻译成博弈论或者对策论,是恰当的。本书下面统称game theory为博弈论。 博弈论的出现只有50多年的历史。博弈论的开创者为诺意曼与摩根斯坦,他们1944年出版了《博弈论与经济行为》。诺意曼是着名的数学家,他同时对计算机的发明作出了巨大贡献,他去世时博弈论还未对经济学产生广泛影响,否则经济学的诺贝尔奖肯定有他的名字,因为诺贝尔奖有规定,只颁发给在世的学者。谈到博弈论,不能忽略博弈论天才纳什(John Nash)。纳什的开创性论文《n人博弈的均衡点》(1950)、《非合作博弈》(1951)等等,给出了纳什均衡的概念和均衡存在定理。今天博弈论已发展成一个较完善的学科。 博弈论对于社会科学有着重要的意义,它正成为社会科学研究范式中的一种核心工具,以至于我们可称博弈论是“社会科学的数学”,或者说是关于社会的数学。从理论上讲,博弈论是研究理性的行动者(agents)相互作用的形式理论,而实际上它正深入到经济学、政治学、社会学等等,被各门社会科学所应用。甚至有学者声称要用博弈论重新改写经济学。1994年经济学诺贝尔奖颁发给三位博弈论专家:纳什、塞尔屯、哈桑尼(),而像1985年获得诺贝尔奖的公共选择学派的领导者布坎南,1995年获得诺贝尔奖的理性主义学派的领袖卢

博弈论导论

Game Theory? Theodore L.Turocy Texas A&M University Bernhard von Stengel London School of Economics CDAM Research Report LSE-CDAM-2001-09 October8,2001 Contents 1What is game theory?4 2De?nitions of games6 3Dominance8 4Nash equilibrium12 5Mixed strategies17 6Extensive games with perfect information22 7Extensive games with imperfect information29 8Zero-sum games and computation33 9Bidding in auctions34 10Further reading38 ?This is the draft of an introductory survey of game theory,prepared for the Encyclopedia of Information Systems,Academic Press,to appear in2002.

Glossary Backward induction Backward induction is a technique to solve a game of perfect information.It?rst consid-ers the moves that are the last in the game,and determines the best move for the player in each case.Then,taking these as given future actions,it proceeds backwards in time, again determining the best move for the respective player,until the beginning of the game is reached. Common knowledge A fact is common knowledge if all players know it,and know that they all know it,and so on.The structure of the game is often assumed to be common knowledge among the players. Dominating strategy A strategy dominates another strategy of a player if it always gives a better payoff to that player,regardless of what the other players are doing.It weakly dominates the other strategy if it is always at least as good. Extensive game An extensive game(or extensive form game)describes with a tree how a game is played. It depicts the order in which players make moves,and the information each player has at each decision point. Game A game is a formal description of a strategic situation. Game theory Game theory is the formal study of decision-making where several players must make choices that potentially affect the interests of the other players.

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两 人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A来说,囚徒B有坦白和不坦白两种可能的选择,假设囚徒B的选择是不坦白,则对囚徒A来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B选择的是坦白,则囚徒A不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B采取何种策略囚徒A的选择只有一种,即坦白,因为在 另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B的唯一 的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则 使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已 经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的 也就会与她一起看时装表演。

博弈论导论

博弈论导论 《博弈论》 主讲:李少斌 Tel:85221808 Email:tlishb@https://www.sodocs.net/doc/7f453091.html, 第0章《博弈论》导论 《博弈论》研究什么, Game Theory 游戏理论,对策论,博弈论 下棋与博弈: 博弈论研究的问题决策及其均衡问题理性经济人(智能的) 行为互动假设:相互影响 经济学研究假设基础 经济学研究内容: 经济学研究的假设基础: 理性经济人新古典经济学的两个基本假定: 完全竞争市场不存在信息不对称问题 博弈论的研究范式 传统经济学研究范式:生产或消费的决策者在做出决策时,假设价格是固定不变的,以此使其效用最大化。决策者是价格的接受者博弈论的突破:决策时考虑到主体的决策行为是互相影响的,即局中人决策时将考虑到其竞争对手的行为,并且预料到竞争对手对其行为的策略式反应;个人的最优选择是其他人选择的函数。价格影响者:互动,相互影响 一、生活中的博弈现象 海滩占位问题 : 二人对称矩阵博弈: 二人矩阵博弈:智猪博弈 公共产品供给问题: 1、海滩占位问题

两个卖矿泉水的小商贩为了争夺在海滩上日光浴的顾客,假若晒太阳的人们在1公理长的沙滩上均匀分布,试问:两个商贩将如何布局, 海滩占位问题求解 帕累托最优: 纳什均衡: 类似的例子 电视台的娱乐节目竞争现象(节目克隆) 总统竞选的竞选纲领问题(尽量争取中间选民) 超市的布局问题不同航空公司飞往同一目的地的航班现象地方政府竞相设立开发区 支付函数的矩阵博弈问题 在现实中最常见的博弈问题通常是二人博弈问题,每一博弈方的行动选择通常只有两种,在这样的博弈问题中双方的得益函数通常可用一个矩阵来描述。如图: 参与人B 参与人A U L a, e R b, f D c, g d, h 2、二人对称矩阵博弈 考查二人对称博弈。双方各有合作和不合作两种策略,其得益支付矩阵如下。由其相对大小确定了不同类型的博弈问题。这里,合作理解为投对方所好,或者说选择对方所希望的策略;不合作可理解为背叛。参与人B 合作不合作合作参与人A 不合作 r, r t, s s, t p, p (1)囚徒困境博弈(t,r,p,s)

博弈论课后习题

博弈论课后习题 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】

第一章导论 1、什么是博弈博弈论的主要研究内容是什么 2、设定一个博弈模型必须确定哪几个方面 3、举出烟草、餐饮、股市、房地产、广告、电视等行业的竞争中策略相互依存的例子。 4、“囚徒的困境”的内在根源是什么举出现实中囚徒的困境的具体例子。 5、博弈有哪些分类方法,有哪些主要的类型 6、你正在考虑是否投资100万元开设一家饭店。假设情况是这样的:你决定开,则的概率你讲收益300万元(包括投资),而的概率你将全部亏损;如果你不开,则你能保住本钱但也不会有利润,请你(a)用得益矩阵和扩展形式表示该博弈;(b)如果你是风险中性的,你会怎样选择(c)如果你是风险规避的,且期望得益的折扣系数为,你的策略选择是什么(d)如果你是风险偏好的,期望得益折算系数为,你的选择又是什么 7、一逃犯从关押他的监狱中逃走,一看守奉命追捕。如果逃犯逃跑有两条可选择的路线,看守只要追捕方向正确就一定能抓住逃犯。逃犯逃脱可以少坐10年牢,但一旦被抓住则要加刑10年;看守抓住逃犯能得到1000元奖金。请分别用得益矩阵和扩展形式表示该博弈,并作简单分析。 第二章完全信息静态博弈 1、上策均衡、严格下策反复消去法和纳什均衡相互之间的关系是什么

2、为什么说纳什均衡是博弈分析中最重要的概念 3、找出现实经济或生活中可以用帕累托上策均衡、风险上策均衡分析的例子。 4、多重纳什均衡是否会影响纳什均衡的一致预测性质,对博弈分析有什么不利影响 5、下面的得益矩阵表示两博弈方之间的一个静态博弈。该博弈有没有纯策略纳什均衡博弈的结果是什么 6、求出下图中得益矩阵所表示的博弈中的混合策略纳什均衡。 7、博弈方1和2就如何分10 000元进行讨价还价。假设确定了以下规则:双方同时提出自己要求的数额S1和S2,0≤s1,s2≤10000,如果 s1+s2≤10 000,则两博弈方的要求都得到满足,即分别得到s1和s2,但如果是s1+s2>10 000,则该笔钱就被没收。问该博弈的纯策略纳什均衡是什么如果你是其中一个博弈方,你会要求什么数额,为什么 8、设古诺模型中有n家厂商、qi 为厂商i的产量,Q=q1+…+qn 为市场总产量、P为市场出清价格,且已知P=P(Q)=a-Q(当Q<a时,否则 P=0)。假设厂商i生产qi产量的总成本为Ci=Ci(qi)=cqi,也就是说没有固定成本且各厂商的边际成本都相同,为常数c(c<a).假设各厂商同时选择产量,该模型的纳什均衡是什么当n趋向于无穷大时博弈分析是否仍然有效 9、两寡头古诺模型,P(Q)=a-Q等与上题相同,但量厂商的边际成本不同,分别为c1和c2。如果0<ci<a/2,问纳什均衡产量各为多少如果c1<c2<a,但2c2>a+c1,则纳什均衡产量又为多少

博弈论的经典案例与分析

博弈论的经典案例与分析 囚徒困境 案例:警察把甲乙分开关押,并在提审时分别告之,如果你坦白而他不坦白,那么你将只判0年,他将被判8年;如果你不坦白而他坦白,那么你判8年,他判0年;如果你们两人都坦白了,各判5年;如果你们两人都不坦白了,各判1年。 分析:每个博弈方选择自己的策略时,虽然无法知道另一方的实际选择,但他却不能忽视另一方的选择对他自己的得益的影响,因此他应该考虑到另一方有两种可能的选择,并分别考虑自己相应的最佳策略。对囚徒A 来说,囚徒B 有坦白和不坦白两种可能的选择,假设囚徒B 的选择是不坦白,则对囚徒A 来说,不坦白得益为-1,坦白得益为0,他应该选择坦白; 假设囚徒B 选择的是坦白,则囚徒A 不坦白得益为-8,坦白得益为-5,他还是该选择坦白。因此,在此博弈中,无论囚徒B 采取何种策略囚徒A 的选择只有一种,即坦白,因为在另一方两种可能的情况下,坦白给自己带来的得益都是较大的。同样的道理,囚徒B 的唯一的选择也是坦白。 所以最可能的结局:该博弈的最终结果是两博弈方同选择坦白策略。 其支付矩阵如下: 性格大战 案例:一对恋人准备在周末晚上一起出去,男的喜欢看足球,但女的喜欢看时装表演。当然两个人都不愿意分开活动。不同的选择给他们带给他们不同的满足。 分析:可以看出,分开将使他们两人得不到任何满足,只要在一起,不管是看时装表演还是看足球,两人都会得到一定的满足。但看足球将使男的得到更大的满足,看时装表演则使女的得到更大的满足。 在这样的一个对局中,男的和女的都没有占优战略。他们的最优侧率依赖于对方的选择,一旦对方选定了某一项活动,另一个人选择同样的活动就是最好的策略。因此,如果男的已经买好了足球的门票,女的当然就不再反对;反之,如果女的已经买好了时装表演票,男的也就会与她一起看时装表演。 1,1 8, 0 不坦白 0,8 5,5 坦白 嫌疑犯乙 不坦白 坦白 嫌疑犯甲 1,2 -1, -1 时装 0,0 2,1 足球 男 时装 足球 女

相关主题