搜档网
当前位置:搜档网 › 博弈论概述

博弈论概述

博弈论与企业决策

博弈论与企业决策

第一章概述

第二章博弈论的非技术描述

第三章完全信息静态博弈

第四章完全信息动态博弈

第五章不完全信息静态博弈

第六章不完全信息动态博弈

第一章概述

第一节博弈论与企业决策

第二节博弈论的基本概念

第三节博弈的分类

第四节博弈论的发展简史

第五节本课程基本内容

第一节博弈论与企业决策

一、市场结构与企业决策

1、完全竞争市场

1.市场特点:

厂商假设

产品假设

信息假设

要素假设

2.厂商关系:相互独立影响极小

3.厂商决策:MP=P P市场均衡价格

4.市场性质:理论标尺

第一节博弈论与企业决策

2、完全垄断市场

1.市场特点:

一个厂商

无相近替代品

市场不可进入

2.厂商关系:完全独立

3.厂商决策:MR=P P由市场需求曲线决定

4.市场性质:理论标尺

注意:1.竞争和垄断的两重含义:市场状态和行为

2.垄断厂商的需求曲线弹性不是无穷大的,而是有一

定的弹性,弹性越小越可能垄断。

第一节博弈论与企业决策 3、垄断竞争市场

1.市场特点:

厂商众多

产品差异

自由进退

2.厂商关系:相互影响,不易觉察

3.厂商决策:MR=P P受厂商相互行为影响

4.市场性质:现实市场

第一节博弈论与企业决策

4、寡头垄断市场

1.市场特点:

厂商数量不多

产品同质或差异

需求曲线不确定

2.厂商行为:相互依赖,相互依存

3.厂商决策:MR=P P可能是决策变量

4.市场性质:现实市场

第一节博弈论与企业决策

二、企业决策特点

1、现实市场是垄断竞争和寡头垄断市场

2、现实市场上企业之间的决策是相互依赖,相互影响的

3、传统的自我决策是不行的,企业之间的决策是策略性

决策

举例:二食堂一楼的盖饭(垄断竞争)

一般两荤一素6.5元,有一家涨到10元,结果冷冷清清汽车制造企业的决策(寡头垄断)

见:《中国企业企业广告行为》

第一节博弈论与企业决策

三、博弈论与企业决策

1、博弈论就是研究决策主体的行为发生直接相互作

用时的决策以及这种决策的均衡问题的学科。

2、现实中企业就是相互依赖、相互影响的关系。

3、因此,企业决策必须有博弈论的思想和方法。

第二节博弈论的基本概念

二、博弈的构成要素

1、参与人

参与人是一个博弈的决策主体,他的目的是通过选择行动或战略以最大化自己的支付水平,每个参与人必须有可供选择的行动和一个很好定义的偏好函数。

那些不做决策的被动主体构成环境参数。

哪些人构成参与人要看博弈分析的目的。

参与人可以是自然人、组织、国家甚至国家集团。

虚拟参与人,也叫自然,是指决定外生随机变量概率分布的机制。虚拟参与人没有自己的支付和目标函数,但是它的选择能影响参与人的决策后果。

第二节 博弈论的基本概念

2、行动

行动是参与人在博弈的某个时点的决策变量。 行动空间是指某个参与人i 所有可选择行动的集合。一般用A i 表示,用a i ∈A i 表示参与人i 的一个特定行动。 行动可以是离散的,也可以是连续的。

行动组合是指在n 人博弈中,n 个参与人的某个特定行动所构成的有序集,一般用a=(a 1,...,a i ,...a n )来表示,其中a i 是地i 个参与人的一个特定行动。

行动顺序是指一个博弈中参与人选择行动的先后顺序。行动顺序不一定是指时间概念,更多的是信息概念。因为参与人的行动往往包含参与人属于某种类型的信息。 博弈论一般假设参与人的行动空间和行动顺序是所有参与人的共同知识。

第二节博弈论的基本概念

3、信息

信息是指参与人有关博弈的知识,特别是与有关自然的选择、其他参与人的特征和行动的知识。

信息集是描述参与人信息特征的概念,是指一个参与人无法准确知道的变量的集合。

完美信息是指一个参与人对其他参与人包括自然的行动选择有准确了解的情况,即每一个信息集只包含一个值。

完全信息是指自然不首先行动或者自然的初始行动被所有参与人准确观察到的情况,即没有事前的不确定性。

共同知识是指所有参与人知道,所有参与人知道所有参与人知道,所有参与人知道所有参与人知道所有参与人知道…的知识。共同知识有时被称为一致信念。

第二节 博弈论的基本概念 4、战略(3)分析范式

战略是指参与人在给定信息集的情况下的行动规则,它规定参与人在什么时候选择什么行动。因为信息集包含着一个人有关其他参与人之前行动的知识,战略告诉参与人如何对其他参与人的行动作出反应,所以战略是参与人的相机行动方案。

战略空间是指一个参与人的所有可选择战略的集合。 战略组合是指n 个参与人某个特定战略所构成的有序集合。

一般用s i ∈S i 参与人i 的一个特定战略,S i 是参与人i 的战略空间。s=(s 1,...,s i ,...,s n )表示n 个参与人的一个战略组合,其中s i 是第i 个参与人的一个特定战略。

第二节博弈论的基本概念

战略与行动的关系:战略是行动的规则,行动是在战略规定下具体的选择变量。在静态博弈中只有行动,无所谓战略,因为在静态博弈中参与人同时行动,其他参与人的行动是不可观察的。而在动态博弈中行动和战略是有区别的。

作为行动规则,参与人的战略必须是完备的,它要给出参与人在每一种可想象到的情况下的行动选择,即使参与人并不预期这种情况会实际发生。事实上,一种特定情况是否着你的发生,往往依赖于参与人的战略。

弱的怕强的,强的怕横的,横的怕不要命的。

第二节博弈论的基本概念

5、支付

支付是指在一定的战略组合下参与人得到的确定效用水平或者是指参与人得到的期望效用水平。我们假定,每一个参与人的偏好都可以由一个v-N-M期望效用函数来代表。

令u i是第i个参与人的支付,u=(u1,...,u i,...,u n)为n个参与人的支付组合。

注意:博弈的一个重要特征是一个参与人的支付不仅取决于自己的战略选择,而且取决于所有其它参与人的战略选择,所以参与人的支付是所有参与人的战略选择的函数: u i=u i(s1,...,s i,...,s n)

第二节博弈论的基本概念

6、结果

结果是博弈分析者(当然包括博弈的参与人)所感兴趣的所有东西,包括均衡战略组合、均衡行动组合、均衡支付组合等。

第二节博弈论的基本概念7、均衡

均衡是所有参与人的最优战略的组合,一般记为 s*=(s1*,...,s i*,...,s n*)

其中s

i *是第i个参与人在均衡情况下的最优战略,给定其他参

与人的战略组合s

-i =(s1,...,s i-1,s i+1,...,s n)。说s i*是给定s-i情况

下参与人i的最优战略,意味着

u i(s i*,s-i)≥u i(s i',s-i) 对于所有的s i'≠s i* ,对于所有的i=1,...,n

均衡和结果的关系:均衡是指所有人的最优战略组合,而结果是这个最优战略组合下所有可能出现的东西。

注意:均衡在物理中是各种力的抵消的结果,在经济学中是个人最大化的结果,而在博弈论中参与人最大化效用的最优战略组合。

第二节博弈论的基本概念

三、博弈论

博弈论是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题的理论。

第三节博弈的分类

一、按照博弈的参与人的人数分类

1、单人博弈

含义:单人博弈就是只有一个参与人的博弈。

特点:由于不存在其他参与人对博弈中唯一参与人的决策和行为的反应和反作用,单人博弈已经退化为一般的最优化问题。

单人博弈作为个体最优化问题,参与人用的信息越多越好,决策的准确性越高,得益就越好。但是在两人及两人以上博弈中,拥有信息优势不一定能使参与人境况变好。

当然个体拥有信息必须符合效率原则,即信息的收集、加工、应用应该是有效率的。

博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、 决策主体是理性的,最大化自己的收益。 2、 完全理性是共同知识 3、 每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、 传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P ,I),其中P 为市场价格,I 为消费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

(完整版)博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、 决策主体是理性的,最大化自己的收益。 2、 完全理性是共同知识 3、 每个参与人被假定为可以对所处环境以及其他参与者的行为形成正确的信念 与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完全信息) 等的信息。 完全信息:每个参与人对其他参与人的支付函数有准确的了解;完美信息:在博弈过程的任何时点每个参与人都能观察并记忆之前各局中人所选择的行动,否则为不完美信息。 不完全信息:参与人没有完全掌握其他参与人的特征、战略空间及支付函数等信息,即存在着有关其他参与人的不确定性因素。 支付:决策主体在博弈中的收益。在博弈中支付是所有决策主题所选择的行动的函数。 从经济学的角度讲,博弈是决策主体之间的相互作用,因此和传统个人决策存在着区别: 3、博弈论与传统决策的区别: 1、 传统微观经济学的个人决策就是在给定市场价格、消费者收入条件下,最大化自己 效用,研究工具是无差异曲线。可表示为:maxU(P ,I),其中P 为市场价格,I 为消费者可支配收入。 2、 其他消费者对个人的综合影响表示为一个参数——市场价格,所以在市场价格既定 下,消费者效用只依赖于自己的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相比,扩展式博弈更注重对参与人在博弈过程中遇到决策问题时序列结构的分析。 包含要素: 1、 参与人集合 {1,2,...,}n Γ={1,2,...,}n Γ=11(,...,,...,)n i i n i s s s s ==∏

博弈论知识点总结

博弈论知识点总结

博弈论知识总结 博弈论概述: 1、博弈论概念: 博弈论:就是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。 博弈论研究的假设: 1、决策主体是理性的,最大化自己 的收益。 2、完全理性是共同知识 3、每个参与人被假定为可以对所处 环境以及其他参与者的行为形成正确的 信念与预期 2、和博弈有关的变量: 博弈参与人:博弈中选择行动以最大化自己受益的决策主体。 行动:参与人的决策选择 战略:参与人的行动规则,即事件与决策主体行动之间的映射,也是参与人行动的规则。 信息:参与人在博弈中的知识,尤其是其他决策主体的战略、收益、类型(不完 全信息)等的信息。

1、

2、 既定下,消费者效用只依赖于自己 的收入和偏好,不用考虑其他消费者的影响。但是在博弈论理个人效用函数还依赖于其他决策者的选择和效用函数。 4、博弈的表示形式:战略式博弈和扩展式博弈 战略式博弈:是博弈问题的一种规范性描述,有时亦称标准式博弈。 战略式博弈是一种假设每个参与人仅 选择一次行动或战略,并且参与人同时进行选择的决策模型,因此,从本质上来讲战略式博弈是一种静态模型,一般适用于描述不需要考虑博弈进程的完全信息静态博弈问题。 1、参与人集合 : 2、每位参与人非空的战略集 S i 3、每位参与人定义在战略组合 上的效用函数Ui(s1,s2,…,sn). 扩展式博弈:是博弈问题的一种规范性描述。 与战略式博弈侧重博弈结果的描述相 比,扩展式博弈更注重对参与人在博弈过程 {1,2,...,} n Γ=11 (,...,,...,) n i i n i s s s s ==∏

浅谈博弈论中的囚徒困境的解决方法

浅谈博弈论中的囚徒困境的解决方法 摘要:囚徒困境是博弈论中的一个重要范例,这个问题涉及各个领域。本文通过三个简单的实例,来谈谈解决的方法。 案例一:一个面馆的囚徒困境 我曾经在路边一个小店里吃面,由于当时客人不是很多,就顺便与小老板聊了起来。通过老板的介绍听出了一些门道。以前面馆开店的时候请了一个师傅,开始的时候为了调动他的积极性他们采用按销售量分成,一碗面给5毛钱提成。这样的话,客人越多他挣得也就越多,为了吸引更多的顾客,他在碗里放很多的肉来吸引回头客,一碗面才6块钱,本来就靠薄利多销,他放的肉多,面馆自然也赚不到钱。后来呢,就换了一个结算方式,给厨师发固定的工资,这样客人多少跟他没有什么关系,但是新的问题又出现了,这次他在碗里放肉放很少,基本上把所有的客人都赶走了。客人少了,他就轻松了啊反正他拿的是固定的工资。通过这个案例我们可以了解到面馆的老板与厨师在工资的分配上存在一定的分歧,由于没有处理好,使得双方都处在不利的结局。 解决方法:面馆的老板应该对厨师明确,每碗面的元材料是固定的,大师傅的工资还是按照销售量提成走,但是前题是每个月使用的原材料不能超额,否则只有基本工资。或者就规定每碗面里就放多少克肉。此外,还有一个更简单的办法就是:面馆的小老板亲自放肉。因为关键的资源一定要掌握在关键的人手里。 经过以上的分析,我们可以得知解决的方法:1.工资加提成的制度确实能调动员工的积极性;2.权利下放可以,但是要有度;3.员工的工资提成不能只和销量挂钩,应该和老板的利润挂钩。4.有效的沟通、激励,平时给员工传达精神的奖励,让员工认为自己也是公司的主人。 案例二:小餐馆的囚徒困境 在天津新建的一片经济适用房社区里有两家小餐馆,他们都是经营当地的家常炒菜及快餐。因为这里是新开发的经济适用房,而周边像小饭馆这样的生活配套设施很缺乏,所以附近的建筑工人都是在这两家小饭馆解决三餐。 这两家餐馆因为在口味、价格、菜的品种等都基本相同,所以一直以来这两家面对都是这些人,营业额都差不多,而附近的建筑工人们对于吃饭也没有什么特殊的爱好。好景不长,就在今年的夏天,两家餐馆的其中一家,暂且称为A

博弈论“囚徒困境”的四种形式

博弈论中的“囚徒困境” 摘要:“囚徒困境”模型是博弈论中的经典范例,它是1950年Tucker提出的,其完全信 息下的静态博弈为广大博弈论的工作者和初学者所掌握,成为解释生活现象的有力工具。其实“囚徒困境”模型随着博弈论的深入发展,具有各种不同的形式,通常分为:完全信息的静态博弈,完全信息的动态博弈,不完全信息的静态博弈及不完全信息的动态博弈四种形式。本文将对“囚徒困境”的这四种形式作一个简单的介绍和分析。 关键词:博弈论囚徒困境经济 一、完全信息静态“囚徒困境”博弈 完全信息静态“囚徒困境”博弈部分地奠定了非合作博弈论的理论基础。 它的基本模型是:警察抓住了两个合伙犯罪的罪犯,由于缺乏足够的证据指证他们的罪行,所以希望这两人中至少有一人供认犯罪,就能确认罪名成立。为此警察将这两个罪犯分别关押以防止他们串供,并告诉他们警方的政策是“坦白从宽,抗拒从严”:如果两人中只有一人坦白认罪,则坦白者立即释放,而另一人则将重判5年徒刑;如果两个同时坦白认罪,则他们将各判3年监禁。当然罪犯知道如果他们两人都拒不认罪,则警方只能以较轻的妨碍公务罪判处他们1 年徒刑。 用矩阵表示两个罪犯的得益如下(得益向量的第一个数字是囚徒1的得益,第二个数字是囚徒2的得益) : 囚徒2 囚 徒 1 (表1) 假定两个罪犯熟悉彼此,这便是一个同时行动的完全信息静态博弈。容易看出,由于对

于每个囚徒而言,无论对方选择什么策略,坦白都是自己的最优策略,所以(坦白,坦白) 是博弈的Nash均衡。 二、完全信息动态“囚徒困境”博弈——重复“囚徒困境”博弈 研究重复博弈的意义在于基本博弈会重复进行,比如犯罪团伙会被警方多次审讯,日常生活中买卖会重复进行,国际间的战争此伏彼起。而且人们也发现基本博弈的重复进行并非基本博弈的简单累加,比如商业中的回头客问题。 下面继续以表1所示的“囚徒困境”模型为例对多重博弈进行探讨。首先观察“囚徒困境”的有限博弈,以T记基本博弈的重复次数。博弈重复进行所耗时间会比较长,支付的时间价值必须考虑,记r为折现因子。在有限博弈的情况下,可简化在r = l 的情况下讨论,并采用动态博弈的逆向归纳法进行研究: 先分析t = T阶段两博弈方的选择,这仍然是一个基本的囚徒困境博弈,此时前一阶段的结果已成为事实,又无后续阶段,因此不难得出结论,这一阶段的结果是(坦白,坦白),双方得益( -3 ,-3)。现在回到t = T -1阶段,理性的博弈方对于后一阶段的结局非常清楚,其结果必然是(坦白,坦白),因此不管现阶段的博弈结果是什么,双方在本阶段以后的最终得益都是在本阶段得益的基础上各加上-3,此时的得益矩阵是: 囚徒2 囚 徒 1 (表2) 容易看出,坦白仍是两博弈方的严格优超策略,即(坦白,坦白) 是T - 1阶段的唯一的纯Nash均衡。以此往上类推,每阶段“囚徒困境”博弈的结果都是博弈双方采用坦白,所以T次重复博弈的子博弈精炼Nash均衡是每个博弈阶段双方都采用坦白。 再考虑“囚徒困境”博弈重复无数次。因为无限博弈没有最终阶段,所以不能运用逆向归纳法求解。考虑博弈双方都采用“冷酷战略”:( 1 ) 开始阶段选择抵赖;( 2 )选择抵赖直到有一方选择了坦白,为了报复对手的背叛,以后都选择坦白。假定囚徒j 严格执行上述冷酷战略,考察囚徒i 的最优策略是否为冷酷战略:如果i 在博弈的某个阶段首先选择了坦白,他在该阶段得到0,而不是-1,但他的这次背叛会遭到囚徒j的永远惩罚,因此i 在随后每个阶段的支付都是-3 。如果下列条件满足,给定j没有选择坦白,i将不会选择坦白: 22 0+r(-3)+r(3)-1+r(-1)+r(-1) -+≤+ ……,即: 31 11 r r r -≤- -- 解上述不等式得:r≥1/3 (这个条件容易满足)。就是说,如果r ≥1/3,给定j 坚持冷酷战略并且j没有首先坦白,i不会选择首先坦白。进一步假定j首先选择坦白,那么i 是否有积极性坚持冷酷战略以惩罚j的不合作行为?如果i 坚持冷酷战略,他随后每个阶段的支付是-3,但如果他选择其他战略,他在任何单一阶段的支付都不会大于-3,因此,无论r是多大,i都有积极性坚持冷酷战略。在博弈重复无数次的情况下,只要r>1/3,子博

浅析博弈中的囚徒困境

浅析博弈中的囚徒困境 班级: 姓名: 学号:

摘要:囚徒困境是博弈论的非零和博弈中具代表性的例子,个人最佳选择并非团体最佳选择,个人理性有时会导致集体的非理性——机关算尽却因而作茧自缚,这就是囚徒困境所反映的问题。 一经典的囚徒困境 “囚徒困境”是1950年美国兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·塔克(Albert Tucker)以囚徒方式阐述,并命名为“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人隐瞒,则揭发者因为立功而立即获释,隐瞒者因不合作而入狱五年;若互相揭发,则因证据确实,二者都判刑三年。 从集体上看,他们应当互相合作,都隐瞒,这样总服刑时间最短(为2年)。但他们会仔细考虑对方可能采取什么样的选择,并从自身利益出发做出选择。他们会意识到,如果同伙隐瞒而自己背叛,就能使自身利益最大化(0年)。但他也意识到,他的同伙也不傻,也会这样来设想,这样的话,他就更不可能让同伙得利(服刑0年)而自己受害(服刑5年)所以结论就是,唯一正确的选择就是背叛同伙,把一切都告诉警方,如果他的同伙保持隐瞒,那么他就会是那个获释出狱,服刑0年。而如果他的同伙也向警方交代了,那么,他只需服刑3年而不是5年。所以结果只能是两个囚犯都坐牢服刑3年,而不是都服刑1年。所以对于他们个人来说都是理性的,然而对集体来说却是非理性的。 二重复多次 如果囚徒困境的情况重复多次,会有什么新的变化?假设重复10次。我们可以合理地设想,如果囚徒第一次被对方指控,第二次这个囚徒也会指控对方。相反,如果第一次相反,如果第一次别人保持隐瞒,建立了互信的关系,你也会保持隐瞒,导致最优。当然,两个囚徒都会有相似的想法,在第一局保持隐瞒,以期望建立互信关系,所以双方都会保持隐瞒。第二局时,双方亦应有相似的想法,继续保持隐瞒,以期继续在互信的情况下进行第三局,

浅析囚徒困境与纳什均衡

浅析囚徒困境 囚徒困境是博弈论的非零和博弈中具代表性的例子,指反映个人最佳选择并非团体最佳选择。 囚徒困境的经典案例这里不再复述,让我们看一下身边的例子。囚徒困境在生活中最常见的表现就是挤公共汽车。从集体理性的角度来看,按次序上车是最有效率的做法,但是你挤我不挤,我就可能上得慢,所以每个人的最优战略都是挤,结果上车就更慢了。学生也同样遭遇囚徒困境:减轻中小学生过重负担喊了20多年,仅1985年至2000年的15年里,中央就下达“减负令”49次。但实际情况却是学生课业负担不但没减下来,反倒呈现出越演越烈之势,致使学生作业做到深夜、节假日仍然上课、业余时间奔忙于各种补习班等。可见“减负令”难以见效,中小学生课业负担不减反增。 又比如近年来炒得火热的楼市——“我没买房,结果房价还是涨了,因为我们无法保证大家都不买房。可是,我错了吗?没有。当初如果我买房了,房价下跌了呢?因为我不能保证大家都买房。人们根本不能预知在疾风暴雨式的调控之下,房价竟还能且调且涨。可是,我对了吗?没有。”这是一部眼下流行、充满黑色幽默的网络视频《北漂族的无房生活》中的经典对白。含泪的“调侃”折射出当下楼市的“囚徒困境”:买,难担高房价重负;不买,难受房价节节攀升的煎熬。 再看中国的法治之路。虽然法治让所有人都长期受益,甚至执政者自己也不例外,但是一个狭隘理性社会却偏偏无力支撑法治,以至最后每个理性人都不得不忍受法治缺位的非理性之苦。绝大多数中国人都是很识时务的理性人,不会故意给自己找茬,多数律师也不例外。不过,任何事物都有两面性,“理性”过了头也就成了非理性。这就是充斥着当今中国社会的“囚徒困境”:一种行为模式对于个人看起来是很理性的,但是对于个人构成的集体来说却是非理性的,最后对于每个人来说也是非理性的。我们都不敢站出来说话,对每个人来说都是很“理性”的一种行为方式,但最后的结果只能是让整个社会丧失法治。 但囚徒困境一定是坏事吗?就以囚徒困境的经典案例来说,作为一个比喻,我们会为囚犯不能合作而遗憾;可是如果它发生在现实中,我们就巴不得他们不能合作。 然而如果是多次博弈,人们就有了合作的可能性,囚徒困境就有可能破解,合作就有可能达成。连续的合作有可能成为重复的囚徒困境的均衡解,这也是博弈论上著名的“大众定理”的含义。但合作的可能性不是必然性。博弈论的研究表明,要想使合作成为多次博弈的均衡解,博弈的一方(最好是实力更强的一方)必须主动通过可信的承诺,向另一方表示合作的善意,努力把这个善意表达清楚,并传达出去。比如在楼市的囚徒困境中,政府能适当调控房价,给予购房者房价稳定合理的承诺,那么楼市的囚徒困境是有可能破解的。 在重复的囚徒困境中,博弈被反复地进行。因而每个参与者都有机会去“惩罚”另一个参与者前一回合的不合作行为。这时,合作可能会作为均衡的结果出

博弈论论文囚徒困境的启示和思考

囚徒困境的启示和思考 二、囚徒困境的解释 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑8年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑1年,总体利益更高,结果也比两人背叛对方、判刑8年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。 实际上囚徒困境在我们的实际生活中也有很多,下面举两个进行说明

三、经济学例子:关税战 两个国家,在关税上可以有以两个选择: 提高关税,以保护自己的商品。(背叛) 与对方达成关税协定,降低关税以利各自商品流通。(合作) 当一国因某些因素不遵守关税协定,独自提高关税(背叛),另一国也会作出同样反应(亦背叛),这就引发了关税战,两国的商品失去了对方的市场,对本身经济也造成损害(共同背叛的结果)。然后二国又重新达成关税协定。(重复博弈的结果是将发现共同合作利益最大。) 四、商业例子:广告战 商业活动中亦会出现各种囚徒困境例子。以广告竞争为例。 两个公司互相竞争,二公司的广告互相影响,即一公司的广告较被顾客接受则会夺取对方的部分收入。但若二者同时期发出质量类似的广告,收入增加很少但成本增加。但若不提高广告质量,生意又会被对方夺走。 此二公司可以有二选择: 互相达成协议,减少广告的开支。(合作) 增加广告开支,设法提升广告的质量,压倒对方。(背叛) 若二公司不信任对方,无法合作,背叛成为支配性策略时,二公司将陷入广告战,而广告成本的增加损害了二公司的收益,这就是陷入囚徒困境。在现实中,要二互相竞争的公司达成合作协议是较为困难的,多数都会陷入囚徒困境中。 除了这些还有的很多类似的例子,比如说公共产品的提供,商家的价格战等等,在这里就不多赘述了。 五、“囚徒困境”现象的意义和启示 通过以上几个关于囚徒困境的例子,特别是作为经济管理学院的学生,我们可以将博弈论的一些知识运用好,更好的指导我们的经济生活。理论的重要意义在于类似的情况之下给人们社会经济生活带来指导。在经济发展中,我们应该认识到“看不见的手”还有更多内涵,有待我们去发掘。 本文主要通过对该理论的分析,从中发现对企业经营管理活动的有义启示。 第一,在市场竞争过程中,一名优秀的经营者,无论做任何决策还是考虑问题应该有战略眼观,特别是在做出对企业乃至行业今后发展的竞争策略时,从长远出发,做正确的决断。 第二,保存对手就是保存自己。在市场竞争中,让竞争对手发展就是自己发展,本着求同存异的思想,共谋发展,避免恶性竞争,避免两败俱伤的情况。 第三,市场竞争不是纯粹的竞争,在义和利之间应该如何取舍,是一位有战略眼观的企业家该做的第一个选择。 2杜兰:走出“囚徒困境”《通信企业管理》[J] 2003年第4期,第31页

《博弈与信息—博弈论概论》odd12

ODD Answers to Odd-Numbered Problems,4th Edition of Games and Information, Rasmusen PROBLEMS FOR CHAPTER12:Bargaining .26March2005.11November2005.Erasmuse@https://www.sodocs.net/doc/1417031256.html,.https://www.sodocs.net/doc/1417031256.html,. This appendix contains answers to the odd-numbered problems in the fourth edition of Games and Information by Eric Rasmusen,which I am working on now and perhaps will come out in2006.The answers to the even-numbered problems are available to instructors or self-studiers on request to me at Erasmuse@https://www.sodocs.net/doc/1417031256.html,. Other books which contain exercises with answers include Bierman&Fernandez (1993),Binmore(1992),Fudenberg&Tirole(1991a),J.Hirshleifer&Riley(1992),Moulin (1986),and Gintis(2000).I must ask pardon of any authors from whom I have borrowed without attribution in the problems below;these are the descendants of problems that I wrote for teaching without careful attention to my sources.

博弈论之囚徒困境

博弈论之囚徒困境 阿普顿是普林斯大学的高材生,毕业后被安排在爱迪生身边工作,他对依靠自学而没有文凭的爱迪生很不以为然。一次,爱迪生要阿普顿算出梨形玻璃泡的容积,阿普顿点点头,心想:这么简单的事一会几就行了。只见他拿来梨形玻璃泡,用尺上下量了几遍,再按照武样在纸上画好革田,列出了一道算式,算来算去,算得满头大汗仍没算出来。一连换了几十个公式,还是没结果,阿普顿惠得满脸通红,狼狈不堪。爱迪生在实验室等了很久,觉得奇怪,便走到阿普顿的工作问,看到几张白纸上密密麻麻的算式.便笑荚说:“您这样计算太浪费时间了。”只见爱迪生将一杯水倒连玻璃泡内,交给阿普顿说:“再找个量筒来就知道答案了。”阿普顿茅塞顿开,终于对爱迪生敬服.最后成为爱迪生事业上的好助手。有时候。科学并不一定意味着烦琐的计算与剥量,而是一种有浓厚艺术气息的思维方式。前者固然可以得出正确的结论,但是后者同样可以用一种出入意表的方式曲径通幽。这种方式,与我们在生活中运用博弈科学有异曲同工之妙。大量的教学模型吓不倒我们,因为我们可以对它们置之不理。有一个脑筋息转弯问题是这样的:在什么情况下零大干二,二大干五,五又大干零’答案是:在玩“石头.剪刀.布”游戏的时候。 博弈.就是用这种游戏思维来突破看似无法改变的局面,解决现实的严肃问题的策略。在博弈中,每个参与者都在特定条件下争取其最大利益,强差一者来必胜券在握,弱者也未必永无出头之日。因为在博弈中,特别是多十参与者的博弈中,结果不仅取决干参与者的实

力与策略,而且还取决于其他参与者的制约和策略。事实上,博弈过程本来就不过是一种日常现象。我们在日常生活中经常薷要先分析他人的意田从而做出合理的行为选择,而所谓博弈就是行为者在一定环境条件和规则下,选择一定的行为或策略加以实施并取得相应结果的过程。 博弈论首先是我们思索现实世界的一套逻辑,其次才是把这套逻辑严密化的数学形式。博弈论的目的在于巧妙的策略,而不是解法。我们学习博弈论的目的.不是为了享受博弈分析的过程,而在于赢得更好的结局。说到底,博弈论毕竟只是一个分析问题的工具,用这个工具来简化问题,使问题的分析清晰明了也就够了。博弈的思想既然来自现实生活,它就既可以高度抽象化地用教学工具来表述,也可以用日常事例来说明,并运用到生活中去。 在斯大林时代的苏联,有一位乐队指挥坐火车前往下一个演出地点。正当他在车看当晚就要指挥演奏的作品乐谱时。两名克格勃(KGB,苏联国家安全警察。实际是政治特务将他作为间谍逮捕了。他们以为那乐谱是某种密码,这位乐队指挥争辩说那只是柴可夫斯基的小提琴协奏曲,却无济于事。在乐队指挥被投入牢房的第二天,审问者自鸣得意地走进来说:“我看你最好还是老实招了吧,我们已经抓住你的朋友柴可夫斯基了.他这会儿正向我们交代呢。你如果再不招就枪毙了你。如果交代了,只判你10年。”笑过之后,每个人都会思考其中所蕴涵的东西。但是如果认为这个笑话仅仅讽刺了克格勃特务的无知与无耻,那是不够的。事实上,克格勃们的花招,是想运

博弈论 蒋文华 浙江大学

第一讲、博弈论概述 献给诸位 知人者智,自知者明; 胜人者力,自胜者强; 小胜者术,大胜者德。 第一章何为“博弈” 博:博览全局弈:对弈棋局→谋定而动 是指在一定的游戏规则约束下,基于直接相互作用的环境条件,各参与人依据所掌握的信息,选择各自的策略(行动),以实现利益最大化的过程。 第一节从一个简单的故事说起 博弈时要搞清楚对手是谁!博弈时要搞清楚和别人比什么!

行为选择既跟对手的情况有关,又跟所遇到的外部环境的变化有关。 特别提示: 博弈既可以是竞争,也可以是合作! 特别提示: 博弈,必须学会换位思考! 特别提示: 博弈,只需领先一步,高人一筹! 博弈就是你中有我,我中有你。由于直接相互作用(互动),每个博弈参与者的得益不仅取决于自己的策略(行动),还取决于其他参与者的策略(行动)。博弈的核心在于整体思维基础上的理性换位思考,用他人的得益去推测他人的策略(行动),从而选择最有利于自己的策略(行动)。 特别提示: 站在别人的立场上想一想,就是为自己未来的遭遇着想。——米兰·昆德拉

如果因为对方眼中的你的傻,而让对方更愿意和你合作,何乐而不为呢?(大智若愚)特别提示: 请不要在一个充分竞争的市场去追求成功! 特别提示: 选对市场(对手)比选对策略更重要! 特别提示: 在博弈之前,博弈就已经开始了! 第二节博弈的渊源 一、中国的理解 博+弈=下围棋 略观围棋,法于用兵,怯者无功,贪者先亡。

----汉代刘向,《围棋赋》二、西方的理解 game(规则) 费厄泼赖(fairplay) 第三节学习博弈论的收益一、当局者清 更有利的选择 更快速的反应 二、旁观者更清 理解历史与现实 预测未来的发展

博弈论中的囚徒困境在生活中的应用

博弈论中的囚徒困境在生活中的应用 囚徒困境最早出现在1950年,由就职于兰德公司的梅里尔·弗勒德(Merrill Flood)和梅尔文·德雷希尔(Melvin Dresher)拟定出相关困境的理论,后来由顾问艾伯特·(AlbertTucker)以囚徒方式阐述,并命名为“囚徒困境”。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: 若一人认罪并作证检控对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 若二人都互相检举(互相“背叛”),则二人同样判监2年。 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: (1)若对方沉默、背叛会让我获释,所以会选择背叛。 (2)若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。 这场博弈的纳什均衡,显然不是顾及团体利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,两人都只会被判刑半年,总体利益更高,结果也比两人背叛对方、判刑2年的情况较佳。但根据以上假设,二人均为理性的个人,且只追求自己个人利益。均衡状况会是两个囚徒都选择背叛,结果二人判决均比合作为高,总体利益较合作为低。这就是“困境”所在。例子漂亮地证明了:非零和博弈中,帕累托最优和纳什均衡是相冲突的。 一,囚徒困境之于异地恋

论囚徒困境

简析博弈论中的囚徒困境 囚徒困境是博弈论的非零和博弈中具代表性的例子,反映个人最佳选择并非团体最佳选择。虽然困境本身只属模型性质,但现实中的价格竞争、环境保护等方面,也会频繁出现类似情况。 经典的囚徒困境 警方逮捕甲、乙两名嫌疑犯,但没有足够证据指控二人入罪。于是警方分开囚禁嫌疑犯,分别和二人见面,并向双方提供以下相同的选择: ?若一人认罪并作证检举对方(相关术语称“背叛”对方),而对方保持沉默,此人将即时获释,沉默者将判监10年。 ?若二人都保持沉默(相关术语称互相“合作”),则二人同样判监半年。 ?若二人都互相检举(互相“背叛”),则二人同样判监2年。 用表格概述如下: 甲沉默(合作)甲认罪(背叛) 乙沉默(合作)二人同服刑半年甲即时获释;乙服刑10年 乙认罪(背叛)甲服刑10年;乙即时获释二人同服刑2年 如同博弈论的其他例证,囚徒困境假定每个参与者(即“囚徒”)都是利己的,即都寻求最大自身利益,而不关心另一参与者的利益。参与者某一策略所得利益,如果在任何情况下都比其他策略要低的话,此策略称为“严格劣势策略”,理性的参与者绝不会选择。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底应该选择哪一项策略,才能将自己个人的刑期缩至最短?两名囚徒由于隔绝监禁,并不知道对方选择;而即使他们能交谈,还是未必能够尽信对方不会反口。就个人的理性选择而言,检举背叛对方所得刑期,总比沉默要来得低。试设想困境中两名理性囚徒会如何作出选择: 若对方沉默、背叛会让我获释,所以会选择背叛。 若对方背叛指控我,我也要指控对方才能得到较低的刑期,所以也是会选择背叛。 二人面对的情况一样,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是两种策略之中的支配性策略。因此,这场博弈中唯一可能达到的纳什均衡,就是双方参与者都背叛对方,结果二人同样服刑2年。

囚徒困境博弈的行为博弈均衡分析

囚徒困境博弈的行为博弈均衡分析 Christopher Stephens: Modelling Reciprocal Altruism, The British Journal for the Philosophy of Science, vol.47, No.4, 1996, pp.533-551. 互动利他主义建模 1、利他主义困惑与标准模型 The altruism puzzle and the standard model 在一个囚徒困境博弈中,每个博弈者都有两种可能选择:背叛(Defect)或合作(Cooperate),可一般表示为: 囚徒困境博弈要求两个主要条件:(1)Y>W>Z>X(命令条件,The ordering condition);(2)(Y+X)<2W(反利用条件,The anti-exploitation condition) 尽管“背叛”策略是一次性博弈中每个博弈者的优超选择,但相互合作却比相互背叛要好。 2、利他主义的非正式条件 Informal condition for reciprocal altruism 3、对反利用条件的Axelrod证明的批评 Criticism of Axelrod’s justification of the anti-exploitation condition 4、相互利他主义的一组正式模型 A menu of formal models of reciprocal altruism 5、对于guppies、baboons和bats模型的互动利他主义建模 Modelling reciprocal altruism in guppies, baboons, and bats (1)建模guppies的同时合作

经典的囚徒困境

经典的囚徒困境 1950年,由就職於兰德公司的梅里尔·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式阐述,並命名为「囚徒困境」。经典的囚徒困境如下: 警方逮捕甲、乙两名嫌疑犯,但沒有足够证据指控二人入罪。於是警方分开囚禁嫌疑犯,分别和二人见面,并向雙方提供以下相同的选择: ?若一人認罪並作证检控對方(相關術語稱「背叛」對方),而對方保持沉默,此人将即時獲释,沉默者将判監10年。 ?若二人都保持沉默(相關術語稱互相「合作」),则二人同樣判监半年。 ?若二人都互相检举(互相「背叛」),則二人同樣判監2年。用表格概述如下: 解說 如同博弈論的其他例證,囚徒困境假定每個參與者(即「囚徒」)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,

此策略稱為「嚴格劣勢」,理性的參與者絕不會選擇。另外,没有任何其他力量干预个人决策,参与者可完全按照自己意愿选择策略。 囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方选择;而即使他们能交谈,還是未必能夠盡信對方不會反口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何作出選擇: ?若對方沉默、我背叛會讓我獲釋,所以會選擇背叛。 ?若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。 二人面對的情況一樣,所以二人的理性思考都会得出相同的结论——选择背叛。背叛是兩種策略之中的支配性策略。因此,这場博弈中唯一可能达到的纳什均衡,就是雙方参与者都背叛對方,結果二人同樣服刑2年。 这場博弈的纳什均衡,顯然不是顧及團體利益的帕累托最优解决方案。以全体利益而言,如果两个参与者都合作保持沉默,兩人都只會被判刑半年,总体利益更高,結果也比兩人背叛對方、判刑2年的情況較佳。但根據以上假設,二人均為理性的個人,且只追求自己個人利益。均衡狀況會是兩個囚徒都选择背叛,结果二人判监均比合作為

博弈论中经典案例--“囚徒困境”

博弈论中经典案例--“囚徒困境” 博弈论中有一个经典案例--“囚徒困境”。两个共谋犯罪的人被关入监狱,不能互相沟通情况。如果两个人都不揭发对方,则由于证据不确定,每个人都坐牢一年;若一人揭发,而另一人沉默,则揭发者因为立功而立即获释,沉默者因不合作而入狱十年;若互相揭发,则因证据确实,二者都判刑八年。由于囚徒无法信任对方,因此倾向于互相揭发,而不是同守沉默。囚犯可以做出如下选择:1、供出他的同伙(即与警察合作,从而背叛他的同伙),2、保持沉默(也就是与他的同伙合作,而不是与警察合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。

A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。囚徒困境模型的几个现实例子囚徒困境的例子在现实生活中很多。比如国家与国家之间的军备竞赛,显然,各国都不把大量的财富花在可能永远都用不上的军备上是最佳选择。可是,如果别的国家不把钱花在军备上,我们花,那么我们会在两国外交和贸易中占得优势,拥有国际影响力,在未来战争中赢得胜利。如果别国把钱花在军备上,我们也花,那么我们至少可以不吃亏。所以,不管别的国家把钱花不花在军备上,我们把大把大把的钱花在军备上都是优势选择。所以,我们会把钱花在军备上。显然,别国也会这样想。结果是各国都会把大把大把的钱花在军备上,而且还互相攀比,想要胜过对方,占得优势,以便给对方造成压力。这就造成了军备竞赛,你花一百亿,我花一百五十亿。你花一百五十亿啊,那么我花两

囚徒困境(博弈论的经典案例)

囚徒困境(博弈论的经典案例) 学习管理学或经济学的人一定都了解一些博弈论方面的知识。在博弈论中有一个经典案例--囚徒困境,非常耐人回味。 囚徒困境,说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被警察发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与警察合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与警察合作)。 这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。----那么,这两个囚犯该怎么办呢? 是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上

意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的诱惑力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。 当然,在现实世界里,信任与合作很少达到如此两难的境地。谈判、人际关系、强制性的合同和其他许多因素左右了当事人的决定。但囚徒的两难境地确实抓住了不信任和需要相互防范背叛这种真实的一面。让我们看看冷战时期两个超级大国将自己锁定在一场40年的军备竞赛中,其结果对双方都毫无益处。还有各国的贸易保护主义的永恒倾向。----但是,无论在自然界还是在人类社会,合作都是一种随处可见的现象。 那么,问题就出现了:到底是何种机制促使生物体或者人类进行相互合作呢?----这个问题的答案大部分归功于美国密西根大学一位叫做罗伯特·爱克斯罗德的人。爱克斯罗德是一个政治科学家,对合作的问题久有研究兴趣。为了进行关于合作的研究,他组织了一

博弈论经典案例“囚徒困境”以及其拓展

博弈论经典案例“囚徒困境”以及其拓展 05-06-13 10:57 发表于:《没有范的世界》分类:未分类 博弈论(game theory)对人的基本假定是:人是理性的(rational,或者说自私的),理性的人是指他在具体策略选择时的目的是使自己的利益最大化,博弈论研究的是理性的人之间如何进行策略选择的。 “囚徒困境” “囚徒困境”是博弈论里最经典的例子之一。讲的是两个嫌疑犯(A和B)作案后被警察抓住,隔离审讯;警方的政策是"坦白从宽,抗拒从严",如果两人都坦白则各判8年;如果一人坦白另一人不坦白,坦白的放出去,不坦白的判10年; 如果都不坦白则因证据不足各判1年。 在这个例子里,博弈的参加者就是两个嫌疑犯A和B,他们每个人都有两个策略即坦白和不坦白,判刑的年数就是他们的支付。可能出现的四种情况:A和B均坦白或均不坦白、A坦白B不坦白或者B坦白A不坦白,是博弈的结果。A和B均坦白是这个博弈的纳什均衡。这是因为,假定A选择坦白的话,B最好是选择坦白,因为B坦白判8年而抵赖却要判十年;假定A选择抵赖的话,B最好还是选择坦白,因为B坦白判不被判刑而抵赖确要被判刑1年。即是说,不管A坦白或抵赖,B的最佳选择都是坦白。反过来,同样地,不管B是坦白还是抵赖,A的最佳选择也是坦白。结果,两个人都选择了坦白,各判刑8年。在(坦白、坦白)这个组合中,A和B都不能通过单方面的改变行动增加自己的收益,于是谁也没有动力游离这个组合,因此这个组合是纳什均衡。 囚徒困境反映了个人理性和集体理性的矛盾。如果A和B都选择抵赖,各判刑1年,显然比都选择坦白各判刑8年好得多。当然,A和B可以在被警察抓到之前订立一个"攻守同盟",但是这可能不会有用,因为它不构成纳什均衡,没有人有积极性遵守这个协定。 在经济学方面的实例: 一.电信价格竞争 根据我国电信业的实际情况,我们来构造电信业价格战的博弈模型。假设此博弈的参加者为电信运营商A与B, 他们在电信某一领域展开竞争,一开始的价格都是P0。A(中国电信)是老牌企业,实力雄厚,占据了绝大多数的市场份额;B(中国联通)则刚刚成立不久,翅膀还没有长硬,是政府为了打破垄断鼓励竞争而筹建起来的。 正因为B是政府扶植起来鼓励竞争的,所以B得到了政府的一些优惠,其中就有B的价格可以比P0低10%。这一举动,还不会对A产生多大的影响,因为A的根基实在是太牢固了。在这样的市场分配下,A、B可以达到平衡,但由于B在价格方面的优势,市场份额逐步壮大,到了一定程度,对A造成了影响。这时候,A该怎么做?不妨假定: A降价而B维持,则A获利15,B损失5,整体获利10; A维持且B也维持,则A获利5,B获利10,整体获利15;

相关主题