搜档网
当前位置:搜档网 › 浅谈排序多元离散选择模型(非参数统计,西南财大)

浅谈排序多元离散选择模型(非参数统计,西南财大)

浅谈排序多元离散选择模型(非参数统计,西南财大)
浅谈排序多元离散选择模型(非参数统计,西南财大)

浅谈离散选择模型

第一节引言

在实际经济问题的分析中,除可以利用连续变量表示居民消费或企业投资规模,还会遇到一些表示研究对象的数量或状态的离散变量。例如,不仅可以用离散变量0,1,2,3,4,…说明企业每年的专利申请数,而且也可以用离散变量0和1说明企业每年是否申请专利的事项。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个备择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态,将它们更换成数字3和4也未尝不可。于是,在将离散变量理解成仅表示选择状态的基础上,可以进一步地利用离散变量讨论类似家庭是否购房或某人是否有工作等问题。即结合离散变量的具体含义,可以通过以前介绍的虚拟变量描述和分析家庭是否购买住房或某人是否有工作等具体经济问题。在讨论某人是否有工作的问题中,可以将某人有工作的状态用数字l表示,而将没有工作的状态用数字0表示。同样地,在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。如果某个家庭是否购买住房或某人是否有工作的状态仅是作为用于说明某种具体经济问题的自变量,则应用以前介绍的虚拟变量的知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房或某人在一定的条件下是否有工作等问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房或某人是否有工作等虚拟因变量的问题。因为在家庭是否购房或某人是否有工作等选择问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为选择模型。作为最简单的选择模型,可以考虑只具有两个备择对象的两项选择模型。实际上,两项选择模型具有广泛的应用性,它不仅可以用于讨论家庭购房等问题,还可以用于讨论家庭购房是否申请银行贷款、家庭成员是否利用公共交通设施等两者择一的问题。

在最简单的因变量仅取两个不同数的两项反应模型或两项选择模型中,由于回归模型讨论的对象是两者择一的问题,利用取值0或1的虚拟变量表示经济主体的具体选择行为并不影响选择问题的实质性讨论。现在约定在具有备择对象的0和1两项选择模型中,下标t

y表示经济主体的具体选择结果,而影响经表示各不同的经济主体,取值0或l的因变量

t

济主体进行选择的自变量t x ,与自变量t x 相关的回归模型参数),,(1'=k ββ β。于是,存在误差项t u 时,具体描述各经济主体选择结果的因变量t y 的两个响应水平的回归模型就可写成

t t u y +'=βx t

根据描述两个响应水平的回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值始终接近0或l 。如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型式进行必要的修正。

由于两项选择模型的重点在于说明经济主体的对备择对象的选择行为,适当更改两项选择模型的描述方法也不会影响两项选择问题的实质。为此,在两项选择模型中,可以考虑不是将经济主体的确定性选择结果作为分析对象,而是将经济主体具体选择不同备择对象的可能性作为分析对象。换言之,将讨论确定性取值为0或l 的两项选择模型转换成讨论经济主体具体选择0或1的不同备择对象的概率两项选择模型。在具有各择对象的0和1两项选择模型中,对应影响经济主体决策的自变量t x ,如果经济主体选择响应1(1)的概率为

)/(t t x y p 1=,则经济主体选择响应2(0)的概率为1-)/(t t x y p 1=,则

?=1)/(t t x y E )/(t t x y p 1=+?0)/(t t x y p 0==)/(t t x y p 1=

因为两个响应水平的回归模型对应的条件期望值)/(t t x y E 就恰好等于选择对象1的概率)/(t t x y p 1=。于是模型的核心问题就变成如何确定条件表达式的问题。

第二节 二元离散选择模型

一、线性概率模型

作为简单回归模型的扩展,当然可以用βx t '来描述)/(t t y E x ,则 (一)线性概率函数

设Y 是而值响应的观测值,X 是解释变量,则

)/(t x t y E =βt x '+t u ,其中~t u 服从两点分布

称)/(t t x y E =βt x '+t u 为线性概率模型。

(二) 概率模型的特点

线性概率模型有一个最大得缺陷,不能保证拟合值始终在[0,1]范围之内。这就需要对线性概率模型进行必要得修正,在线性函数之外寻找满足概率函数取值要求的回归模型。随机扰动项非正态;可能存在异方差

二、极大似然估计

(一)效用函数

为了使得二元选择问题的研究可能,必须首先建立一个效应函数。在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字 1 表示,而将家庭不购买住房的决策用数字0表示。用1i U 表示第i 个人选择买房的效用,0i U 表示第i 个人选择不买房的效用。其效用均为随机变量,于是有

?????+'

+=+'+=)

2()1(000111i i i i i i U U εαεαβX βX i i

将(1)-(2),得

)()(0101*01i i i i U U εεα-+-'+=-ββX i

记为

***i i u Y +'+=βX i α

这就是二元选择模型。当效用差大于零,则应该选“1”,即购房;当效用差小于零,则应该选“0”,即不购房。

故**(1)(0)()i i i p Y p Y P u α*'==>=>-i X β- (二)最大似然估计

因为 **(1)(0)()i i i p Y p Y P u α*'==>=>-i X β- **(0)(0)()i i i p Y p Y P u α*'==<=<-i X β- 我们假设有以Y 轴为对称的概率密度函数F(.),则

**(1)(0)()1()()i i i p Y p Y P u F F ααα***

'''==>=>-=--=i i i X βX βX β--+ **(0)(0)()()1()i i i p Y p Y P u F F ααα***'''==<=<-=-=-i i i X βX βX β--+

于是模型的似然函数为

120

1

(,,,)1()()i i n Y Y P Y Y Y F F αα**

==''??=-??

∏∏t t X βX β ++

11

1()()i i

n

Y Y i i i L F F αα-**

=''????=-++???

?∏X βX β

两边同时取自然对数,则

{}

1ln ln 1()(1)()n

i i i L Y F Y F αα**

='

'????=-++-+????∑t t X βX β 对数似然函数最大化的一阶条件是

0X βi =??????---+=??∑=n

i i i i i

i i F f Y F f Y L

1)1()1(ln 其中i f 表示某种概率密度函数。

三、Logit 模型

根据以上得分析,我们的问题已经转化为作为i f 有什么形状,即F (.)具有什么样的函数形式。为了对线性概率模型的修正,可以考虑在模型中引入转换函数而保证应变量的取值范围始终位于[0,1]。如果我们取F (.)为逻辑函数(LOGIT )

)

exp(1)exp()(βX βX βX t t t '-'=

'Λ,则

)/(t t x y p 1==)exp(1)exp()(βX βX βX t

t t '-'='Λ

称上式为逻辑回归。

注:因为二值响应模型的因变量取值为0和1,而预测值是概率,所以利用通常的指标衡量模型的说明能力会存在一些不利。如何衡量模型对现实问题的描述能力是一个重要的问题。原则上,可以用可决系数和最大似然比衡量模型的说明能力。

注:

i

i

p p -1机会比率,成败比。 特点:有异方差情形

三、PROBIT 模型

更为一般的情形,如果选择F (.)是标准正态分布,则产生PROBIT 模型。

==)/(t t x y p 1dt t F )21

exp(21

)(2-='?

x i i βX π

(一) 重复观测值不可得情况下

0X βi =??????---+=??∑=n

i i i i i

i i F f Y F f Y L

1)1()1(ln i Y i

i Y i i i i F f F f L

X X βi ∑∑==+--=??10)1(ln i i i X β

X βX ∑=''=

n

i i i i q F q f q 1

)()((

=0

(二) 重复观测值可得情况下

第三节 排序多元离散选择模型

排序多元离散选择模型问题普遍存在于经济生活中。

设 i i i u Y +'+=βX α*

u 服从正态分布,且有零均值,方差为2i σ

开始*

Y 是不可观测的,人们观测到的是

????

?????-∞∈-∞∈∈-∞∈=)

,(),(3

),[2),(1

1*1*21*1*μμμμμY J Y Y Y y 如果如果如果如果 ()

()???

? ??'--Φ=<+'+=<==2111*)1(i i i i i i u P Y P Y P σαμμαμβX βX ()

()???

? ??'--Φ-???? ??'--Φ=<+'+≤=<≤==2122212*1)2(i i i i i i i i u P Y P Y P σαμσαμμαμμμβX βX βX ()

()???

? ??'--Φ-???? ??'--Φ=<+'+≤=<≤==2223323*2)3(i i i i i i i i u P Y P Y P σαμσαμμαμμμβX βX βX ?

()

()???

? ??'--Φ-???? ??'--Φ=<+'+≤=<≤==---2121*1)(i i k i i k k i i k k i k i u P Y P k Y P σαμσαμμαμμμβX βX βX ?

()

()???

? ??'--Φ-=+'+≤=≤==---211

*

11)(i i j i i j k j i u P Y P j Y P σαμαμμβX βX

设样本容量为n 。且k n 是样本中Y =k 的个数,则其似然函数为:

1

21n i i L ???

? ??'--=σαμΦβX × 2

2122n i i i i ???????

????? ??'---???? ??'--σαμΦσαμΦβX βX × 3

2223n i i i i ???????????? ??'---???? ??'--σαμΦσαμΦβX βX × ?×k

n i i k i i k ???????????? ??'---???? ??'---212σαμΦσαμΦβX βX × J

n i i j ???

????????? ??'--Φ--211σαμβX 两边取自然对数,得

模型选择

、水平台法大鼠睡眠剥夺模型复制相关因素的研究与睡眠眠剥夺前相比,体重为190g±30g的大鼠睡眠剥夺1天后,其睡眠时间与睡眠时相,两者相比较无显著性差异;体重为190g±30g的大鼠睡眠剥夺3天后,其睡眠时间与睡眠时相,两者相比较有极显著性差异(P<0.01);体重为190g±30g的大鼠睡眠剥夺5天后,其睡眠时间与睡眠时相,两者相比较有极显著性差异(P<0.01);体重为250g±30g的大鼠睡眠剥夺1天后,其睡眠时间与睡眠时相,两者相比较无显著性差异;体重为250g-30g的大鼠睡眠剥夺3天后,其睡眠时间与睡眠时相,两者相比较有极显著性差异(P<0.01);体重为250g±30g的大鼠睡眠剥夺5天后,其睡眠时间与睡眠时相,两者相比较有极显著性差异(P<0.01);体重为310g±30g的大鼠睡眠剥夺1天后,其睡眠时间与睡眠时相,两者相比较无显著性差异:体重为310g±30g的大鼠睡眠剥夺3天后,其睡眠时间与睡眠时相,两者相比较有极显著性差异(P<0.01);体重为310g±30g的大鼠睡眠剥夺5天后,其睡眠时间与睡眠时相,两者相比较有极显著性差异(P<0.01)。 实验动物的体重与睡眠剥夺时间对水平台法大鼠睡眠剥夺模型的复制有显著地影响。在Wistar大鼠、雄性、体重(250g±30g),连续睡眠剥夺3天的条件下复制的模型较为符合实验要求。

②体重变化:造模开始到结束,观察第0、3、5、8天大鼠体重变化,对照组大鼠体重增加,模型组和三个用药组体重呈现不同程度减轻,与对照组比较,其余四组在4个时间点的体重都有非常显著差异,但四个组之间体重无差异 慢性不完全性睡眠剥夺对幼鼠学习记忆能力 :1.长期REM睡眠剥夺可使大鼠体重明显减轻,失去正常的体重增长曲线。2.REM睡眠剥夺可使大鼠运动活性发生改变。短期和长期的REM睡眠剥夺均可使大鼠的运动活性增加,瘦素可导致长期REM睡眠剥夺大鼠的运动活性降低。3.REM睡眠剥夺与大鼠焦虑行为的变化呈时间相关性。短期REM睡眠剥夺对大鼠焦虑行为无明显影响,长期REM睡眠剥夺可导致大鼠焦虑行为显著减少,而瘦素可消除长期REM睡眠剥夺导致的大鼠焦虑行为减少,因此,瘦素可能参与了REM睡眠剥夺的抗焦虑作用。4.长期REM睡眠剥夺可导致大鼠下丘脑神经肽Y mRNA表达增加,瘦素可抑制大鼠下丘脑神经肽Y mRNA 的表达。同时这种改变与大鼠焦虑行为变化相关,表明瘦素表达的下降,进而导致神经肽Y表达的上调可能是睡眠剥夺导致抗焦虑作用的机制之一

第五章离散选择模型

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,

就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即 我们希望研究买房的可能性,即概率(1) P Y=的大小。 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即 例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即 研究投票者投什么票的可能性,即(),1,2,3 ==。 P Y j j 从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。 离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页) 二、线性概率模型 对于二元选择问题,可以建立如下计量经济模型。

二元离散选择模型案例

第七章 二元离散选择模型案例 1、在一次选举中,由于候选人对高收入者有利,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。 表7.1 样本观测值 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原始模型,而是如下结果: =---+ 1@[( 4.75390.003067*)] YF CONRM X 可以得到不同X值下的Y选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。

2、某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 估计过程如下:

输入变量名,选择Logit参数估计。 得到如下输出结果:

用回归方程表示如下: JGF CONRM XY SC =---+ 1@[(16.110.465035*9.379903*)] 该方程表示,当XY和SC已知时,带入方程,可以计算贷款成功的概率JGF。 3、某研究所1999年50名硕士考生的入学考试总分数(SCORE)及录取情况见表5。考生考试总分数用SCORE表示,Y为录取状态,D1为表示应届生与往届生的虚拟变量。 表7.3 50名硕士考生的入学考试总分数(SCORE)及录取状况数据表

离散选择模型1121

Logistic回归在SPSS中应用讲课人:谢小燕 Email:xiexy@https://www.sodocs.net/doc/da1158258.html,.cm 办公室:通博楼B座211 1

内容 第一节模型的种类和形式 第二节模型系数的检验和拟合优度 第三节应用SPSS完成模型估计和输出解读 2

第一节模型的种类和形式 当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。 3

二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。 多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。 有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。 Probit模型—连接分布函数是标准正态分布函数。 为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。从而理解一些概念。 4

5 一、二元Logistic 模型 在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 1 yes y no ?=?? 考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。 后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。

离散选择模型完整版

离散选择模型 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住

离散选择模型

离散选择模型 集团标准化工作小组 [Q8QX9QT-X8QQB8Q8-NQ8QJ8-M8QMN]

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅

数学建模专题汇总-离散模型

离散模型 § 1 离散回归模型 一、离散变量 如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。 二、离散因变量

在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 10 yes x no ?=?? 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。 三、线性概率模型

现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量i y 表示经济主体的具体选择结果,而影响经济主体进行选择的自变量i x 。如果选择响应 YES 的概率为(1/)i p y =i x ,则经济主体选择响应 NO 的概率为1(1/)i i p y -=x , 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。 根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型 (1/)(/)i i i i i p y x E y x '===x β 011i k ik i x x u βββ=++++L 描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途

离散选择模型在市场研究中的应用

离散选择模型在市场研究中的应用 黄晓兰沈浩 北京广播学院, 北京100024 摘要:离散选择模型是一种复杂、非线性的多元统计分析方法和市场研究技术,主要基于消费者对产品/服务的选择来模拟消费者的购买行为。本文通过手机话费价格研究介绍了离散选择模型的基本原理和操作步骤,以及采用M ultinomial Logit Model计算属性效用值、选择概率和模拟市场占有率,获得价格弹性曲线的方法。 关键词:属性;水平;正交实验设计、选择集、效用值、选择概率、M ultinomial Logit Model 离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。目前,国内在采用该模型进行市场研究方面还是一项空白,本文主要介绍了离散选择模型的基本原理,选择集实验设计、问卷设计、数据收集和处理、模型分析和结果解释等主要操作步骤,并给出了一个手机市场价格研究的应用案例。 1离散选择模型的基本概念和原理 离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。 它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在: ●将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为; 消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针 对性; ●消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确; ●消费者可以做出“任何产品都不购买”的决策,这与现实是一致的; ●实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的

第五周:离散选择模型分析技术——每周一讲多变量分析

第五周:离散选择模型分析技术——每周一讲多变量分析 离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。 根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多! 离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在

给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。 它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。 但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在: ?将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为; 消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针对性; ?消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确; ?消费者可以做出“任何产品都不购买”的决策,这与现实是一致的; ?实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的情况; ?离散选择集能够较好地处理产品属性水平个数(大于4)较多的情况; ?统计分析模型和数据结构更为复杂,但可以模拟更广泛的市场竞争环境; ?模型分析是在消费者群体层面,而非个体层面。 离散选择模型主要采用离散的、非线性的Multinomial Logit统计分析技术,其因变量是消费者在多个可选产品中,选择购买哪一种产品;而自变量是构成选择集的不同产品属性。 目前统计分析软件主要有SAS/STAT统计过程和SAS Market模块,二者均采用SAS/STAT Proc PHREG过程—比例风险回归(Proportional Hazards Regression)分析。另外,Sawtooth 软件公司开发了专用的CBC市场研究分析软件(Choice-Based Conjoint Analysis),该软件集成了从选择集实验设计、问卷生成、数据收集到统计分析,市场模拟等离散选择模型的市

浅谈排序多元离散选择模型(非参数统计,西南财大)

浅谈离散选择模型 第一节引言 在实际经济问题的分析中,除可以利用连续变量表示居民消费或企业投资规模,还会遇到一些表示研究对象的数量或状态的离散变量。例如,不仅可以用离散变量0,1,2,3,4,…说明企业每年的专利申请数,而且也可以用离散变量0和1说明企业每年是否申请专利的事项。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个备择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态,将它们更换成数字3和4也未尝不可。于是,在将离散变量理解成仅表示选择状态的基础上,可以进一步地利用离散变量讨论类似家庭是否购房或某人是否有工作等问题。即结合离散变量的具体含义,可以通过以前介绍的虚拟变量描述和分析家庭是否购买住房或某人是否有工作等具体经济问题。在讨论某人是否有工作的问题中,可以将某人有工作的状态用数字l表示,而将没有工作的状态用数字0表示。同样地,在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。如果某个家庭是否购买住房或某人是否有工作的状态仅是作为用于说明某种具体经济问题的自变量,则应用以前介绍的虚拟变量的知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房或某人在一定的条件下是否有工作等问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房或某人是否有工作等虚拟因变量的问题。因为在家庭是否购房或某人是否有工作等选择问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为选择模型。作为最简单的选择模型,可以考虑只具有两个备择对象的两项选择模型。实际上,两项选择模型具有广泛的应用性,它不仅可以用于讨论家庭购房等问题,还可以用于讨论家庭购房是否申请银行贷款、家庭成员是否利用公共交通设施等两者择一的问题。 在最简单的因变量仅取两个不同数的两项反应模型或两项选择模型中,由于回归模型讨论的对象是两者择一的问题,利用取值0或1的虚拟变量表示经济主体的具体选择行为并不影响选择问题的实质性讨论。现在约定在具有备择对象的0和1两项选择模型中,下标t y表示经济主体的具体选择结果,而影响经表示各不同的经济主体,取值0或l的因变量 t

离散选择模型与在交通行为分析中的应用

离散选择模型与在交通行为分析中的应用 隋拓方 今天,基于智能交通模式下应用离散选择行为分析的交通是国内外的热点。本文首先介绍了离散选择模型的基本原理,包括其概念,其理论基石的效用最大化的理论,和它的四个主要模式(Logit模型,GEV模型,Probit模型,Mixed Logit模型);再以显示离散选择模型的行为在交通中的应用,介绍了上海市快速路系统的背景,探讨驾驶员的信息影响下的路径选择行为的情况。在这种情况下调查方法获得的数据将行为,使用离散选择分析的影响因素,路径选择路由的概率模型,多变量分析,揭示路由信息和虚拟机。案件的结果清楚地反映了有效性离散模型,该方法可应用于交通管理更准确地预测运输需求与运输有关的规划和管理提供科学依据。 离散选择模型:离散选择模型,有时称为定性选择模型,是一个令人兴奋的新的统计方法并风靡全球的市场研究。离散选择模型看起来在客户之间作出选择的产品或服务。通过确定这些模式的选择,离散选择模型是不同的消费者对竞争产品。离散选择模型,使营销人员审查分享影响产品配置,服务捆绑销售,定价和促销的不同类别的客户。为第一时间,企业有一个定量工具的设计和定价的产品优化竞争优势。 四个主要模型:Logit ,GEV ,Probit ,Mixed Logit 离散选择模型的研究真正兴起于19 世纪50 年代末, 属于微观计量经济学的范畴。该模型能够对个体和家庭行为进行经验性的统计分析, 因而在经济学和其他社会科学中得到广泛的应用。本文从离散选择模型的基本性质及效用最大化的理论背景出发, 指出logit 模型虽然使用的是最早并且最为广泛的离散选择模型, 但是其存在着三大局限性: 不能表示随机口味的变化、暗含成比例的替代形式和不能处理不可观测因素在不同期间相关的情形。GEV ( 含嵌套logit) 、pr obit 和混合logit 模型等其他的离散选择模型, 很大程度上都是为了避免这些限制而产生并发展起来的。 SP调查定义:SP调查是指,为了获得“人们对假定条件下的多个方案所表现出来的主观偏好,而进行的实际调查。因此实践证明,SP方法已成为交通出行行为研究中一种重要的工具。 SP调查国内外研究现状: 上世纪70年代末,英国开始交通间题SP调查以后,美国、澳大利亚等也进行了相关调查。80年代,研究人员从理论和实际两方面进行了更为深入的研究,1989年《运输经济与政策学报》上出版了《运输领域的SP方法研究》专辑,使SP调查在交通领域得到进一步推广。近年来,由于交通SP调查有效地弥补了以往RP调查的缺陷,在各国的研究中已经被广泛采用。日本广岛大学大学院国际协力研究科的藤原章正和杉惠赖宁等人将SP调查方法运用在交通预测中。他对SP调查与RP调查进行了比较,并对SP调查的主要过程、注

二元离散选择模型

二元离散选择模型 1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。表8.1样本观测值序号X Y 序号X Y 序号 X Y 11000111100021210012200012120002222001330001313001232300144000141400024240015500015150012525001660001616000262600177000171700127270018800018180002828001990001919001292900110 1000 20 20001 30 3000 1 估计过程如下: 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原是模型,而是如下结果: 1@[( 4.75390.003067*)] YF CONRM X =???+可以得到不通X 值下的Y 选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y 的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。 1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们

的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 表8.2样本观测值 JG XY SC JGF JG XY SC JGF JG XY SC JGF 0125-2001500-20054-10 0599-200960014221 0100-201-80104200.0209 0160-200375-2011821 046-20042-1 6.50E-130801 6.40E-12 080-2015211-501 0133-200172-20032620 0350-101-801026110 12300.9979089-201-2-10.9999 060-200128-20014-2 3.90E-07 070-10160112200.9991 1-8010150-10011310 0400-201542114210.9987 07200028-2015720.9999 0120-1012500.9906014600 14010.999812300.997911501 13510.999911401026-2 4.40E-16 12611049-10089-20 115-10.4472014-10.54981511 069-100610 2.10E-121-9-11 010710140211411 12911030-20054-20 12110112-1013211 13710.9999078-200540 1.40E-07 053-1010010131-20 0194000131-2011501 估计过程如下:

相关主题