搜档网
当前位置:搜档网 › 离散选择模型1121

离散选择模型1121

离散选择模型1121
离散选择模型1121

Logistic回归在SPSS中应用讲课人:谢小燕

Email:xiexy@https://www.sodocs.net/doc/3812572734.html,.cm

办公室:通博楼B座211

1

内容

第一节模型的种类和形式

第二节模型系数的检验和拟合优度

第三节应用SPSS完成模型估计和输出解读

2

第一节模型的种类和形式

当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。

3

二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。

多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。

有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。

Probit模型—连接分布函数是标准正态分布函数。

为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。从而理解一些概念。

4

5

一、二元Logistic 模型

在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。

1

yes y no

?=??

考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。

后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。

则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。

6

根据经典线性回归,我们知道其总体回归方程是根据条件期望建立的,这使我们想象可以构造线性概率模型

011(1/)(/)i i i i i i k ik i p y x E y x x x u βββ'====++++x β

根据统计数据得到的回归结果,预测概率并不一定能够保证界于[0,1]。如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途就受到很大的限制。为避免出现回归模型的因变量预测值偏离0或1的情形,需要限制因变量的取值范围并对回归模型进行必要的修正。

为了使得二元选择问题的有进一步研究可能,首先建立一个效用函数。在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。用1i U 表示第i 个人选择买房的效用,0i U 表示第i 个人选择不买房的效用。其效用均为随机变量,于是有

7

1

1

110000(1)(2)

i

i

i i U u U u αα'?=++??'

=++??i i X βX β

将(1)-(2),得

()101010

12()()i i i i U U u u αα'-=-+-+-i X ββ

记:

*10i i i y U U =-

*12ααα=-

*10=-βββ *10i i i u u u =-

则有 ****i i Y u α'=++i X β,格林称该模型为潜回归方程。

这是二元选择模型的切入点。称*

i Y 为过渡变量(潜在的),这个变量是不可观测

8

的。

当效用差*

i Y 大于零,则应该选“1”,即购房; 当效用差*

i Y 小于零,则应该选“0”,即不购房。

故()****(1)(0)()1i i i p Y p Y P u F αα**

''==>=>-=--i i X βX β-- ()****(0)(0)()i i i p Y p Y P u F αα**

''==≤=≤-=-i i X βX β--

此处已经通过*

i Y ,将自变量与事件发生的概率联系起来了。为概率提供了一个潜在的结构模型。

现在的问题是()F ?服从何种分布?()F ?既然是分布函数,则必须满足分布函数的条件。称()F ?为连接函数,采用累积标准正态概率分布函数的模型称作Probit 模型,或概率单位模型,用正态分布的累积概率作为Probit 模型的预测概率。另外logistic 函数也能满足这样的要求,采用logistic 函数的模型称作logit 模型,或对数单位模

9

型。

logistic 函数形式为()1x

x

e F x e =+。

该模型的形式为

(1)

ln

1(1)

i i i i p y u p y ='=+-=x β

011(1)ln ...1(1)

i i ik k i i p y x x u p y βββ==++++-= 其中,xi 是第i 个样本点自变量观测向量,β是参数向量。yi 是表示第i 个样本的取值。 xij 表示第i 个样本点第j 个自变量观测值。

模型的含义是:机率((1)

1(1)

i i p y p y =-=)的对数是解释变量的线性函数。等价的模

型为

10

011(1)

exp(...)1(1)

i i ik k i i p y x x u p y βββ==++++-=

可解释为机率是解释变量的以e 为底的指数函数。其系数解释为自变量增加一个单位,则机率增减EXP(βj)-1。如果βj 是正的,则机率增加,如果βj 为负机率减少。

11

二、多元Logistic 模型

如果被解释变量的取值不止两个,比如出行的交通工具的选择,对政府的某项政策的态度,赞成、反对和弃权。对于j=1,2,…,J 类的非序次反应模型,多项LOGIT 回归模型可以通过以下形式描述

(|)

ln

,1,2,...,1(|)

i i p y j j J p y J ='==-=i j x x βx

多项LOGIT 回归模型以第J 个选择的概率为对比基准。第j 个选择的概率与第J 个选择的概率之比的自然对数是解释变量的线性函数。等价的模型为

(|),1,2,...,1(|)

i i p y j e j J p y J '===-=i j x β

x x

这个模型最终会估计出J-1个常数项和J-1组系数向量。第J 个选择的概率可以通过J 个选择的概率和为1来得到。即

(|)i p y J =x

12

1(1|)(2|)...(1|)i i i p y p y p y J =-=-=--=-x x x

系数的含义可以做如下的解释,因为

(|)ln ,1,2,,1

(|)i j i p y j j J p y J ??

='==-??=??

i x x βx 所以

(|),1,2,,1(|)

i j i i p y j e j J p y J '===-=x β

x x

当其它条件不变的条件下,当k x 增加一个单位,则

(|,,)(|,,),1,2,,1(|,,)(|,,11)

jk k k k k p y j p y J e j J p y j J x x y x p x β

====-==++

可见其参数的解释为:当其它变量不变的条件下,第k 个变量k x 增加一个单位时,y=j 的概率与y=J 的概率比可望增加(减少)

()1100%

eβ-

jk

至于是增加还是减少,要视的符号而定。

13

14

三、有序Logistic 回归

当被解释变量的取值之间有序次,比如饮料的口感好坏中差,客户的信用等级1,2,3,4和5。这时模型要构造有序的离散选择模型。不妨假设y 有J 个取值。模型的结构为

()

ln

,1,2,...,1

1()

j p y j j J p y j μ≤'=+=--≤i x β (),1,2,...,11()

j p y j e j J p y j μ'+≤==--≤i x β

模型的含义是,选择小于等于j 的概率与选择大于j 的概率之比取对数后是解释变量的线性函数。该模型会估计出J-1个常数项μj (j=1,2,…,J-1),SPSS 称其为门槛值,外加一组系数回归系数。

15

四、Probit 模型

更为一般的情形,如果选择分布函数F (.)为标准正态分布,则产生PROBIT 回归模型。

2

11(1/)()exp()22i i i i i p p y t dt π

'-∞'===Φ=-?

x β

x x β(二分类logistic 回归)

2

11(/)()exp()22i i i i i p p y j t dt π

'-∞

'=≤=Φ=-?

x β

x x β(有序多分类logistic 回归)

第二节模型系数的检验和拟合优度

一、模型系数的检验

模型系数的检验是基于卡方分布的WALD统计量,该统计量自由度为1。实际上是系数的估计值与标准差之比的平方。

二、回归模型评价

(一)拟合优度(Goodness of fit)

1、皮尔逊2χ统计量(Pearson2χ)

在回归分析中我们常常引入自变量,在这里称为协变量(covariate)。

在固定的样本规模n下,协变量类型越多,则每个协变量分组越多,则每组中的个案则越少。皮尔逊2χ统计量检验协变量分组中,预测的次数与观测的次数之间是否拟合得很好。

16

0:

H协变量类型中的实际观测值的与预测值没有差异

1:

H协变量类型中的实际观测值的与预测值有显著差异

统计量为

()2 2

1

??

(1)

n

i

i i i

residuals

np p

=

χ=

-

当样本容量足够大是该统计量服从自由度为J-k-1的2χ分布。其中J是种类数,k是自变量个数。这个统计量是如何计算的呢?

2、偏差

观测值与预测值的拟合优度,还可以用对数似然函数表示。以?

S

L为设定模型的极大似然函数,它概括了样本数据由这个模型所拟合的程度。就如像在线性回归模型

中我们有一个残差平方和

2

1

?

()

n

i i

i

y y

n k

=

-

-

一样,它想象最完美模型的预测值就是观测值

17

18

本生。在逻辑斯蒂回归模型中类似的统计量为

22ln /~()S D L df n k =-χ- (8)

0H :设定模型与最完美的模型没有显著性差异; 1H :最完美的模型比设定模型好。

这个最完美的模型只可想象,是存在的,但不可及。当S L 值相对较小时,则D 较大,支持设定模型与完美模型有显著的差异,设定模型不佳。如果当S L 值相对完美几乎相等,则D 较小,设定模型拟合情况好。

实际上该检验的统计量是对数似然函数的-2倍除以(协变量类型个数减估计参数),即2ln /L df -。

注:局限性是不宜用在连续协变量情形。当模型中的协变量为连续性变量时,D 和皮尔逊2χ统计量则不适合,因为协变量过多的拟合值,导致了过多的协变量类型。

19

3、Hosmer-Lemeshow 拟合指标

Hosmer-Lemeshow 拟合指标仅仅针对二值响应的模型。当连续性变量作为协变量进入模型,协变量类型(组)太多,会导致一些协变量类型中不存在任何样本点。在样本容量n 一定的条件下,每个协变量组中的个案数太少。

Hosmer-Lemeshow 拟合指标的思想是:将预测概率值数据分为大致相等规模的10个组,将观测值按其预测概率升序排列。第一组包括估计概率最小的组,最后一组包括估计概率最大的组。

221?()~(1)??(1)G

g g g g g g g y n p HL G k n p

p =-=χ---∑

其中G (10≤)代表分类组数,g n 为第g 组中的案例数;g y 为第g 组事件的观

测数量;?g g n p

为事件的预测数。用SAS 的LOGISTIC 模块的LACKFIT 可以计算出Hosmer-Lemeshow 统计量,但是仅仅对二值响应模型。

20

4、信息测量指标

另一些评价模型好坏的指标是信息测量指标。它们是AIC ,BIC 和SC 准则函数。若干个模型相比,一般来说AIC 、BIC 和SC 准则函数越小越好。 (二)回归模型预测准确性

与线性回归模型一样,逻辑斯蒂回归也有类似可决系数的统计量,来说明模型的拟合优度。 1、类2R 指数

Cox 和Snell(1989),Maddala(1983)以及Magee(1990)建议,用

2/2

0?1?n

s L R L ??=- ?

??

表示模型预测情况的优劣。

第五章离散选择模型

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,

就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例5.1 研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住房的心理价位很难观测到,但我们可以观察到是否购买了住房,即 我们希望研究买房的可能性,即概率(1) P Y=的大小。 例5.2 分析公司员工的跳槽行为。员工是否愿意跳槽到另一家公司,取决于薪资、发展潜力等诸多因素的权衡。员工跳槽的成本与收益是多少,我们无法知道,但我们可以观察到员工是否跳槽,即 例5.3 对某项建议进行投票。建议对投票者的利益影响是无法知道的,但可以观察到投票者的行为只有三种,即 研究投票者投什么票的可能性,即(),1,2,3 ==。 P Y j j 从上述被解释变量所取的离散数据看,如果变量只有两个选择,则建立的模型为二元离散选择模型,又称二元型响应模型;如果变量有多于二个的选择,则为多元选择模型。本章主要介绍二元离散选择模型。 离散选择模型起源于Fechner于1860年进行的动物条件二元反射研究。1962年,Warner首次将它应用于经济研究领域,用于研究公共交通工具和私人交通工具的选择问题。70-80年代,离散选择模型被普遍应用于经济布局、企业选点、交通问题、就业问题、购买行为等经济决策领域的研究。模型的估计方法主要发展于20世纪80年代初期。(参见李子奈,高等计量经济学,清华大学出版社,2000年,第155页-第156页) 二、线性概率模型 对于二元选择问题,可以建立如下计量经济模型。

二元离散选择模型案例

第七章 二元离散选择模型案例 1、在一次选举中,由于候选人对高收入者有利,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。 表7.1 样本观测值 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原始模型,而是如下结果: =---+ 1@[( 4.75390.003067*)] YF CONRM X 可以得到不同X值下的Y选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。

2、某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 估计过程如下:

输入变量名,选择Logit参数估计。 得到如下输出结果:

用回归方程表示如下: JGF CONRM XY SC =---+ 1@[(16.110.465035*9.379903*)] 该方程表示,当XY和SC已知时,带入方程,可以计算贷款成功的概率JGF。 3、某研究所1999年50名硕士考生的入学考试总分数(SCORE)及录取情况见表5。考生考试总分数用SCORE表示,Y为录取状态,D1为表示应届生与往届生的虚拟变量。 表7.3 50名硕士考生的入学考试总分数(SCORE)及录取状况数据表

离散选择模型1121

Logistic回归在SPSS中应用讲课人:谢小燕 Email:xiexy@https://www.sodocs.net/doc/3812572734.html,.cm 办公室:通博楼B座211 1

内容 第一节模型的种类和形式 第二节模型系数的检验和拟合优度 第三节应用SPSS完成模型估计和输出解读 2

第一节模型的种类和形式 当遇到被解释变量是分类变量时,我们可能选择离散选择模型来建立变量间的因果关系,而不是用线性回归方程。这类模型可以用来了解客户的信用度、消费者的消费行为、癌症是否转移、医生是否选择多点从业和出行选择何种交通工具等。根据被解释变量分类变量和概率分布函数的类型,产生了不同的离散选择模型。 3

二元Logistic模型—如果被解释变量是二分变量,连接分布函数(link function)为逻辑斯蒂函数。 多元Logistic模型—如果被解释变量是多分类无序次变量,连接分布函数为逻辑斯蒂函数。 有序Logistic模型—如果被解释变量是多分类有序次变量,连接分布函数为逻辑斯蒂函数。 Probit模型—连接分布函数是标准正态分布函数。 为了说明这类模型的机理,我们以二元Logistic回归为例,介绍模型形成过程。从而理解一些概念。 4

5 一、二元Logistic 模型 在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 1 yes y no ?=?? 考虑某个家庭在一定的条件下是否购买住房问题时,表示状态的虚拟变量作为一个被说明对象的因变量出现在经济模型中。 后面变量下标i 表示各不同的样本点,取值0或l 的因变量i y 表示第i 个样本点具体选择,而影响其进行选择的自变量i x 。如果选择响应YES 的概率为(1/)i p y =i x ,则经济主体选择响应NO 的概率为1(1/)i i p y -=x 。 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。

离散选择模型完整版

离散选择模型 HEN system office room 【HEN16H-HENS2AHENS8Q8-HENH1688】

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅有家庭收入、房屋价格,还有房屋的所在环境、人们的购买心理等,所以人们购买住

离散选择模型

离散选择模型 集团标准化工作小组 [Q8QX9QT-X8QQB8Q8-NQ8QJ8-M8QMN]

第五章离散选择模型 在初级计量经济学里,我们已经学习了解释变量是虚拟变量的情况,除此之外,在实际问题中,存在需要人们对决策与选择行为的分析与研究,这就是被解释变量为虚拟变量的情况。我们把被解释变量是虚拟变量的线性回归模型称为离散选择模型,本章主要介绍这一类模型的估计与应用。 本章主要介绍以下内容: 1、为什么会有离散选择模型。 2、二元离散选择模型的表示。 3、线性概率模型估计的缺陷。 4、Logit模型和Probit模型的建立与应用。 第一节模型的基础与对应的现象 一、问题的提出 在研究社会经济现象时,常常遇见一些特殊的被解释变量,其表现是选择与决策问题,是定性的,没有观测数据所对应;或者其观测到的是受某种限制的数据。 1、被解释变量是定性的选择与决策问题,可以用离散数据表示,即取值是不连续的。例如,某一事件发生与否,分别用1和0表示;对某一建议持反对、中立和赞成5种观点,分别用0、1、2表示。由离散数据建立的模型称为离散选择模型。 2、被解释变量取值是连续的,但取值的范围受到限制,或者将连续数据转化为类型数据。例如,消费者购买某种商品,当消费者愿意支付的货币数量超过该商品的最低价值时,则表示为购买价格;当消费者愿意支付的货币数量低于该商品的最低价值时,则购买价格为0。这种类型的数据成为审查数据。再例如,在研究居民储蓄时,调查数据只有存款一万元以上的帐户,这时就不能以此代表所有居民储蓄的情况,这种数据称为截断数据。这两种数据所建立的模型称为受限被解释变量模型。有的时候,人们甚至更愿意将连续数据转化为上述类型数据来度量,例如,高考分数线的设置,就把高出分数线和低于分数线划分为了两类。 下面是几个离散数据的例子。 例研究家庭是否购买住房。由于,购买住房行为要受到许多因素的影响,不仅

数学建模专题汇总-离散模型

离散模型 § 1 离散回归模型 一、离散变量 如果我们用0,1,2,3,4,…说明企业每年的专利申请数,申请数是一个离散的变量,但是它是间隔尺度变量,该变量类型不在本章的讨论的被解释变量中。但离散变量0和1可以用来说明企业每年是否申请专利的事项,类似表示状态的变量才在本章的讨论中。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个选择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态。本专题讨论有序尺度变量和名义尺度变量的被解释变量。 二、离散因变量

在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。 10 yes x no ?=?? 如果x 作为说明某种具体经济问题的自变量,则应用以前介绍虚拟变量知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房的问题。因为在家庭是否购房问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为离散选择模型。 三、线性概率模型

现在约定备择对象的0和1两项选择模型中,下标i 表示各不同的经济主体,取值0或l 的因变量i y 表示经济主体的具体选择结果,而影响经济主体进行选择的自变量i x 。如果选择响应 YES 的概率为(1/)i p y =i x ,则经济主体选择响应 NO 的概率为1(1/)i i p y -=x , 则(/)1(1/)0(0/)i i i i i i E y p y p y =?=+?=x x x =(1/)i i p y x =。 根据经典线性回归,我们知道其总体回归方程是条件期望建立的,这使我们想象可以构造线性概率模型 (1/)(/)i i i i i p y x E y x '===x β 011i k ik i x x u βββ=++++L 描述两个响应水平的线性概率回归模型可推知,根据统计数据得到的回归结果并不一定能够保证回归模型的因变量拟合值界于[0,1]。如果通过回归模型式得到的因变量拟合值完全偏离0或l 两个数值,则描述两项选择的回归模型的实际用途

离散选择模型在市场研究中的应用

离散选择模型在市场研究中的应用 黄晓兰沈浩 北京广播学院, 北京100024 摘要:离散选择模型是一种复杂、非线性的多元统计分析方法和市场研究技术,主要基于消费者对产品/服务的选择来模拟消费者的购买行为。本文通过手机话费价格研究介绍了离散选择模型的基本原理和操作步骤,以及采用M ultinomial Logit Model计算属性效用值、选择概率和模拟市场占有率,获得价格弹性曲线的方法。 关键词:属性;水平;正交实验设计、选择集、效用值、选择概率、M ultinomial Logit Model 离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。目前,国内在采用该模型进行市场研究方面还是一项空白,本文主要介绍了离散选择模型的基本原理,选择集实验设计、问卷设计、数据收集和处理、模型分析和结果解释等主要操作步骤,并给出了一个手机市场价格研究的应用案例。 1离散选择模型的基本概念和原理 离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。 它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在: ●将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为; 消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针 对性; ●消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确; ●消费者可以做出“任何产品都不购买”的决策,这与现实是一致的; ●实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的

第五周:离散选择模型分析技术——每周一讲多变量分析

第五周:离散选择模型分析技术——每周一讲多变量分析 离散选择模型(Discrete Choice Model),也叫做基于选择的结合分析模型(Choice-Based Conjoint Analysis,CBC),是一种非常有效且实用的市场研究技术。该模型是在实验设计的基础上,通过模拟所要研究产品/服务的市场竞争环境,来测量消费者的购买行为,从而获知消费者如何在不同产品/服务属性水平和价格条件下进行选择。这种技术可广泛应用于新产品开发、市场占有率分析、品牌竞争分析、市场细分和价格策略等市场营销领域。同时离散选择模型也是一种处理离散的、非线性的定性数据的复杂高级多元统计分析技术,它采用Multinomial Logit Model进行数据统计分析。 根据Sawtootch公司调查显示:在市场研究中,CBC方法正在快速增长,应用比传统的结合分析(联合分析)应用更多! 离散选择模型主要用于测量消费者在实际或模拟的市场竞争环境下如何在不同产品/服务中进行选择。通常是在正交实验设计的基础上,构造一定数量的产品/服务选择集(Choice Set),每个选择集包括多个产品/服务的轮廓(Profile),每一个轮廓是由能够描述产品/服务重要特征的属性(Attributes)以及赋予每一个属性的不同水平(Level)组合构成。例如消费者购买手机的重要属性和水平可能包括:品牌(A,B,C)、价格(1500元,1750万元,2000元)、功能(短信,短信语音,图片短信)等,离散选择模型是测量消费者在

给出不同的产品价格、功能条件下是选择购买品牌A,还是品牌B或者品牌C,还是什么都不选择。离散选择模型的一个重要的假定是:消费者是根据构成产品/服务的多个属性来进行理解和作选择判断;另一个基本假定是:消费者的选择行为要比偏好行为更接近现实情况。 它与传统的全轮廓结合分析(Full Profiles Conjoint Analysis)都是在全轮廓的基础上采用分解的方法测量消费者对某一轮廓(产品)的选择与偏好,对构成该轮廓的多个属性和水平的选择与偏好,用效用值(Utilities)来描述。 但是,它与传统的结合分析的最大区别在于:离散选择模型不是测量消费者的偏好,而是获知消费者如何在不同竞争产品选择集中进行选择。因此,离散选择模型在价格研究中是一种更为实际、更有效、也更复杂的技术。具体表现在: ?将消费者的选择置于模拟的竞争市场环境,“选择”更接近消费者的实际购买行为; 消费者的选择行为要比偏好态度更能反映产品不同属性和水平的价值,也更具有针对性; ?消费者只需做出“买”或“不买”的回答,数据获得更容易,也更准确; ?消费者可以做出“任何产品都不购买”的决策,这与现实是一致的; ?实验设计可以排除不合理的产品组合,同时可以分析产品属性水平存在交互作用的情况; ?离散选择集能够较好地处理产品属性水平个数(大于4)较多的情况; ?统计分析模型和数据结构更为复杂,但可以模拟更广泛的市场竞争环境; ?模型分析是在消费者群体层面,而非个体层面。 离散选择模型主要采用离散的、非线性的Multinomial Logit统计分析技术,其因变量是消费者在多个可选产品中,选择购买哪一种产品;而自变量是构成选择集的不同产品属性。 目前统计分析软件主要有SAS/STAT统计过程和SAS Market模块,二者均采用SAS/STAT Proc PHREG过程—比例风险回归(Proportional Hazards Regression)分析。另外,Sawtooth 软件公司开发了专用的CBC市场研究分析软件(Choice-Based Conjoint Analysis),该软件集成了从选择集实验设计、问卷生成、数据收集到统计分析,市场模拟等离散选择模型的市

浅谈排序多元离散选择模型(非参数统计,西南财大)

浅谈离散选择模型 第一节引言 在实际经济问题的分析中,除可以利用连续变量表示居民消费或企业投资规模,还会遇到一些表示研究对象的数量或状态的离散变量。例如,不仅可以用离散变量0,1,2,3,4,…说明企业每年的专利申请数,而且也可以用离散变量0和1说明企业每年是否申请专利的事项。在专利申请数的问题中,离散变量0,1,2,3和4等数字具有具体的经济含义,不能随意更改;而在是否申请专利的两个备择对象的选择问题中,数字0和1只是用于区别两种不同的选择,是表示一种状态,将它们更换成数字3和4也未尝不可。于是,在将离散变量理解成仅表示选择状态的基础上,可以进一步地利用离散变量讨论类似家庭是否购房或某人是否有工作等问题。即结合离散变量的具体含义,可以通过以前介绍的虚拟变量描述和分析家庭是否购买住房或某人是否有工作等具体经济问题。在讨论某人是否有工作的问题中,可以将某人有工作的状态用数字l表示,而将没有工作的状态用数字0表示。同样地,在讨论家庭是否购房的问题中,可将家庭购买住房的决策用数字1 表示,而将家庭不购买住房的决策用数字0表示。如果某个家庭是否购买住房或某人是否有工作的状态仅是作为用于说明某种具体经济问题的自变量,则应用以前介绍的虚拟变量的知识就足够了。如果现在考虑某个家庭在一定的条件下是否购买住房或某人在一定的条件下是否有工作等问题时,则表示状态的虚拟变量就不再是自变量,而是作为一个被说明对象的因变量出现在经济模型中。因此,需要对以前讨论虚拟变量的分析方法进行扩展,以便使其能够适应分析类似家庭是否购房或某人是否有工作等虚拟因变量的问题。因为在家庭是否购房或某人是否有工作等选择问题中,虚拟因变量的具体取值仅是为了区别不同的状态,所以将通过虚拟因变量讨论备择对象选择的回归模型称为选择模型。作为最简单的选择模型,可以考虑只具有两个备择对象的两项选择模型。实际上,两项选择模型具有广泛的应用性,它不仅可以用于讨论家庭购房等问题,还可以用于讨论家庭购房是否申请银行贷款、家庭成员是否利用公共交通设施等两者择一的问题。 在最简单的因变量仅取两个不同数的两项反应模型或两项选择模型中,由于回归模型讨论的对象是两者择一的问题,利用取值0或1的虚拟变量表示经济主体的具体选择行为并不影响选择问题的实质性讨论。现在约定在具有备择对象的0和1两项选择模型中,下标t y表示经济主体的具体选择结果,而影响经表示各不同的经济主体,取值0或l的因变量 t

离散选择模型与在交通行为分析中的应用

离散选择模型与在交通行为分析中的应用 隋拓方 今天,基于智能交通模式下应用离散选择行为分析的交通是国内外的热点。本文首先介绍了离散选择模型的基本原理,包括其概念,其理论基石的效用最大化的理论,和它的四个主要模式(Logit模型,GEV模型,Probit模型,Mixed Logit模型);再以显示离散选择模型的行为在交通中的应用,介绍了上海市快速路系统的背景,探讨驾驶员的信息影响下的路径选择行为的情况。在这种情况下调查方法获得的数据将行为,使用离散选择分析的影响因素,路径选择路由的概率模型,多变量分析,揭示路由信息和虚拟机。案件的结果清楚地反映了有效性离散模型,该方法可应用于交通管理更准确地预测运输需求与运输有关的规划和管理提供科学依据。 离散选择模型:离散选择模型,有时称为定性选择模型,是一个令人兴奋的新的统计方法并风靡全球的市场研究。离散选择模型看起来在客户之间作出选择的产品或服务。通过确定这些模式的选择,离散选择模型是不同的消费者对竞争产品。离散选择模型,使营销人员审查分享影响产品配置,服务捆绑销售,定价和促销的不同类别的客户。为第一时间,企业有一个定量工具的设计和定价的产品优化竞争优势。 四个主要模型:Logit ,GEV ,Probit ,Mixed Logit 离散选择模型的研究真正兴起于19 世纪50 年代末, 属于微观计量经济学的范畴。该模型能够对个体和家庭行为进行经验性的统计分析, 因而在经济学和其他社会科学中得到广泛的应用。本文从离散选择模型的基本性质及效用最大化的理论背景出发, 指出logit 模型虽然使用的是最早并且最为广泛的离散选择模型, 但是其存在着三大局限性: 不能表示随机口味的变化、暗含成比例的替代形式和不能处理不可观测因素在不同期间相关的情形。GEV ( 含嵌套logit) 、pr obit 和混合logit 模型等其他的离散选择模型, 很大程度上都是为了避免这些限制而产生并发展起来的。 SP调查定义:SP调查是指,为了获得“人们对假定条件下的多个方案所表现出来的主观偏好,而进行的实际调查。因此实践证明,SP方法已成为交通出行行为研究中一种重要的工具。 SP调查国内外研究现状: 上世纪70年代末,英国开始交通间题SP调查以后,美国、澳大利亚等也进行了相关调查。80年代,研究人员从理论和实际两方面进行了更为深入的研究,1989年《运输经济与政策学报》上出版了《运输领域的SP方法研究》专辑,使SP调查在交通领域得到进一步推广。近年来,由于交通SP调查有效地弥补了以往RP调查的缺陷,在各国的研究中已经被广泛采用。日本广岛大学大学院国际协力研究科的藤原章正和杉惠赖宁等人将SP调查方法运用在交通预测中。他对SP调查与RP调查进行了比较,并对SP调查的主要过程、注

二元离散选择模型

二元离散选择模型 1.在一次选举中,由于候选人对高收入者有力,所以收入成为每个投票者表示同意或者反对的最主要影响因素。以投票者的态度(y )作为被解释变量,以投票者的月收入(x )作为解释变量建立模型,同意者其观测值为1,反对者其观测值为0,样本数据见表7.1。原始模型为:i i i y x αβμ=++。利用Probit 二元离散选择模型估计参数。表8.1样本观测值序号X Y 序号X Y 序号 X Y 11000111100021210012200012120002222001330001313001232300144000141400024240015500015150012525001660001616000262600177000171700127270018800018180002828001990001919001292900110 1000 20 20001 30 3000 1 估计过程如下: 输入变量名,选择Probit 参数估计。

得到如下输出结果: 但是作为估计对象的不是原是模型,而是如下结果: 1@[( 4.75390.003067*)] YF CONRM X =???+可以得到不通X 值下的Y 选择1的概率。例如,当X=600时,查标准正态分布表,对应于2.9137的累积正态分布为0.9982;于是,Y 的预测值YF=1-0.9982=0.0018,即对应于该个人,投赞成票的概率为0.0018。 1.某商业银行从历史贷款客户中随机抽取78个样本,根据涉及的指标体系分别计算它们

的“商业信用支持度”(XY)和“市场竞争地位等级”(SC),对它们贷款的结果(JG)采用二元离散变量,1表示贷款成功,0表示贷款失败。样本观测值见表8.2。目的是研究JG与XY、SC之间的关系,并为正确贷款决策提供支持。 表8.2样本观测值 JG XY SC JGF JG XY SC JGF JG XY SC JGF 0125-2001500-20054-10 0599-200960014221 0100-201-80104200.0209 0160-200375-2011821 046-20042-1 6.50E-130801 6.40E-12 080-2015211-501 0133-200172-20032620 0350-101-801026110 12300.9979089-201-2-10.9999 060-200128-20014-2 3.90E-07 070-10160112200.9991 1-8010150-10011310 0400-201542114210.9987 07200028-2015720.9999 0120-1012500.9906014600 14010.999812300.997911501 13510.999911401026-2 4.40E-16 12611049-10089-20 115-10.4472014-10.54981511 069-100610 2.10E-121-9-11 010710140211411 12911030-20054-20 12110112-1013211 13710.9999078-200540 1.40E-07 053-1010010131-20 0194000131-2011501 估计过程如下:

相关主题