搜档网
当前位置:搜档网 › 虚拟变量的分析

虚拟变量的分析

虚拟变量的分析
虚拟变量的分析

虚拟变量(dummy variable )

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。

1.截距移动 设有模型,

y t = β0 + β1 x t + β2D + u t ,

其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

y t =??

?=+++=++1

)(012010D u x D u x t

t t t βββββ

020

40

60

20

40

60

X Y

图8.1 测量截距不同

D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。

例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男)

y = - 100 + x - 5D =

– 100 + x D = 0 (女) 注意:

① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。

② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。

④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:

1 (大学) D = 0 (中学) -1 (小学)。

β0

β0+β2

D = 1 D =0

例1:市场用煤销售量模型(file: Dummy1) 我国市场用煤销量的季节性数据(1982-1988,《中国统计年鉴》1987,1989)见下图与表。由于受取暖用煤的影响,每年第四季度的销售量大大高于其它季度。鉴于是季节数据可设三个季节变量如下:

1 (4季度) 1 (3季度) 1 (2季度) D 1 = D

2 = D

3 =

0 (1, 2, 3季度) 0 (1, 2, 4季度) 0 (1, 3, 4季度)

2500

300035004000450050005500

82

83

84

85

86

87

88

Y

2500

30003500400045005000550082838485868788

Y

2731.03+57.15*T

全国按季节市场用煤销售量数据(file: Dummy1)

数据来源:《中国统计年鉴》1989。注:以季节数据D 1为例,EViews 命令是D1= @seas(4)。

以时间t 为解释变量(1982年1季度取t = 1)的煤销售量(y )模型如下:

y = 2431.20 + 49.00 t + 1388.09 D 1 + 201.84 D 2 + 85.00 D 3 (1)

(26.04) (10.81) (13.43) (1.96) (0.83)

R 2 = 0.95, DW = 1.2, s.e. = 191.7, F=100.4, T =28, t 0.05 (28-5) = 2.07

由于D 2,D 3的系数没有显著性,说明第2,3季度可以归并入基础类别第1季度。于是只考虑加入一个虚拟变量D 1,把季节因素分为第四季度和第一、二、三季度两类。从上式中剔除虚拟变量D 2,D 3,得煤销售量(y )模型如下:

y = 2515.86 + 49.73. t + 1290.91 D 1 (2) (32.03 (10.63) (14.79)

R 2 = 0.94, DW = 1.4, s.e. = 198.7, F = 184.9, T =28, t 0.05 (25) = 2.06

进一步检验斜率是否有变化,在上式中加入变量t D 1,

y = 2509.07 + 50.22 t + 1321.19 D 1 - 1.95 t D 1 (3)

(28.24) (9.13) (6.85) (-0.17)

R 2 = 0.94, DW = 1.4, s.e. = 202.8, F = 118.5, T =28, t 0.05 (24) = 2.06

由于回归系数 -1.95所对应的t 值是 -0.17,可见斜率未发生变化。因此以模型 (2) 作为最后确立的模型。

若不采用虚拟变量,得回归结果如下,

y = 2731.03 + 57.15 t (4)

(11.6) (4.0)

R 2 = 0.38, DW = 2.5, s.e. = 608.8, T = 28, t 0.05 (26) = 2.06

与(2)式相比,回归式(4)显得很差。

2.斜率变化

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:

y t = β0 + β1 x t + β2 D + β3 x t D + u t ,

其中x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

y t =??

?

=++++=++1

)()(0312010D u x D u x t

t t t ββββββ

通过检验 β3是否为零,可判断模型斜率是否发生变化。

020

40

60

80

100

20

40

60

X Y

010

20

3040506070

20

40

60

T Y

图8.5 情形1(不同类别数据的截距和斜率不同) 图8.6 情形2(不同类别数据的截距和斜率不同)

例2:用虚拟变量区别不同历史时期(file:dummy2)

中国进出口贸易总额数据(1950-1984)见上表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D 如下

0 (1950 - 1977) D =

1 (1978 - 1984)

中国进出口贸易总额数据(1950-1984) (单位:百亿元人民币)

年 trade time D time D 年

trade time D time D 1950 0.415 1 0 0 1968 1.085 19 0 0 1951 0.595 2 0 0 1969 1.069 20 0 0 1952 0.646 3 0 0 1970 1.129 21 0 0 1953 0.809 4 0 0 1971 1.209 22 0 0 1954 0.847 5 0 0 1972 1.469 23 0 0 1955 1.098 6 0 0 1973 2.205 24 0 0 1956 1.087 7 0 0 1974 2.923 25 0 0 1957 1.045 8 0 0 1975 2.904 26 0 0 1958 1.287 9 0 0 1976 2.641 27 0 0 1959 1.493 10 0 0 1977 2.725 28 0 0 1960 1.284 11 0 0 1978 3.550 29 1 29 1961 0.908 12 0 0 1979 4.546 30 1 30 1962 0.809 13 0 0 1980 5.638 31 1 31 1963 0.857 14 0 0 1981 7.353 32 1 32 1964 0.975 15 0 0 1982 7.713 33 1 33 1965 1.184 16 0 0 1983 8.601 34 1 34 1966 1.271 17 0 0 1984 12.010 35 1 35 1967 1.122 18 0 0

以时间time 为解释变量,进出口贸易总额用trade 表示,估计结果如下:

trade = 0.37 + 0.066 time - 33.96D + 1.20 time D

(1.86) (5.53) (-10.98) (12.42)

0.37 + 0.066 time (D = 0, 1950 - 1977)

=

- 33.59 + 1.27 time (D = 1, 1978 - 1984)

上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。

例3:香港季节GDP 数据(单位:千亿港元)的拟合(虚拟变量应用, file:dummy6)

1.0

1.5

2.02.5

3.03.5

4.0

90919293949596979899000102

GDP

1.0

1.5

2.02.5

3.03.5

4.0

GDP

1.6952+0.0377*T

1990~1997年香港季度GDP 呈线性增长。1997年由于遭受东南亚金融危机的影响,经济发展处于停滞状态,1998~2002年底GDP 总量几乎没有增长(见上图)。对这样一种先增长后停滞,且含有季节性周期变化的过程简单地用一条直线去拟合显然是不恰当的。为区别不同季节,和不同时期,定义季节虚拟变量D2、D3、D4和区别不同时期的虚拟变量DT 如下(数据见附录):

1 (第2季度) D

2 =

0 (其他季度)

1 (第3季度)

D3 =

0 (其他季度)

1 (第4季度)

D4 =

0 (其他季度)

1 (1998:1~2002:4)

DT =

0 (1990:1 ~1997:4)

得估计结果如下:

GDP t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4+ 1.8338 DT - 0.0654 DT t

(50.8) (64.6) (3.7) (9.9) (11.0) (19.9) (-28.0)

R2= 0.99, DW = 0.9, s.e. = 0.05, F=1198.4, T=52, t0.05 (52-7) = 2.01 对于1990:1 ~1997:4

GDP t = 1.1573 + 0.0668 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4

对于1998:1~2002:4

GDP t = 2.9911 + 0.0014 t + 0.0775 D2 + 0.2098 D3 + 0.2349 D4

如果不采用虚拟变量拟合效果将很差。

GDP t = 1.6952 + 0.0377 t

(20.6) (13.9)

R2 = 0.80, DW = 0.3, T=52, t0.05 (52-2) = 2.01

案例5 天津市粮食市场小麦批发价与面粉零售价的关系研究(file: xiezhiyong)

首先看天津市粮食市场小麦批发价格的变化情况(图1)。1995年初,天津市粮食市场的小麦批发价格首先放开。在经历5个月的上扬之后,进入平稳波动期。从1996年8月份

开始小麦批发价格一路走低。至2002年12月份,小麦批发价格降至是1160元/吨。

其次看面粉零售价的变化情况。因为面粉零售价格直接关系到居民的日常生活,所以开始时没有与小麦批发价格一起放开。当小麦批发价格一路看涨时,1995年1月至1996年6月面粉零售价格一直处于2.14元/千克的水平上。1996年7月起,面粉零售价格也开始在市场上放开。受小麦批发价格上涨的影响,一个月内面粉零售价格从2.14元/千克涨到2.74元/千克。在这个价位上坚持了11个月之后,面粉零售价格开始下降。与小麦批发价格的下降相一致,在经历了5年零7个月的变化之后,面粉零售价格又恢复到接近开放前2.14元/千克的水平上(2.17元)。

散点图如图2。按时间分析这些观测点的变化情况(见图3,逆时针方向运动)。见图4,直接拟合这些数据效果将很差(R 2 = 0.027, r = 0.17)。

2.0

2.22.42.62.8

1000

12001400

1600

18002000

95

96

97

98

99

00

01

02

retail price

wholesale

2.0

2.2

2.4

2.6

2.8

100012001400160018002000

w h o l e s a l e

r e t a i l p r i c e

图1 图2

2.0

2.22.42.6

2.8

1000

1200

1400

1600

1800

2000

wholesale

retail price

2.0

2.2

2.4

2.62.8

100012001400160018002000

w h o l e s a l e

r e t a i l p r i c e

图3 图4

利用虚拟变量技术,在模型中加入虚拟变量。定义

D = 0,(1995: 1~1996:6,面粉零售价格放开之前), D = 1,(1996:7~2002:12,面粉零售价格放开之后)。 取对数关系建立模型。 Lnsale 的系数没有显著性(对于面粉零售价格放开之前的散点来说回归直线是一条水平线)。剔出Lnsale 变量,得估计结果 PRIC

E = 2.140 + 1.1215 Lnsale ?D – 7.7458?D

(131.5) (23.9) (-23.0) R 2 = 0.9054,

PRICE = 2.140, D=0 PRICE = – 5.6058 + 1.1215 Lnsale , D=1

一条回归直线的斜率为零,一条回归直线的斜率为1.12。可决系数从不加虚拟变量模型的0.046增加到0.905(输出结果见下)。

本例也可以建立倒数模型:

2.0

2.2

2.4

2.6

2.8

0.00040.00050.00060.00070.00080.00090.0010

1/SALE

PR IC E

PRICE = 2.140 + 1.5141?D– 1565.9 (1/sale) ?D

(145.9) (32.1) (-27.0) R2 = 0.9231, PRICE = 2.140, D=0

PRICE = 3.6541 – 1565.9(1/sale), D=1

虚拟变量案例

虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = 0 + 1 x t + 2D + u t , 其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为, + 1x t + u t , (D = 0) y t = (0 + 2) + 1x t + u t , (D = 1) D =0 D = 1 +2 图8.1 测量截距不同 D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。 例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 ②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D =0 (中学) -1 (小学)。 【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve) GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3 定义 1 (1季度) 1 (2季度) 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96,s.e. = 0.05 附数据如下: 年GDP t D1D2D3 1996:11.31561100 1996:21.66002010

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中,i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

虚拟变量案例-虚拟变量回归案例分析

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1. 截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 020 40 60 20 40 60 X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

相关主题