搜档网
当前位置:搜档网 › 第七章 虚拟变量回归

第七章 虚拟变量回归

第七章 虚拟变量回归
第七章 虚拟变量回归

第七章 虚拟变量回归

第一节 虚拟变量的性质

在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。

一、基本概念

由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummy variable )。虚拟变量也称:哑元变量、定性变量等等。通常用字母D 或DUM 加以表示(英文中虚拟或者哑元Dummy 的缩写)。

用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。

虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。 下面给出几个可以引入虚拟变量的例子。

例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。

例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。

例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。

上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。

二、虚拟变量设置规则

虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则

虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。

从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。

“0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。

例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。

2.属性(状态、水平)因素与设置虚拟变量数量的关系

定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。

虚拟变量数量的设置规则 1.若定性因素具有 m (m ≥2) 个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m 个虚拟变量;

2.当回归模型无截距项时,则可引入m 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。

(0,1) (0,0)D D ?????

12(1,0)天气阴如:(,)=天气雨其 他

例 (虚拟变量陷阱)

研究居民住房消费支出 和居民可支配收入x i 之间的数量关系。回归模型的设定为: 现在要考虑城镇居民和农村居民之间的差异,如何办? 为了对 “城镇居民”、“农村居民”进行区分,分析各自在住房消费支出 上的差异,

设 为城镇; 为农村。 ,则模型为

(模型有截距,“居民属性”定性变量只有两个相互排斥的属性状态( m=2),故只设定一个虚拟变量。)

若对两个相互排斥的 “居民属性” ,引入m=2个虚拟变量,则

则模型(1)为

则对任一家庭都有: D 1+D 2=1

即产生完全共线,陷入了“虚拟变量陷阱”。“虚拟变量陷阱”的实质是:完全多重共线性。

第二节 虚拟解释变量的回归

在计量经济学中,通常引入虚拟变量的方式分为加法方式和乘法方式两种:即

原模型

实质:加法方式引入虚拟变量改变的是截距;乘法方式引入虚拟变量改变的是斜率。 一、加法类型

(1)一个两种属性定性解释变量而无定量变量的情形

011i i i Y =+X +u αβ()

i Y 1=1i D 1=0i

D 01112i i i Y =+X +D +u αβα()

Dependent Variable: Y Method: Least Squares

Date: 11/23/11 Time: 22:19

Sample: 1 10

Included observations: 10

Variable

Coefficien

t

Std. Error t-Statisti

c

Prob. C 18.00000 0.31176

9

57.7350

3

0.0000

D 3.280000

0.44090

8 7.43919

1

0.0001

R-squared 0.873701 Mean dependent var 19.6400

Adjusted R-squared

0.857913

S.D. dependent var 1.84944

4

S.E. of regression

0.697137 Akaike info criterion 2.29318

7

Sum squared resid

3.888000 Schwarz criterion 2.35370

4

Log likelihood -9.465934 F-statistic

55.3415

6

Durbin-Watso n stat

0.667284

Prob(F-statistic)

0.00007

3

Yi = 18 + 3.28 Di

(2)包含一个定量变量,一个定性变量模型

设有模型,

女教授 男教授

y t = β0 + β1 x t + β2D + u t ,

其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1)

020

40

60

20

40

60

X Y

D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。

例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D =

– 100 + x D = 0 (女) 注意:

① 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。但解释模型时一定注意1,0是怎样分配的。

②定性变量中取值为0所对应的类别称作基础类别(base category )。

③ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如:

1 (大学) D = 0 (中学) -1 (小学)。

(3)一个定性解释变量(两种以上属性)和一个定量解释变量的情形

(4)两个定性解释变量(均为两种属性)和一个定量解释变量的情形

例:研究大学教师的年薪是否受到性别、学历的影响。性别和学历是两个不同的标准。按性别标准教师可以分成男、女两类,应该引入一个虚拟变量;按学历标准大学教师可以分为大学本科学历、硕士学历、博士学历三类,应该引入两个虚拟变量,共引入三个虚拟变量:

令Y 代表年薪, X 代表教龄,建立模型:

可以看出基准类是本科女教师,B0为刚参加工作的本科女教师的工资;B1为参加工作时间对工资的影响;B2是性别差异系数;B3和B4为学历差异系数,B3是硕士学历与本科学历的收入差异,B4是博士学历与本科学历的收入差异;通过上述分析,我们可以确定Bi 的符号。

在这个问题中,一共有六个类别,但是我们只引入了三个虚拟变量,而不是五个。 在就多个标准引入虚拟变量时,应该注意每一标准下引入虚拟变量个数应该是这一标准下类别数目减一,所以我们在本例中只引入三个虚拟变量而不是五个。如果引入五个虚拟变

i

i i i i i u D B D B D B X B B Y +++++=44332210

量就会陷入虚拟变量陷阱。

运用OLS 得到回归结果,再用t 检验讨论因素 是否对模型有影响。

加法方式引入虚拟变量的主要作用为: 1.在有定量解释变量的情形下,主要改变方程截距; 2.在没有定量解释变量的情形下,主要用于方 差分析。

二、乘法类型 基本思想

以乘法方式引入虚拟变量时,是在所设立的模型中,将虚拟解释变量与其它解释变量的乘积,作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。或者将模

型斜率系数表示为虚拟变量的函数,以达到相同的目的。 乘法引入方式:

(1)截距不变;

(2)截距和斜率均发生变化; 分析手段:仍然是条件期望。

以上只考虑定性变量影响截距,未考虑影响斜率,即回归系数的变化。当需要考虑时,可建立如下模型:

y t = β0 + β1 x t + β2 D + β3 x t D + u t ,

其中x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为,

β0 + β2 ) + (β1 + β3)x t + u t , (D = 1) y t =

β0 + β1 x t + u t , (D = 0) 通过检验 β3是否为零,可判断模型斜率是否发生变化。

020

40

60

80

100

20

40

60

X Y

010

20

3040506070

20

40

60

T Y

情形1(不同类别数据的截距和斜率不同) 情形2(不同类别数据的截距和斜率不同)

例:用虚拟变量区别不同历史时期(file:dummy2)

中国进出口贸易总额数据(1950-1984)见下表。试检验改革前后该时间序列的斜率是否发生变化。定义虚拟变量D 如下

0 (1950 - 1977)

D =

1 (1978 - 1984)

中国进出口贸易总额数据(1950-1984)(单位:百亿元人民币)

年trade ti

me D time D年trade ti

me

D time

D

1950 0.415 1 0 0 1968 1.085 19 0 0

1951 0.595 2 0 0 1969 1.069 20 0 0

1952 0.646 3 0 0 1970 1.129 21 0 0

1953 0.809 4 0 0 1971 1.209 22 0 0

1954 0.847 5 0 0 1972 1.469 23 0 0

1955 1.098 6 0 0 1973 2.205 24 0 0

1956 1.087 7 0 0 1974 2.923 25 0 0

1957 1.045 8 0 0 1975 2.904 26 0 0

1958 1.287 9 0 0 1976 2.641 27 0 0

1959 1.493 10 0 0 1977 2.725 28 0 0

1960 1.284 11 0 0 1978 3.550 29 1 29

1961 0.908 12 0 0 1979 4.546 30 1 30

1962 0.809 13 0 0 1980 5.638 31 1 31

1963 0.857 14 0 0 1981 7.353 32 1 32

1964 0.975 15 0 0 1982 7.713 33 1 33

1965 1.184 16 0 0 1983 8.601 34 1 34

1966 1.271 17 0 0 1984 12.010 35 1 35

1967 1.122 18 0 0

以时间time为解释变量,进出口贸易总额用trade表示,估计结果如下:trade = 0.37 + 0.066 time - 33.96D + 1.20 time D

(1.86) (5.53) (-10.98) (12.42)

0.37 + 0.066 time (D = 0, 1950 - 1977)

=

- 33.59 + 1.27 time(D = 1, 1978 - 1984) 上式说明,改革前后无论截距和斜率都发生了变化。进出口贸易总额的年平均增长量扩大了18倍。

三、虚拟解释变量综合应用

(1)结构变化分析

结构变化的实质是检验所设定的模型在样本期内是否为同一模型。显然,平行回归、共点回归、不同的回归三个模型均不是同一模型。

平行回归模型的假定是斜率保持不变(加法类型,包括方差分析);

共点回归模型的假定是截距保持不变(乘法类型,又被称为协方差分析);

不同的回归的模型的假定是截距、斜率均为变动的(加法、乘法类型的组合)。

例:比较改革开放前、后我国居民(平均)“储蓄—收入”总量关系是否发生了变化?

模型的设定形式为:

回归方程:

显然,只要 、 不同时为零,上述模型就能刻画改革开放前后我国居民储蓄收入模型结构是否发生变化。

(2)交互效应分析 交互作用

一个解释变量的边际效应有时可能要依赖于另一个解释变量。为此,Klein 和Morgen(1951)提出了有关收入和财产在决定消费模式上相互作用的假设。他们认为消费的边际倾向不仅依赖于收入,而且也依赖于财产的多少 ——较富有的人可能会有不同的消费倾向。

由于YZ 捕获了收入和财产之间的相互作用而被称为交互作用项。

显然,刻画交互作用的方法,在变量为数量(定量)变量时, 是以乘法方式引入虚拟变量的。

例: 是否发展油菜籽生产与是否发展养蜂生产的差异对农副产品总收益的影响研究。模型设定为

:

(1)式中, 以加法形式引入虚拟变量暗含何假设?

(1)式以加法形式引入,暗含的假设为:菜籽生产和养蜂生产是分别独立地影响农副品生产总收益。但是,在发展油菜籽生产时,同时也发展养蜂生产,所取得的农副产品生产总收益,可能会高于不发展养蜂生产的情况。即在是否发展油菜籽生产与养蜂生产的虚拟变量 和 间,很可能存在着一定的交互作用,且这种交互影响对被解释 变量农副产品生产收益会有影响。

问题:如何刻画同时发展油菜籽生产和养蜂生产的交互作用? 基本思想:在模型中引入相关的两个变量的乘积。

区别之处在于,上页定义中的交互效应是针对数量变量,而现在是定性变量,又应当如何处理

?

2i D 3i

D

(3)分段回归分析

作用: 提高模型的描述精度。

虚拟变量也可以用来代表数量因素的不同阶段。分段线性回归就是类似情形中常见的一种。

一个例子: 研究不同时段我国居民的消费行为。实际数据表明,1979年以前,我国居民的消费支出呈缓慢上升的趋势;从1979年开始,居民消费支出为快速上升趋势。

如何刻画我国居民在不同时段的消费行为?

基本思路:采用乘法方式引入虚拟变量的手段。显然,1979年是一个转折点,可考虑在这个转折点作为虚拟变量设定的依据。若设X* =1979,当t<X* 时可引入虚拟变量。(为什么选择1979作为转折点?)

依据上述思路,有如下描述我国居民在不同时段消费行为模型:

分析:

第九章 设定误差

采用OLS 法估计模型时,实际上有一个隐含的假设,即模型是正确设定的。

这包括两方面的含义:函数形式设定正确和解释变量选择正确。但在实践中这个假设却不一定能实现。可能犯下列三个方面的错误: l 选择错误的函数形式 l 遗漏有关的解释变量 l 包括无关的解释变量

从而造成所谓的“误设定”问题。 一、选择错误的函数形式

这类错误中比较常见的是将非线性关系作为线性关系处理。函数形式选择错误,所建立的模型便无法反映所研究现象的实际情况,会产生很严重的后果。因此,应当根据实际问题,选择正确的函数形式。

在前面各章的介绍中采用的函数形式以线性函数为主,下面再介绍几种比较常见的函数形式的模型。这几种模型是:双对数模型,半对数模型,双曲函数模型和多项式回归模型。 1.双对数线性模型

如我们经常研究的生产函数模型:著名的生产函数柯布—道格拉斯生产函数:

u e K AL Y βα= (9.1.1)

对于模型(9.1.1)通过两边同时取对数,可以得到:

u K b L b b Y +++=ln ln ln ln 210 (9.1.2)

令 K K L L b b Y Y ln ,ln ,ln ,ln **00*====代入模型(9.1.2)

u K b L b b Y +++=*2*10* (9.1.3)

在实际经济活动分析中,双对数模型的应用是非常广泛的,其原因在于,它有一个很吸引人的特点,也就是斜率21,b b 度量了产出对资本投入和劳动力投入的弹性。

证明: L

L

Y Y

L d Y d L d L d Y d Y d L d Y d b ??===)()

()()(ln )()

(ln )(ln )(ln 1

而上式参数的经济意义就表示弹性。

例题1:

下列表中给出的1978-1998年间总产出(用国内生产总值GDP 度量),劳动投入(用从业人员度量,单位万人),以及资本投入(用固定资产度量),运用OLS 法建立我国的生产函数模型为:

K L Y ln 8230.0ln 5616.07636.2ln )

6464.12()0651.0()

4815.1()4815.1()

8694.0()1788.3(++-=- (9.1.4)

9912.0,9926.022==R R

从上式可以看出:偏斜率系数0.5616表示产出对劳动投入的弹性,也就是说其表示在资本投入保持不变的情况下,劳动投入每增加一个百分点,平均产出增加0.56%。如果将两个弹性系数相加,我么那将得到一个重要的经济参数—规模报酬参数,它反映了产出对投入的比例变动。如果两个弹性系数之和为1,则称为规模报酬不变;如果两个弹性系数之和大于1,则称规模报酬递增。在本例中,弹性系数之和是1.3846,表明中国经济是规模报酬递增的。

2.半对数模型

半对数模型指的是因变量和解释变量中一个为对数形式而另一个为线性的模型。应变量为对数形式的称为对数-线性模型(log-lin model)。解释变量为对数形式的称为线性-对数模型(lin-log model)。我们先介绍前者,其形式如下: 对数-线性模型中,斜率的含义是Y 的百分比变动,即解释变量X 变动一个单位引起的因变量Y 的百分比变动。这是因为,利用微分可以得出:

这表明,斜率度量的是解释变量X 的单位变动所引起的因变量Y 的相对变动。将此相对

)1(1ln 1==

??? ????? ??==dX Y dY

dX dY Y dX Y d βt

t t u X Y ++=10ln ββ

变动乘以100,就得到Y 的百分比变动,或者说得到Y 的增长率。

由于对数-线性模型中斜率系数的这一含义,因而也叫增长模型(growth model)。

增长模型通常用于测度所关心的经济变量(如GDP )的增长率。例如,可以通过估计下面的半对数模型

得到一国GDP 的年增长率的估计值,这里t 为时间趋势变量。

例2:1973-1987年间美国未偿付消费者信贷的增长

下表给出了1973-1987年间美国未偿付消费者信贷的数据,Y (单位为百万美元)表示未偿付消费者信贷额,t 表示年份数,试估计未偿付消费者信贷的年增长率并进行分析。

要估计未偿付消费者信贷的年增长率,即估计以下模型:lnY t =β1+β2t+u t 根据以上数据得到回归结果如下:

回归系数均是统计显著的,回归方程显著成立。 对回归结果解释如下:

回归系数0.0946表示未偿付消费者信贷Y 的年增长率为9.46%. 对截距12.007解释如下, 当t=0时,lnY0=12.007,

即当t=0时,Y0≈163911.7,即1973年初未偿付消费者信贷量为163911.7百万美元。 线性-对数模型的形式如下:

与前面类似,可用微分得到

因此 这表明 t

t u t GDP ++=10)ln(ββ()()()()9824

.003.2640.376:0035.00319

.0:0946.0007.12?ln 2=+=R t Se t Y t

t

t t u X Y ++=ln 10ββ??? ??=X dX dY 11βX dX dY

dX dY X ==1βX

X Y X Y ??==的相对变动的绝对变动1β??

?

???=

?X X Y 1β

上式表明,Y 的绝对变动量等于1β 乘以X 的相对变动量。因此, 线性-对数模型通常用于研究解释变量每变动1%引起的因变量的绝对变动量是多少这类问题。 例3:1973-1987年美国GNP 与货币供给间的关系

下表给出了1973-1987年间美国GNP 与货币供给的数据,Y 表示GNP ,X 表示货币供给(用M2

根据以上数据估计以下模型: Yt=β1+β2lnXt+ut 得到回归结果如下:

回归系数均是统计显著的,回归方程显著成立。 对回归结果解释如下:

回归系数2584.8表示货币供给每增加一个百分点,GNP 的绝对变化量为25.848亿美元。 3.双曲函数模型 双曲函数模型的形式为:

不难看出,这是一个仅存在变量非线性的模型,很容易用重新定义的方法将其线性化。双曲函数模型的特点是,当X 趋向无穷时,Y 趋向β0,反映到图上,就是当X 趋向无穷时,Y 将无限靠近其渐近线(Y= β0)。双曲函数模型通常用于描述著名的恩格尔曲线和菲利普斯曲线。

4.多项式回归模型

多项式回归模型通常用于描述生产成本函数,其一般形式为:

其中Y 表示总成本,X 表示产出,P 为多项式的阶数,一般不超过四阶。

多项式回归模型中,解释变量X 以不同幂次出现在方程的右端。这类模型也仅存在变量非

()()9832

.0549.27494.23:ln 8.25840.16329?2=-+-=R t X Y t t t t t u X Y +??

?

??+=110ββi p i p i i i u X X X Y +++++=ββββ 2210

线性,因而很容易线性化,可用OLS 法估计模型。 二、模型中遗漏有关的解释变量

模型中遗漏了对因变量有显著影响的解释变量的后果是:将使模型参数估计量不再是无偏估计量。

下面用一个简单例子说明:

设正确模型为Y= β0+ β1X1+ β2X2+u…… (9.2.1) 而实际估计的模型为Y= α0+ α1X1+u… (9.2.2)

也就是说忽略了对Y 有重要影响的变量X2估计式(9.2.2),得

而由式(9.2.1)有

将式(5.12)代入式(5.11),得

取期望值,得

上式右边第三项等于零,而第二项方括号中内容可以看做回归方程X2= α+ βX1+u 中斜率系

数的估计量β

?。可以预期, X1和X2之间存在一定程度的相关,从而第二项不等于0,

因此,1?α

是真实参数β1的一个有偏估计量。 遗漏有关的解释变量将使参数估计量产生偏倚

(

)()

(

)

()11.5?2

11111∑∑---=X X Y Y X X α()()

()()12.5222111 u u X X X X Y Y -+-+-=-ββ(

)()

()()[]

(

)

(

)(

)(

)

(

)

()

(

)

∑∑∑∑∑∑---+---+=--+-+--=2

11112112211212

11222111111?X X u u X X X X X X X X X X u u X X X X X X ββββα()(

)()

()

()

()(

)

???

?????---+????????---+=∑∑∑∑2

11112

112211211?X X u u X X E X X X X X X E E ββα()(

)()

()

()

()(

)

????

????---+????

????---+=∑∑∑∑2

11112

112211211?X X u u X X E X X X X X X E E ββα()11?βα

≠E 故

三、包括无关的解释变量

模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。 设正确模型为Y= α0+ α1X1+u… (9.13) 而实际估计的模型为

Y= β0+ β1X1+ β2X2+u…… (9.14)

也就是说X2与Y 无关,因而应有β2=0

可以证明 ()11?αβ=E ,即1

?β是真实参数α1的无偏估计量。

其中r12是X1和X2的相关系数。

故模型中包括无关的解释变量,参数估计量仍无偏,但会增大估计量的方差,即增大误差。 四. 解决解释变量误设定问题的原则

在模型设定中的一般原则是尽量不漏掉有关的解释变量。因为估计量有偏比增大误差更严重。但如果方差很大,得到的无偏估计量也没有多大意义,因此也不宜随意乱增加解释变量。

在回归实践中,有时要对某个变量是否应该作为解释变量包括在方程中作出准确的判断不是一件容易的事,因为目前还没有行之有效的方法可供使用。尽管如此,还是有一些有助于进行判断的准则可用,它们是: 选择解释变量的四条准则

1. 理论:从理论上看,该变量是否应该作为解释变量包括在方程中?

2. t 检验:该变量的系数估计值是否显著?

3. 2R :该变量加进方程中后,2

R 是否增大?

4. 偏倚:该变量加进方程中后,其它变量的系数估计值是否显著变化? 如果对四个问题的回答都是肯定的,则该变量应该包括在方程中;

如果对四个问题的回答都是“否”, 则该变量是无关变量,可以安全地从方程中删掉它。这是两种容易决策的情形。

但根据以上准则判断并不总是这么简单。在很多情况下,这四项准则的判断结果会出现不一致。例如,有可能某个变量加进方程后,2

R 增大,但该变量不显著。 因此,当这四项准则出现不一致的情况时,作出正确判断不是一件容易的事,一般而言采用的办法是将理论准则放在第一位,再多的统计证据也不能将一个理论上很重要的变量变成“无关”变量。否则产生不正确结果的风险很大。 五. 检验误设定的RESET 方法

上面给出了选择解释变量的四条准则。可是,有时这些准则不能提供足够的信息使研究人员确信其设定是最恰当的,在这种情况下,可考虑使用一些更正规的检验方法来比较不同

()()()

∑--=2

11

212

2

1

1?X X

r Var σβ

但是()(

)

∑-=21

12

1?X X Var σα而()()()

()

()11

12212

11??01??αβαβVar Var r r Var Var 因此有,一般不等于,由于因而-=

估计方程的性质。

这类方法相当多,有一、二十种,这里就不一一列出,仅介绍拉姆齐(J. B. Ramsey )的回归设定误差检验法(RESET 法)。 RESET 检验法的思路

RESET 检验法的思路是在要检验的回归方程中加进432??,?Y Y Y

和等项作为解释变量,然后看结果是否有显著改善。如有,则可判断原方程存在遗漏有关变量的问题或其它的误设定

问题。 直观地看,这些添加的项是任何可能的遗漏变量或错误的函数形式的替身,如果这些替身能够通过F 检验, 表明它们改善了原方程的拟合状况,则有理由说原方程存在误设定问题。

432??,?Y Y Y

和 等项形成多项式函数形式,多项式是一种强有力的曲线拟合工具,因而如果存在误设定,则用这样一个工具可以很好地代表它们。

如果不存在误设定,则可以预期,这些新添加项的系数不显著异于0,因为不存在让它们做替身的东西。 RESET 检验法的步骤

拉姆齐RESET 检验的具体步骤是: (1) 用OLS 法估计要检验的方程,得到

(2) 由上一步得到的值i

Y ?(i=1,2,…,n ),计算 432??,?Y Y Y 和 ,然后用OLS 法估计: (3) 用F 检验比较两个方程的拟合情况(类似于上一章中联合假设检验采用的方法),如果两方程总体拟合情况显著不同,则得出原方程可能存在误设定的结论。 使用的检验统计量为: 其中:RSSM 为第一步中回归(有约束回归)的残差平方和,RSS 为第二步中回归(无约束回归)的残差平方和,M 为约束条件的个数,这里是M=3。

拉姆齐RESET 检验仅能检验误设定的存在,而不能指出是哪一类的误设定,即不能得到正确的模型是什么。另一方面,如果模型设定正确,RESET 检验能够排除误设定的存在,转而去查找其它方面的问题。

第九章 案例分析

以引子中所提出的问题为例,分析影响中国进口量的主要因素(数据如表9.3所示)。

表9.3 单位:人民币亿元、亿美元

i

i

i

X X Y 22

11

????βββ

++=i i i i i i i u Y Y Y

X X Y ++++++=45342322110???ββββββ)

1/(/)(---=

k n RSS M

RSS RSS F M

设定如下的模型。

12t t t IM GDP u αα=++ (9.50)

其中,IM t 是进口总额,t GDP 是国内生产总值。

为了分析此模型是否有变量设定误差,进行变量设定误差检验。

有人认为,货物与服务的进口量受到一国的生产规模、货物与服务的进口价格、汇率等其他影响因素,而不能只仅用GDP 来解释商品进口的变化。因此,设定的回归模型应该

为:

()()123t t t t

IM f GDP g Exchange u βββ=+++ (9.51)

其中:GDP 为国内生产总值,()f GDP 为GDP 的线性函数,Exchange 为美元兑换人民币的汇率,()g Exchange 为Exchange 的线性函数。如果是这样,显然设定的回归模型(9.50)式中可能遗漏了变量GDP 、Exchange 以及两者的线性组合。那么GDP 、Exchange 以及两者的线性组合是否被遗漏的重要变量呢?

依据表9.3的数据,录入到EViews 响应的数据表中,考证IM=f(GDP)基本关系图:

对(9.50)进行回归,有回归结果

1067.3370.2307i i i im GDP e =-++

se= (792.2620) (0.0142) t = (-2.0288) (16.2378)

20.9230R = 2

0.9195R = DW=0.5357 F=263.6657

并作(9.50)回归的残差图:

显然,存在自相关现象,其主要原因可能是建模时遗漏了重要的相关变量造成的。

1、DW 检验

模型1067.3370.2307i i i im GDP e =-++的DW 统计量表明,存在正的自相关,由于遗漏变量exchange 或GDP 已经按从小到大顺序排列,因此,无需重新计算d 统计量。对n=24和'1k =,5%的德宾-沃森d-统计量的临界值为 1.273L d =和 1.446U d =,

0.5357 1.273L d <=,表明存在显著的遗漏变量现象。

为此,进行如下的校正:

Dependent Variable: IM Method: Least Squares Date: 07/08/05 Time: 15:40 Sample (adjusted): 1981 2003

Included observations: 23 after adjustments

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C -224.3632 1892.132 -0.118577 0.9069 GDP 1.148259 0.151433 7.582606 0.0000 GDP(-1) -0.822444 0.147359 -5.581213 0.0000 EXCHANGE -4.290746 8.348744 -0.513939 0.6135 EXCHANGE^2

-0.018637

0.008353

-2.231162

0.0386

R-squared

0.978691 Mean dependent var 8434.222 Adjusted R-squared 0.973956 S.D. dependent var 9025.326 S.E. of regression 1456.525 Akaike info criterion 17.59515 Sum squared resid 38186370 Schwarz criterion 17.84200 Log likelihood -197.3443 F-statistic 206.6799 Durbin-Watson stat

1.962659 Prob(F-statistic)

0.000000

其中,exchange 的系数在统计意义上不显著,可以剔除,则有:

Dependent Variable: IM

Method: Least Squares

Date: 07/08/05 Time: 15:43

Sample (adjusted): 1981 2003

Included observations: 23 after adjustments

Variable Coefficient Std. Error t-Statistic Prob.

C -1159.179 511.0396 -2.268276 0.0352

GDP 1.142897 0.148119 7.716070 0.0000

GDP(-1) -0.815842 0.143928 -5.668420 0.0000 EXCHANGE^2 -0.022569 0.003291 -6.857844 0.0000

R-squared 0.978378 Mean dependent var 8434.222

Adjusted R-squared 0.974965 S.D. dependent var 9025.326

S.E. of regression 1428.041 Akaike info criterion 17.52277

Sum squared resid 38746720 Schwarz criterion 17.72024

Log likelihood -197.5118 F-statistic 286.5846

Durbin-Watson stat 2.047965 Prob(F-statistic) 0.000000

可以认为,这时模型设定无变量设定误差。

2、LM检验

e(用EE表示),用EE对全部解释变量(包括按照LM检验步骤,首先生成残差序列i

遗漏变量)进行回归,有:

第七章 虚拟变量

第七章虚拟变量 第一节虚拟变量的引入 一、什么是虚拟变量 前面几章介绍的解释变量都是可以直接度量的,称为定量变量。如收入、支出、价格、资金等等。但在现实经济生活中,影响应变量变动的因素,除了这些可以直接获得实际观测数据的定量变量外,还包括一些无法定量的解释变量的影响,如性别、民族、国籍、职业、文化程度、政府经济政策变动等因素,他们只表示某种特征的存在与不存在,所以称为属性变量或定性变量。 属性变量:不能精确计量的说明某种属性或状态的定性变量。 在计量经济模型中,应当包含属性变量对应变量的影响作用。那怎么才能把定性变量包括在模型中呢?属性变量通常是非数值变量,直接纳入回归方程中进行回归,显然是很困难的。为此,人们采取了一种构造人工变量的方法,将这些定性变量进行量化,使其能与定量变量一样在回归模型中得以应用。 由于定性变量通常是表明某种特征或属性是否存在,如性别变量中以男性为分析基础的话,那就只有男性、非男性;政策变动变量中以政策不变为基准,则有政策不变,和政策变动;至于有两种以上的状态的话,比如学历分高中,本科,本科以上等等,我们又怎么办呢?把疑问留到后面去解决。既然定性变量只有存在或不存在两种状态,所以量化的一般方法是取值为0或1。称为虚拟变量。 虚拟变量:人工构造的取值为0或1的作为属性变量代表的变量。一般常用D表示。 D=0,表示某种属性或状态不存在D=1,表示某种属性或状态存在 比如前面说的性别变量,以男性为基准,则当样本为男性时,虚拟变量取0,当样本为女性时,则虚拟变量取1。 当虚拟变量作为解释变量引入计量经济模型时,对其回归系数的估计和统计检验方法都与定量解释变量相同。 二、虚拟变量的作用 1、作为属性因素的代表,如,性别、种族等 2、作为某些非精确计量的数量因素的代表,如:受教育程度、年龄段等; 3、作为某些偶然因素或政策因素的代表,如战争、911等。 4、时间序列分析中作为季节(月份)的代表(比如对某些明显有淡季、旺季之分的产品) 5、分段回归,研究斜率、截距的变动; 6、比较两个回归模型; 7、虚拟应变量概率模型,应变量本身是定性变量(比如你研究某产品的购买率,应变量本 身就是买或不买) 三、虚拟变量的设置规则 1、虚拟变量D取值为0,还是取值为1,要根据研究的目的决定。D取值为0的类型,是基础类型,是比较的基准。不如前面说的性别变量,如果你研究是以男性为研究基准,则样本为男性,D取值为0, 2、避免落入“虚拟变量陷阱”。 当一个定性变量含有m个相互排斥的类型时,应向模型引入m—1个虚拟变量。比如“性别”含男性和女性两个类别,所以当性别作为解释变量时,应向模型引入一个虚拟变量。取值方式是:D=1(男性)、D=0(女性)或D=0(男性)、D=1(女性) 而当“学历”含有四个类别时,即大学、中学、小学、无学历。当“学历”作为解释变量时,应向模型引入三个虚拟变量。一种取值方式是: 1 (大学)1(中学)1(小学) D1= 0 (非大学)D2 = 0(非中学)D3= 0(非小学) 所谓的“虚拟变量陷阱”就是当一个定性变量含有m个类别时,模型引入m个虚拟变量,造成了虚拟变量之间产生完全多重共线性,无法估计回归参数。 在m-1个虚拟变量中,虚拟变量可以同时取值为0,但不能全部取值为1。 3、当定性变量含有m个类别时,不能把虚拟变量的值设为D=0(第一类)D=1(二类)D=2(三类)等等。

虚拟变量案例

虚拟变量(dummy variable) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = 0 + 1 x t + 2D + u t , 其中y t,x t为定量变量;D为定性变量。当D= 0 或1时,上述模型可表达为, + 1x t + u t , (D = 0) y t = (0 + 2) + 1x t + u t , (D = 1) D =0 D = 1 +2 图8.1 测量截距不同 D= 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若2显著不为零,说明截距不同;若2为零,说明这种分类无显著性差异。 例:中国成年人体重y(kg)与身高x(cm)的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ①若定性变量含有m个类别,应引入m-1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap)。 ②关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。

③定性变量中取值为0所对应的类别称作基础类别(base category)。 ④对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D =0 (中学) -1 (小学)。 【案例1】中国季节GDP数据的拟合(虚拟变量应用,file:case1及case1-solve) GDP序列图不用虚拟变量的情形若不采用虚拟变量,得回归结果如下, GDP = 1.5427 + 0.0405 T (11.0) (3.5) R2 = 0.3991, DW = 2.6,s.e. = 0.3 定义 1 (1季度) 1 (2季度) 1 (3季度) D1 = D2 = D3 = 0 (2, 3,4季度) 0 (1, 3, 4季度) 0 (1, 2, 4季度) 第4季度为基础类别。 GDP = 2.0922 + 0.0315 T – 0.8013 D1 – 0.5137 D2– 0.5014 D3 (64.2) (15.9) (-24.9) (-16.1) (-15.8) R2 = 0.9863, DW = 1.96,s.e. = 0.05 附数据如下: 年GDP t D1D2D3 1996:11.31561100 1996:21.66002010

第八章虚拟变量参考答案

练习题8.1参考解答: (1)在其它条件不变的情况下,对数人均收入提高1%,则平均预期寿命可能提高约0.0939年。但从统计检验结果看,对数人均收入lnX 对期望寿命Y 的影响并不显著。方程的拟合情况良好,可进一步进行多重共线性等其他计量经济学的检验。 (2)引入()ln 7i i D X -的原因是想从截距和斜率两个方面考证将人均收入超过1097美元的国家定义为富国的话,贫国和富国的预期寿命是否存在显著的区别。 如果人均收入大于1097美元,那么虚拟变量取值为1,否则为0。即: 1 1097 (l n ()7)0 1097 i i D X ?-=??人均收入大于美元人均收入低于 美元 (3) 对于贫穷国,其回归方程为: 2.409.39ln i X -+ 对于富国,其回归方程为: 2.40(9.39- 3.36)ln 3.36*721.12 6.03ln i i X X -++=+ 习题8.2参考答案 由于有四个季度,因此引入三个季度虚拟变量 1 1 1 1220 0 0 D D D ???===??????一季度二季度三季度其它其它其它 (1)按照加法模型引入三个虚拟变量,模型为:(加法模型的作用是改变了设定模型的截距 水平) i 0112233i i Y =D D D X ααααβμ+++++ 回归结果如下: 123i 22?=6910.449187.7317D 1169.32D 417.1182D 0.038008X t= (3.594792) (-0.28439 (1.835446) 065093256914 R =0.517642 R =0.416093 F=5.097454 DW=0.39625 i Y -+-+)(-.) (.) (2)由于考虑利润对销售额的变化率发生变异,即斜率的改变,因此按照乘法模型引入三 个虚拟变量,模型为: i 01i 1i 12i 23i 3i Y =X X D X D X D ββαααμ+++++ 回归结果如下: i i 1i 2i 322?=7014.7570.037068X -0.000933X D 0.00791X D 0.002385X D t= (3.934394) (3.273896 (-0.216776) 0.0040180.58529 R =0.519733 R =0.418624 F=5.140311 DW=0.429628 i Y ++--)() () (3)按照加法和乘法相结合的方式引入三个虚拟变量,模型为: i 01122331i 2i 13i 24i 3i Y =D D D X X D X D X D ααααββββμ++++++++ 回归结果为: i 123i i 1i 2i 322?Y =10457.394752.26D 3764.21D 4635.46D 0.0159X 0.029X D 0.03X D 0.0266X D t= (2.566) (-0.87 (-0.6860.8320.6280824089960749 R =0.546701 R =0.348383 F=2---++++-)) () () (.) (.)(.).756686 DW=0.464982

计量经济学第七章第5,6,7题答案

第7章练习5 解:根据Eview 软件得如下表: Dependent Variable: Y Method: ML - Binary Logit (Quadratic hill climbing) Date: 05/22/11 Time: 22:19 Sample: 1 16 Included observations: 16 Convergence achieved after 5 iterations Covariance matrix computed using second derivatives Variable Coefficient Std. Error z-Statistic Prob.?? C Q V McFadden R-squared ????Mean dependent var . dependent var ????. of regression Akaike info criterion ????Sum squared resid Schwarz criterion ????Log likelihood Hannan-Quinn criter. ????Restr. log likelihood LR statistic ????Avg. log likelihood Prob(LR statistic) Obs with Dep=0 7 ?????Total obs 16 Obs with Dep=1 9 于是,我们可得到Logit 模型为: V Q i 0177.0004.0107.11Y ?++-= () () () 685.40R 2 MCF = , LR(2)= 如果在Binary estination 这一栏中选择Probit 估计方法,可得到如下表:

第七章_虚拟变量

虚拟变量(dummy variable ) 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、企业所有制性质不同等因素的影响。这些因素也应该包括在模型中。 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量,用D 表示。虚拟变量应用于模型中,对其回归系数的估计与检验方法与定量变量相同。 1.截距移动 设有模型, y t = β0 + β1 x t + β2D + u t , 其中y t ,x t 为定量变量;D 为定性变量。当D = 0 或1时,上述模型可表达为, β0 + β1x t + u t , (D = 0) y t = (β0 + β2) + β1x t + u t , (D = 1) 20 40 60 20 40 60X Y 图8.1 测量截距不同 D = 1或0表示某种特征的有无。反映在数学上是截距不同的两个函数。若β2显著不为零,说明截距不同;若β2为零,说明这种分类无显著性差异。 例:中国成年人体重y (kg )与身高x (cm )的回归关系如下: –105 + x D = 1 (男) y = - 100 + x - 5D = – 100 + x D = 0 (女) 注意: ① 若定性变量含有m 个类别,应引入m -1个虚拟变量,否则会导致多重共线性,称作虚拟变量陷阱(dummy variable trap )。 ② 关于定性变量中的哪个类别取0,哪个类别取1,是任意的,不影响检验结果。 ③ 定性变量中取值为0所对应的类别称作基础类别(base category )。 ④ 对于多于两个类别的定性变量可采用设一个虚拟变量而对不同类别采取赋值不同的方法处理。如: 1 (大学) D = 0 (中学) -1 (小学)。 β0 β0+β2 D = 1 D =0

第五讲 虚拟变量模型

第七讲 经典单方程计量经济学模型:专门问题 虚拟变量模型 学习目标: 教学基本内容 虚拟变量 许多经济变量是可以定量度量,例如:商品需求量、价格、收入、产量等; 但有一些影响经济变量的因素是无法定量度量。 例如:职业、性别对收入的影响, 战争、自然灾害对 GDP 勺影响,季节对某些产品(如冷饮)销售的影响等。 定性变量:把职业、性别这样无法定量度量的变量称为定性变量。 定量变量:把价格、 收入、 销售额这样可以可以定量度量的变量称为定量变 量。 为了能够在模型中能够反映这些因素的影响, 型的功能,需要将它们“量化”。 这种“量化” 来完成的。 根据这些因素的属性类型, 构造只取 称为虚拟变量( dummy variables ) ,记为 D 。 例如:反映性别的虚拟变量 D 1;男 0;女 1; 本科学历 反映文化程度的虚拟变量 D 0;1非;本本科科学学历历 一般地,基础类型和肯定类型取值为 1;比较类型和否定类型取值为 0。 二、 虚拟变量的设置原则 设置原则: 每一定性变量(qualitative variable )所需的虚拟变量个数要比该定性变量的状 态类别数(categories 少1。即如果有m 种状态,只在模型中引入m-1个虚拟变量。 例如,冷饮的销售量会受到季节变化的影响。季节定性变量有春、夏、秋、 冬 4 种状态,只需要设置 3 个虚拟变量: 1. 2. 3. 4. 了解什么是虚拟变量以及什么是虚拟变量模型; 理解虚拟变量的设置原则; 掌握虚拟变量模型的两种基本引入方式(加法方式和乘法方式) 能够自行设计虚拟变量模型,并能够解释其中蕴含的经济意义; 提高模型的精度, 拓展回归模 通常是通过引入“虚拟变量” 0”或“1”的人工变量, 通常 虚拟变量只作为解释变量。

第七章 虚拟变量和随机解释变量 (2)

第七章 虚拟变量和随机解释变量 本章将讨论两种不同的模型:虚拟变量模型和随机解释变量模型,以及模型设定的其它问题。 第一节 虚拟变量模型 在我们以前考虑的模型中,解释变量都是定量变量(如成本、价格、收入、产出等),但在经济研究中,因变量经常受到一些定性变量的影响(如性别、种族、季节、不同历史时期等),我们把这类定性变量称为虚拟变量。习惯上用D表示虚拟变量,虚拟变量的取值通常为0和1。0表示变量具备某种属性,1表示变量不具备某种属性。 一、包含一个虚拟变量的模型 如果我们要研究的问题中解释变量只分为两类。则需引入一个模拟变量。 例9.1建立模型研究中国妇女在工作中是否受到歧视。 令Y=年薪,X=工作年限 ? ? ?=,女性,男性 101D 可以建立如下模型: i i i i u D B X B B Y +++=210 )1.9( 与一般的回归模型一样,假定0)(=i u E 男性就业者的平均年薪: i i i i X B B D X Y E 10)0,(+== )2.9( 女性就业者的平均年薪: 210)1,(B X B B D X Y E i i i i ++== )3.9( 如果B 2=0则说明不存在性别歧视,如果02

如果随着工龄增加,男性与女性的年薪差距也发生变化,则模型(9.1)就变为 i i i i i u X D B X B B Y +++=210 )4.9( 图9.2描绘了男性年薪增加较快的情况。 我们称虚拟变量只影响斜率而不影响截距的模型为乘法模型如(9.4) 如果男性与女性的初始年薪和年薪增加速度都有差异,我们可以将加法模型和乘法模型 结合起来,得到如下模型 i i i i i i u D B X D B X B B Y ++++=3210 )5.9( 模型(9.5)可以用来表示截距和斜率都发生变化的模型。其图形如图9.3所示。 我们还可以用加法模型与乘法模型相结合的方式建立模型来拟合经济发展出现转折的 情况。例如,进口商品消费支出Y主要取决于国民生产总值X(作为收入的替代变量)的多少。我们改革开放前后,由于国家政策的变化,及改革开放后外资的大量引入等因素的影响,1978年前后,Y 对X 的回归关系明显不同。以t *=1978年为转折点,1978年的国民生产总值X *t 为临界值。设虚拟变量

第八章 虚拟变量回归 思考题

第八章 虚拟变量回归 思考题 8.1 什么是虚拟变量 ? 它在模型中有什么作用 ? 8.2 虚拟变量为何只选 0 、 1, 选 2 、 3 、 4 行吗 ? 为什么 ? 8.3 对 (8.10) 式的模型 , 如果选择一个虚拟变量 1,01D ?? =??-? 大专及大专以上,高中,高中以下 这样的设置方式隐含了什么假定 ? 这一假定合理吗 ? 8.4 引入虚拟解释变量的两种基本方式是什么 ? 它们各适用于什么情况 ? 8.5 四种加法方式引入虚拟变量会产生什么效应? 8.6 引入虚拟被解释变量的背景是什么?含有虚拟被解释变量模型的估计方法有哪些 ? 8.7 设服装消费函数为 12233t i i i i Y D D X u αααβ=++++ 其中,i X =收入水平 ;Y = 年服装消费支出 ; 1,30D ?=? ?大专及大学以上 ,其他 ;1,20D ?=??女性,其他 试写出不同人群组的服装消费函数模型。 8.8 利用月度数据资料 ,为了检验下面的假设,应引入多少个虚拟解释变量 ? 1) 一年里的 12 个月全部表现出季节模式 ; 2) 只有 2 月、 6 月、 8 月、 10 月和 12 月表现出季节模式。 练习题 8.1 1971 年 ,Sen 和 Sztvastava 在研究贫富国之间期望寿命的差异时 , 利用 101 个国家的数据 , 建立了如下回归模型 []? 2.409.39ln 3.36(ln 7)i i i i Y X D X =-+-- (4.37)(0.857)(2.42) R2=0.752 其中 ,X 是以美元计的人均收入 ;Y 是以年计的期望寿命 ; Sen 和 Srimstava 认为人均收入的临界值为 1097 美元 (ln1097=7), 若人均收入超过 1097 美元 , 则被认定为富国 ; 若人均收入低于1097美元 , 被认定为贫穷国。括号内的数值为对应参数估计值的t 值。 1) 解释这些计算结果。 2) 回归方程中引入(ln 7)i i D X =-的原因是什么?如何解释这个回归解释变量? 3) 如何对贫穷国进行回归 ? 又如何对富国进行回归 ? 4)这个回归结果中可得到的一般结论是什么 ?

第五章-含虚拟变量的回归模型

Econometrics 第五章虚拟变量回归模型(教材第六章)

第五章虚拟变量回归模型 第一节虚拟变量的性质和引入的意义 第二节虚拟变量的引入 第三节交互作用效应 第四节含虚拟变量的回归模型 学习要点 虚拟变量的性质,虚拟变量的设定

5.1 虚拟变量的性质和引入的意义 虚拟变量的性质 f定性变量 性别(男,女) 婚姻状况(已婚,未婚) 受教育程度(高等教育,其他) 收入水平(高收入,中低收入) 肤色(白人,有色人种) 政治状况(和平时期,战争时期) f引入虚拟变量(Dummy Variables)

1、分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。 2、检验不同属性类型对因变量的作用,例如工资模型中的文化程度、季节对销售额的影响。 3、提高模型的精度,相当与将不同属性的样本合并,扩大了样本量,从而提高了估计精度)。 5.1 虚拟变量的性质和引入的意义

5.2 虚拟变量的引入 虚变量引入的方式主要有两种 f加法方式 虚拟变量与其它解释变量在模型中是相加关系,称为虚拟 变量的加法引入方式。 加法引入方式引起截距变动

5.2 虚拟变量的引入 f 虚拟变量的作用在于把定性变量“定量化”:通过赋值0和1,0表示变量不具备某种性质,1表示具备。 f 例,0代表男性,1代表女性;0代表未婚,1代表已婚;等等。 f 这类取值为0和1的变量称为虚拟变量(dummy variables ),通常用符号D 表示。 f 事实上,模型可以只包括虚拟变量(ANOVA 模型): 其中,0,1,i i D D ==男性;女性。 12i i i Y B B D u =++

第七章 虚拟变量回归

第七章 虚拟变量回归 第一节 虚拟变量的性质 在实际建模过程中,被解释变量不但受定量变量影响,同时还受定性变量影响。例如需要考虑性别、民族、不同历史时期、季节差异、政府的更迭(工党-保守党)、经济体制的改革、固定汇率变为浮动汇率、从战时经济转为和平时期经济等。这些因素也应该包括在模型中。 一、基本概念 由于定性变量通常表示的是某种特征的有和无,所以量化方法可采用取值为1或0。这种变量称作虚拟变量(dummy variable )。虚拟变量也称:哑元变量、定性变量等等。通常用字母D 或DUM 加以表示(英文中虚拟或者哑元Dummy 的缩写)。 用1表示具有某一“品质”或属性,用0表示不具有该“品质”或属性。 虚拟变量使得我们可以将那些无法定量化的变量引入回归模型中。 虚拟变量应用于模型中,对其回归系数的估计与检验方法和定量变量相同。 虚拟变量表示两分性质,即“是”或“否”,“男”或“女”等。 下面给出几个可以引入虚拟变量的例子。 例1:你在研究学历和收入之间的关系,在你的样本中,既有女性又有男性,你打算研究在此关系中,性别是否会导致差别。 例2:你在研究某省家庭收入和支出的关系,采集的样本中既包括农村家庭,又包括城镇家庭,你打算研究二者的差别。 例3:你在研究通货膨胀的决定因素,在你的观测期中,有些年份政府实行了一项收入政策。你想检验该政策是否对通货膨胀产生影响。 上述各例都可以用两种方法来解决,一种解决方法是分别进行两类情况的回归,然后看参数是否不同。另一种方法是用全部观测值作单一回归,将定性因素的影响用虚拟变量引入模型。 二、虚拟变量设置规则 虚拟变量的设置规则涉及三个方面: 1.“0”和“1”选取原则 虚拟变量取“1”或“0”的原则,应从分析问题的目的出发予以界定。 从理论上讲,虚拟变量取“0”值通常代表比较的基础类型;而虚拟变量取“1”值通常代表被比较的类型。 “0”代表基期(比较的基础,参照物);“1”代表报告期(被比较的效应)。 例如,比较收入时考察性别的作用。当研究男性收入是否高于女性时,是将女性作为比较的基础(参照物),故有男性为“1”,女性为“0”。 2.属性(状态、水平)因素与设置虚拟变量数量的关系 定性因素的属性既可能为两种状态,也可能为多种状态。例如,性别(男、女两种)、季节(4种状态),地理位置(东、中、西部),行业归属,所有制,收入的分组等。 虚拟变量数量的设置规则 1.若定性因素具有 m (m ≥2) 个相互排斥属性(或几个水平),当回归模型有截距项时,只能引入m 个虚拟变量; 2.当回归模型无截距项时,则可引入m 个虚拟变量;否则,就会陷入“虚拟变量陷阱”。 (0,1) (0,0)D D ????? 12(1,0)天气阴如:(,)=天气雨其 他

第九章 含虚拟变量的回归模型

第九章含虚拟变量的回归模型 目前为止,在已学习的线性回归模型中,解释变量X都是定量变量。但有时候,解释变量是定性变量。 9.1 虚拟变量的性质 通常在回归分析中,应变量不仅受一些定量变量的影响,还受一些定性变量的影响(性别、种族、肤色、宗教、民族、罢工、政团关系、婚姻状况)。 如: 美国黑人的收入比相应的白人的收入低。 女学生的S.A.T.的数学平均分数比相应的男生低。 定性变量通常表明了具备或不具备某种性质,比如,男性或女性,黑人或白人,佛教徒或非佛教徒,本国公民或非本国公民。 把定性因素“定量化”的一个方法是建立人工变量,并赋值0和1,0表示变量不具备某种属性,1表示变量具备某种属性,该变量称为虚拟变量(dummy variable),用符号D表示。 虚拟变量一样可用于回归分析,一个回归模型的解释变量可以仅仅是虚拟变量,称为方差分析模型( ANOVA )。

Yi = B1 + B2Di + ui ( 9 - 1 ) 其中Y = 初职年薪 Di =1,大学毕业 =0,非大学毕业 假定随机扰动项满足古典线性回归模型的基本假定,根据模型( 9 - 1 )得到: 非大学毕业生的初职年薪的期望为: E(Yi|Di=0) = B1 + B2( 0 ) = B1 ( 9 - 2 ) 大学毕业生的初职年薪的期望为: E(Yi|Di=1) = B1+B2( 1 ) = B1+B2 ( 9 - 3 ) 可以看出: 截距B1表示非大学毕业生的平均初职年薪, “斜率”系数B2表明大学毕业生的平均初职年薪与非大学生的差距是多少; (B1+B2)表示大学毕业生的平均初职年薪。 零假设:大学教育没有任何益处(即B2=0),可根据t检验值

相关主题