第三章参数估计
重点:
1.总体参数与统计量
2.样本均值与样本比例及其标准误差
难点:
1.区间估计
2.样本量的确定
知识点一:总体分布与总体参数
统计分析数据的方法包括:描述统计和推断统计(第一章)
推断统计是研究如何利用样本数据来推断总体特征的统计学方法,包括参数估计和假设检验两大类。
总体分布是总体中所有观测值所形成的分布。
总体参数是对总体特征的某个概括性的度量。通常有
总体平均数(μ)
总体方差(σ2)
总体比例(π)
知识点二:统计量和抽样分布
总体参数是未知的,但可以利用样本信息来推断。
统计量是根据样本数据计算的用于推断总体的某些量,是对样本特征的某个概括性度量。
统计量是样本的函数,如样本均值()、样本方差(s2)、样本比例(p)等。
构成统计量的函数中不能包括未知因素。
由于样本是从总体中随机抽取的,样本具有随机性,由样本数据计算出的统计量也就是随机的。统计量的取值是依据样本而变化的,不同的样本可以计算出不同的统计量值。
[例题·单选题]以下为总体参数的是( )
a.样本均值b.样本方差
c.样本比例d.总体均值
答案:d
解析:总体参数是对总体特征的某个概括性的度量。通常有总体平均数、总体方差、总体比
例题·判断题:统计量是样本的函数。
答案:正确
解析:统计量是样本的函数,如样本均值()、样本方差()、样本比例(p)等。构成统计量的函数中不能包括未知因素。
[例题·判断题]在抽样推断中,作为推断对象的总体和作为观察对象的样本都是确定的、唯一的。
答案:错误
解析:作为推断对象的总体是唯一的,但作为观察对象的样本不是唯一的,不同的样本可以计算出不同的统计量值。。
(一)样本均值的抽样分布
设总体共有n个元素,从中随机抽取一个容量为n的样本,在重置抽样时,共有n n种抽法,即
可以组成n n不同的样本,在不重复抽样时,共有个可能的样本。每一个样本都可以计算出一个均值,这些所有可能的抽样均值形成的分布就是样本均值的分布。
但现实中不可能将所有的样本都抽取出来,因此,样本均值的概率分布实际上是一种理论分布。
数理统计学的相关定理已经证明:
即样本均值的均值就是总体均值。
在重置抽样时,样本均值的方差为总体方的1/n,即
在不重置抽样时,样本均值的方差为
其中,为修正系数,对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,n比较大而n/n≥5% 时,修正系数可以简化为1-n/n,当n比较大,而n/n<5%时,修正系数可以近似为1,即可以按重置抽样计算。
当总体服从正态分布时,样本均值一定服从正态分布,即有x~n(,)时,~n(,)
若总体为未知的非正态分布时,只要样本容量n足够大(通常要求n ≥30),样本均值仍会接近
正态分布。样本分布的期望值为总体均值,样本方差为总体方差的1/n 。这就是统计上著名的中心极限定理。
该定理可以表述为:从均值为,方差为的总体中,抽取样本量为n的随机样本,当n充分
大时(通常要求n ≥30),样本均值的分布近似服从均值为,方差为的正态分布。
如果总体不是正态分布,当n为小样本时(通常n<30),样本均值的分布则不服从正态分布。[例题·单选题]设一个总体共有5个元素,从中随机抽取一个容量为2的样本,在重置抽样时,共有( )个样本
a.25
b.10
c.5
d.1
答案:a
解析:在重置抽样时,共有n n种抽法,共有样本n n个,即52=5×5=25个。
[例题·单选题]设一个总体共有5个元素,从中随机抽取一个容量为2的样本,在不重置抽样时,共有( )个样本
a.25 b.10
c.5 d.1
答案:b
解析:在不重复抽样时,共有个可能的样本。即
(个)
(二)样本比例的抽样分布
比例是指具有某种属性的单位占全部单位数的比重。
总体比例(通常用π表示)是总体中具有某种属性的单位数占全部总体单位数的比例,是一个参数,通常是未知的,也是我们想通过抽样得到的说明总体特征的数据。
样本比例(通常用p表示)是随机抽取的样本中具有某种属性的单位数占样本全部单位数的比例,是一个样本统计量,是随机变量,对于一个已经抽取出来的样本来讲,是可以观察到的。描述所有可能样本比例的概率分布就是样本比例的抽样分布。
当样本容量比较大时,样本比例p近似服从正态分布,且有p的数学期望就是总体比率π ,即σ(p)=π
而p的方差与抽样方法有关,在重置抽样下为,在不重置抽样下为
即在重置抽样时,p的分布为p~n(,)
在不重置抽样时,p的分布为p~n(,)
一般讲,当np≥5,并n(1-p) ≥5时,就可以认为样本容量足够大。对于无限总体进行不重置抽样时,可以按照重置抽样计算,当总体为有限总体,当n比较大,而n/n ≤ 5%时,修正系数
会趋向1,这时也可以按重置抽样计算方差。
从上述分析可以看出,随着样本容量的增大,样本比例的方差愈来愈小,说明样本比例随样本容量增大,围绕总体比例分布的峰度愈来愈高。
[例题·单选题]当样本容量比较大时,在重置抽样条件下,样本比例p的方差为( )
a. b. c. d.
答案:a
解析:当样本容量比较大时,在重置抽样条件下,样本比例p的方差为
[例题·单选题]设一个总体含有3个可能元素,取值分别为1,2,3。从该总体中采取重复抽样方法抽取样本量为2的所有可能样本,样本均值为2的概率值是( )
a.1/9 b.2/9 c.1/3 d.4/9
答案:c
解析:在重复抽样下,样本为1,2,3的概率都是1/3。
[例题·判断题] 样本容量是指从一个总体中可能抽取的样本个数。
答案:错误
解析:样本容量是样本中个体的数目。一个总体可以有多个样本,各个样本的的容量可以相同
可以不同。
[例题·判断题]在确定总体比例估计中的样本容量时,如果缺少比例的方差,常取比例值为 0.5。
答案:正确
知识点三:统计量的标准误差
统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。
样本均值的标准误计算公式为:
当总体标准差 σ未知时,可用样本标准差s 代替计算,这时计算的标准误差称为估计标准误差。
相应地,样本比例的标准误计算公式为
同样,当总体比例的方差π(1-π )未知时,可用样本比例的方差p(1-p)代替。
[例题·单选题] 样本均值的标准误差计算公式为( )
a. b. c. d.
答案:b
解析:样本均值的标准误差计算公式为
[例题·单选题]样本比例的标准误差计算公式为( )
a. b. c. d.
答案:a
解析:样本比例的标准误差计算公式为
[例题·单选题]统计量的标准误差也称为标准误,其大小与()。
a. 样本量的平方根成反比
b. 样本量的大小成反比
c. 样本量的大小成正比
d. 总体的标准差成反比
答案:a
解析:样本均值的标准误计算公式为:,标准误与标准差成正比,与样本量的平方根成反比。
[例题·多选题]在参数估计中统计量的标准误差可用于()
a.衡量样本统计量与总体参数之间的差距
b.衡量样本统计量的离散程度
c.衡量样本统计量的集中程度
d.衡量总体参数的离散程度
e.衡量总体参数的集中程度。
答案:ab
解析:统计量的标准误差也称为标准误,是指样本统计量分布的标准差。可用于衡量样本统计量的离散程度。在参数估计中,它是用于衡量样本统计量与总体参数之间差距的一个重要尺度。
第二节参数估计
知识点一:点估计与区间估计
一.点估计与区间估计
参数估计是用样本统计量去估计总体的参数。
用样本统计量来估计总体参数有两种方法:点估计和区间估计
点估计:是用样本统计量的实现值来近似相应的总体参数。
区间估计:是根据估计可靠程度的要求,利用随机抽取的样本的统计量确定能够覆盖总体参数的可能区间的一种估计方法。
区间估计是包括样本统计量在内(有时是以统计量为中心)的一个区间,该区间通常是由样本统计量加减估计标准误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。
标准正态分布为n(0,1)分布,将概率分布标准化的公式为:
=
将z所对应的概率称为置信度或置信水平,将表示的范围称为置信区间。几个概率下的置信区间:
1.以68.73%的置信水平推断总体参数推断总体参数μ的置信区间为(z=1)
()
2.以95.45%的置信水平推断总体参数推断总体参数μ 的置信区间为(z=2)
()
3.以99.73%的置信水平推断总体参数推断总体参数μ的置信区间为(z=3)
()
4.还有一个95%的概率度为z=1.96
()
[例题·多选题]由样本统计量来估计总体参数的方法有()
a.点估计
b.区间估计
c.假设检验
d.近似估计
e.抽样估计
答案:ab
解析:用样本统计量来估计总体参数有两种方法:点估计和区间估计
[例题·单选题]以68. 27%的置信水平推断总体参数的置信区间为
a. b.
c. d.
答案:a
解析:68.27%的置信水平,其置信度为1,则置信区间为
知识点二:评价估计量的标准
用于估计总体参数的估计量可以有很多,如何选择估计效果最好的那种估计量,评价估计量的好坏的标准具体有:
1.无偏性,是指估计量抽样分布的期望值等于被估计的总体参数。e()=
2.有效性,是指估计量的方差尽可能小。对同一个总体参数的两个无偏估计量,有更小方差的估计量更有效。
3.一致性,是指随着样本量的增大,标准误越小,点估计量的值越来越接近被估计总体的参数。
[例题·多选题]评价估计量的标准为()。
a.一致性b.无偏性c.显著性
d.有效性e.综合性
答案:abd
解析:评价估计量的标准为:一致性、无偏性、有效性。
[例题·多选题]样本均值是总体均值的()
a.无偏估计量
b.一致估计量
c.有偏估计量
d.无效估计
e.近似估计量
答案:ab
解析:从无偏性和一致性来看,样本均值是总体均值的无偏估计量、一致估计量。
知识点三:一个总体均值的区间估计
在对总体均值进行区间估计时,需要考虑总体是否为正态分布、总体方差是否已知,用于估计的样本是大样本(n≥30)还是小样本(n<30)等几种情况。但不管哪种情况,总体均值的置信区间都是由样本均值加减估计误差得到的
一般将置信水平表示为1- a ,统计量分布两侧面积各为 a /2的分位数值,它取决于事先所要求的置信度(或可靠程度)。因此总体均值在1- a 置信水平下的置信区间可一般性地表达为:
(-分位数值*的标准误差,+分位数值*的标准误差)
(一)大样本的估计
大样本(n ≥30)情况下,当总体方差已知时,总体均值在1-置信水平下的置信区间
为()
式中:为事先确定的一个概率值,它是总体均值不包括在置信区间的概率;1-为置信水
平;为标准正态分布上两侧面积各为/2时的z值;为估计误差。
大样本情况下,当总体方差未知时,上式中的可以用样本方差代替,总体均值在
1-置信水平下的置信区间为()
[例题·单选题]以95. 45%的置信水平推断总体参数的置信区间为
a. b.
c. d.
答案:b
解析:95.45%的置信水平,其置信度为2,则置信区间为
(二)小样本的估计
小样本(n<30)情况下,对总体均值的估计都是建立在总体服从正态分布的假定前提下。
(1)当总体方差已知时,样本均值经过标准化后仍服从标准正态分布,此时总体均值在
1-置信水平下的置信区间仍为()
(2)如果总体方差未知时,样本均值经过标准化后仍服从自由度为(n-1)的t 分布,即
。t 分布也是对称分布,只不过计算出来的t 值对应的概率要查t 分布概率
表。总体均值在1-置信水平下的置信区间为()
总体均值的置信区间是由样本均值和估计误差两部分组成的。
[例题·单选题]小样本情况下,总体服从正态分布,总体方差已知,总体均值在置信水平
a. b.
c. d.
答案:a
解析:小样本(n<30)情况下,当总体方差
已知时,样本均值经过标准化后仍服从标准正
态分布,此时总体均值在1-置信水平下的置信区间仍为
()
[例题·单选题]小样本情况下,总体服从正态分布,总体方差未知,总体均值在置信水平
a. b.
c. d.
答案:a
解析:小样本情况下,如果总体方差未知时,总体均值在置信水平(1-a)下的置信区间为
()
[例题·单选题]在其他条件不变的情况下,提高抽样推断的置信度,抽样误差范围会()。
a. 不变
b. 变小
c. 变大
d. 不能确定
答案:c
解析:估计误差,当抽样推断的置信度提高,为变大,范围会变大。
知识点四:一个总体比例的区间估计
在大样本(n ≥30)情况下,当总体比例已知时,在1-置信水平下,总体比例的置信区
间为(,)
在大样本(n ≥30)情况下,当总体比例未知时,在1-置信水平下,总体比例的置信区
间为()
总体比例的置信区间是由样本比例和估计误差两部分组成的。
[例题·单选题]根据随机抽样调查资料,某企业工人生产定额平均完成103%,标准误为1%,
置信度为95.45%时,可以推断该企业工人的生产定额平均完成百分比()。
a. 小于101%
b. 大于105%
c. 在102%—104%之间
d. 在101%—105%之间
答案:d
解析:估计误差=2*1%,则103%±2%,范围为(101%,105%)
[例题·判断题]当np≥5,并且n(1-p) ≥5时,就可以认为样本容量足够大,样本比例近似服从正态分布。
答案:正确
解析:在大样本条件下,根据中心极限定理,若np≥5,n(1-p) ≥5,则二项分布可用正态分布近似。
第三节样本量的确定
知识点一:估计总体均值时样本量的确定
总体均值的置信区间是由样本均值和估计误差两部分组成的。
1.在重置抽样条件下,设e代表允许的估计误差,则样本量计算公式为:
如果总体标准差σ 未知,可以用样本标准差s来代替;也可以用试验调查的办法,选择一个初始样本,以该样本的标准差s作为总体标准差σ的估计值。
样本量与置信水平成正比,与总体方差成正比,与允许的估计误差的平方成反比。
[例题·计算题]对某大学的消费支出进行估计,已知该校的大学生消费支出的标准差为300元,现在想要估计消费支出95%的置信区间,允许的估计误差不超过30元,则应抽取多大的样本量?
解:已知σ=300,e=30,zα/2=1.96.则
==384.16≈385人
即应抽取385人作为样本。(注意,不是四舍五入)
[例题·多选题]决定样本量大小的因素有()
a.置信水平
b.总体方差
c.允许的估计误差
d.总体均值
e.总体比例
答案:abc
解析:在重置抽样条件下,设e代表允许的估计误差,则样本量计算公式为:
[例题·判断题]样本量与置信水平成正比,与总体方差成反比,与允许的估计误差成正比.()答案:错误
解析:样本量,样本量与置信水平的平方成正比,与总体方差成正比,与允许的估计误差的平方成反比.
知识点二:估计总体比例时样本量的确定
在重置抽样条件下,设e代表允许的估计误差,则样本量计算公式为:
样本量越大,估计误差就越小,估计的精度就越高。
估计误差由使用者预先确定。
大多数情况下,估计误差的取值一般应小于0.1.
如果总体比例π 的值不知道,可以用样本比例s来代替,或者取π =0.5,使得π (1- π )达到最大。
[例题·计算题]某冷库对贮藏一批禽蛋的变质率进行抽样调查,根据以前的资料,禽蛋贮藏期变质率为5.3%。4.9%,现在允许误差不超过5%,推断的置信水平为95%,问至少要抽取多少禽蛋进行检查?
解:已知π1=5.3%,π2=4.9%,e=5%,zα/2=1.96.
因为:π1(1-π1)=0.053χ(1-0.053)=0.050
π2(1-π2)=0.049χ(1-0.049)=0.047,选方差最大的0.050,则
==76.83≈77个
即应抽取77个禽蛋作为样本。
[例题·多选题]计算样本容量,如果总体比例的值未知,可以()
a.用样本比例来代替
b.取总体比例值为0.5,使得π (1- π )达到最大
c.取总体比例值为0.1,使得π (1- π )达到最大
d.取总体比例值为0.2,使得π (1- π )达到最小
e.取总体比例值为0.3,使得π (1- π )达到最小
答案:ab
解析:计算样本容量,如果总体比例的值未知,大多数情况下,估计误差的取值一般应小于0.1.如果总体比例π的值不知道,可以用样本比例s来代替,或者取π =0.5,使得π (1- π )达到最大。
[例题·判断题]在确定总体比例估计中的样本容量时,如果缺少比例的方差,常取比例值为0.5。
答案:正确
解析:取π =0.5,使得π (1- π )达到最大
欢迎您的光临,Word文档下载后可修改编辑双击可删除页眉页脚谢谢!希望您提出您宝贵的意见,你的意见是我进步的动力。赠语;、如果我们做与不做都会有人笑,如果做不好与做得好还会有人笑,那么我们索性就做得更好,来给人笑吧!、现在你不玩命的学,以后命玩你。、我不知道年少轻狂,我只知道胜者为王。、不要做金钱、权利的奴隶;应学会做金钱、权利的主人。、什么时候离光明最近?那就是你觉得黑暗太黑的时候。、最值得欣赏的风景,是自己奋斗的足迹。、压力不是有人比你努力,而是那些比你牛×几倍的人依然比你努力。
第15章 工具变量估计与两阶段最小二乘法 在本章中,我们进一步研究多元回归模型中的内生解释变量(endogenous explanatory variable )问题。在第3章中,我们推导出,遗漏一个重要变量时OLS 估计量的偏误;在第5章中,我们说明了在遗漏变量(omitted variable )的情况下,OLS 通常是非一致性的。第9章则证明了,对未观测到的解释变量给出适宜的代理变量,能消除(或至少减轻)遗漏变量偏误。不幸的是,我们不是总能得到适宜的代理变量。 在前两章中,我们解释了存在不随时间变化的遗漏变量的情况下,对综列数据如何用固定效应估计或一阶差分来估计随时间变化的自变量的影响。尽管这些方法非常有用,可我们不是总能获得综列数据的。即使能获得,如果我们的兴趣在于变量的影响,而该变量不随时间变化,它对于我们也几无用处:一阶差分或固定效应估计排除了不随时间变化的变量。此外,迄今为止我们已研究出的综列数据法还不能解决与解释变量相关的随时间而变化的遗漏变量的问题。 在本章中,我们对内生性问题采用了一个不同的方法。你将看到如何用工具变量法(IV )来解决一个或多个解释变量的内生性问题。就应用计量经济学中线性方程的估计而言,两阶段最小二乘法(2SLS 或TSLS )是第二受人欢迎的,仅次于普通最小二乘。 我们一开始先说明,在存在遗漏变量的情况下,如何用IV 法来获得一致性估计量。此外,IV 能用于解决含误差变量(errors-in-variable )的问题,至少是在某些假定下。下一章将证明运用IV 法如何估计联立方程模型。 我们对工具变量估计的论述严格遵照我们在第1篇中对普通最小二乘的推导,其中假定我们有一个来自基本总体的随机样本。这个起点很合人意,因为除了简化符号之外,它还强调了应根据基本总体来表述对IV 估计所做的重要的假定(正如用OLS 时一样)。如我们在第2篇中所示,OLS 可以应用于时间序列数据,而工具变量法也一样可以。第15.7节讨论IV 法应用于时间序列数据时出现的一些特殊问题。在第15.8节中,我们将论述在混合横截面和综列数据上的应用。 15.1 动机:简单回归模型中的遗漏变量 面对可能发生的遗漏变量偏误(或未观测到的异质性),迄今为止我们已讨论了三种选择:(1)我们可以忽略此问题,承受有偏、非一致性估计量的后果;(2)我们可以试图为未观测到的变量寻找并使用一个适宜的代理变量;(3)我们可以假定遗漏变量不随时间变化,运用第`13与14章中的固定效应或一阶差分方法。若能把估计值与关键参数的偏误方向一同给出,则第一个回答是令人满意的。例如,如果我们能说一个正参数(譬如职业培训对往后工资的影响)的估计量有朝零偏误 ,并且我们找到了一个统计上显著的正的估计值,那么我们还是学到了一些东西:职业培训对工资有正的影响,而我们很可能低估了该影响。不幸的是,相反的情况经常发生,我们的估计值可能在数值上太大了,以致我们要得出任何有用的结论都非常困难。 第9.2节中讨论的代理变量解也能获得令人满意的结果,但并不是总可以找到一个好的代理。该方法试图通过用代理变量取代不可观测的变量,来解决遗漏变量的问题。 另一种方法是将未观测到的变量留在误差项中,但不是用OLS 估计模型,而是运用一种承认存在遗漏变量的估计方法。这便是工具变量法所要做的。 举例来说,考虑成年劳动者的工资方程中存在未观测到的能力的问题。一个简单的模型为: ,)log(210e abil educ wage +++=βββ 其中e 是误差项。在第9章中,我们说明了在某些假定下,如何用诸如IQ 的代理变量代替能力,从而通过以下回归可得到一致性估计量 )log(wage 对IQ educ , 回归
工具变量法的Stata命令及实例 ●本实例使用数据集“”。 ●先看一下数据集的统计特征: . sum Variable Obs Mean Std. Dev. Min Max rns 758 .2691293 .4438001 0 1 rns80 758 .292876 .4553825 0 1 mrt 758 .5145119 .5001194 0 1 mrt80 758 .8984169 .3022988 0 1 smsa 758 .7044855 .456575 0 1 smsa80 758 .7124011 .452942 0 1 med 758 10.91029 2.74112 0 18 iq 758 103.8562 13.61867 54 145 kww 758 36.57388 7.302247 12 56 year 758 69.03166 2.631794 66 73 age 758 21.83509 2.981756 16 30 age80 758 33.01187 3.085504 28 38 s 758 13.40501 2.231828 9 18 s80 758 13.70712 2.214693 9 18 expr 758 1.735429 2.105542 0 11.444 expr80 758 11.39426 4.210745 .692 22.045 tenure 758 1.831135 1.67363 0 10 tenure80 758 7.362797 5.05024 0 22 lw 758 5.686739 .4289494 4.605 7.051 lw80 758 6.826555 .4099268 4.749 8.032 ●考察智商与受教育年限的相关关系: . corr iq s (obs=758) iq s iq 1.0000 s 0.5131 1.0000 上表显示,智商(在一定程度上可以视为能力的代理变量)与受教育年限具有强烈的正相关关系(相关系数为)。 ●作为一个参考系,先进行OLS回归,并使用稳健标准差:
第1章 两阶段最小二乘法 在模型的基本假定中,解释变量与误差项正交保证了参数估计量的无偏性和一致性。当这一假定被违背时,称解释变量是内生的。常见的几种情况会导致内生问题:忽略重要的解释变量、变量的测量误差、变量的联立性。工具变量估计是解决解释变量内生问题的基本方法。本章介绍工具变量法和两阶段最小二乘法,以及模型内生性检验和过度识别约束检验等问题。 1.1 变量的内生性 如果模型中的解释变量与误差项出现相关,即(')E =X u 0,称解释变量是内生的。导致 解释变量内生性的原因有很多,主要的几个原因包括:模型中忽略了重要的解释变量、变量因果关系的双向性、变量的测量误差等。 模型中出现内生解释变量时,OLS 估计量是不一致的。根据OLS 估计量: 11111?(')(')(')(')(')(')N N -----==+=+βX X X y βX X X u βX X X u (1.1) 由假定Rank(X)=K 和大数定律,样本均值的概率极限等于总体均值,可得: 1Plim(')E(')N -=≡X X X X A , 1Plim(')E(')N -=≠X u X u 0。 (1.2) 又由Slustky 定理, 111Plim(')N ---=X X A 1?Plim E(')-=+≠β βA X u β (1.3) 1.2 工具变量估计 1.2.1 工具变量 在如下模型中, y = X β+ u 第i 个解释变量x i 为内生解释变量。如果存在变量z ,z 满足如下两个条件: 正交条件:与u 不相关,即cor(z, u) = 0 相关条件:与x 相关,即cor(z, x i ) ≠ 0,也称为识别约束条件。 那么,z 被称作x i 的工具变量。
工具变量法 一、工具变量法的主要思想 在无限分布滞后模型中,为了估计回归系数,通常的做法是对回归系数作一些限制,从而对受限的无限分布滞后模型进行估计。在这里,考伊克模型、适应性期望模型与部分调整模型给出了很好的解决此类问题的思路。经过变换,新的模型中,随机扰动项的表达式为: 考伊克模型:1t t t v u u λ-=- (01λ<< ,λ为衰减率) (1.1); 适应性期望模型:1(1)t t t v u u λ-=--(01λ<< ,λ为期望系数)(1.2); 部分调整模型:(1)t t v u γ=-(01γ≤< , 1γ-为调整系数) (1.3)。 t u 为原无限分布滞后模型中的扰动项,t v 为变换后的扰动项。 在原模型中的随机扰动项满足经典假设的前提下,部分调整模型也满足经典假设,但是考伊克模型与适应性期望模型的随机扰动项由于存在原随机扰动项的滞后项,也就是说考伊克模型与适应性期望模型的解释变量1t Y - 势必与误差项t v 相关,因此,可能会出现上述两个模型的最小二乘估计甚至是有偏的这样严重的问题。那么,我们是否可以找到一个与1t Y -高度相关但与t v 不相关的变量来替代 1t Y -?在这里,一个可行的估计方法就是工具变量法。 在讨论工具变量法之前,我们先来了解一下外生变量和内生变量。 一般来说:一个回归模型中的解释变量有的与随机扰动项无关,我们称这样的解释变量为外生变量;而模型中有的解释变量与随机扰动项相关,我们可称这样的解释变量为内生解释变量。内生解释变量的典型情况之一就是滞后应变量为解释变量的情形,如上述考伊克模型与适应性期望模型中的1t Y -。 外生解释变量:回归模型中的解释变量与随机扰动项无关; 内生解释变量:回归模型中的解释变量与随机扰动项无关; 了解了内生变量和外生变量的概念,我们接着讨论工具变量法的主要思想:工具变量法和普通最小二乘法是模型参数估计的两类重要方法,在多元线性回归模型中,如果出现解释变量与随机误差项相关(即出现内生变量)时,其回归系数的普通最小二乘估计是非一致的,这时就需要引入工具变量。 工具变量,顾名思义是在模型估计过程中被作为工具使用,以替代模型中与随机误差性相关的随机解释变量(即内生变量)。 满足条件:1)总体无关:工具变量与随机扰动项无关; 2)样本相关:工具变量必须与被它所代替的内生变量高度相关; 3)与模型中其他解释变量不相关,以避免出现多重共线性。 做了替代后,用普通最小二乘法即可得到原回归系数的一致估计量。 二、工具变量法的基本原理
工具变量法 一、工具变量法得主要思想 在无限分布滞后模型中,为了估计回归系数,通常得做法就是对回归系数作一些限制,从而对受限得无限分布滞后模型进行估计。在这里,考伊克模型、适应性期望模型与部分调整模型给出了很好得解决此类问题得思路。经过变换,新得模型中,随机扰动项得表达式为: 考伊克模型: ( ,为衰减率) (1、1); 适应性期望模型:(,为期望系数)(1、2); 部分调整模型:( ,为调整系数) (1、3)。 为原无限分布滞后模型中得扰动项,为变换后得扰动项。 在原模型中得随机扰动项满足经典假设得前提下,部分调整模型也满足经典假设,但就是考伊克模型与适应性期望模型得随机扰动项由于存在原随机扰动项得滞后项,也就就是说考伊克模型与适应性期望模型得解释变量势必与误差项相关,因此,可能会出现上述两个模型得最小二乘估计甚至就是有偏得这样严重得问题。那么,我们就是否可以找到一个与高度相关但与不相关得变量来替代?在这里,一个可行得估计方法就就是工具变量法。 在讨论工具变量法之前,我们先来了解一下外生变量与内生变量。 一般来说:一个回归模型中得解释变量有得与随机扰动项无关,我们称这样得解释变量为外生变量;而模型中有得解释变量与随机扰动项相关,我们可称这样得解释变量为内生解释变量。内生解释变量得典型情况之一就就是滞后应变量为解释变量得情形,如上述考伊克模型与适应性期望模型中得。 外生解释变量:回归模型中得解释变量与随机扰动项无关; 内生解释变量:回归模型中得解释变量与随机扰动项无关; 了解了内生变量与外生变量得概念,我们接着讨论工具变量法得主要思想:工具变量法与普通最小二乘法就是模型参数估计得两类重要方法,在多元线性回归模型中,如果出现解释变量与随机误差项相关(即出现内生变量)时,其回归系数得普通最小二乘估计就是非一致得,这时就需要引入工具变量。 工具变量,顾名思义就是在模型估计过程中被作为工具使用,以替代模型中与随机误差性相关得随机解释变量(即内生变量)。 满足条件:1)总体无关:工具变量与随机扰动项无关; 2)样本相关:工具变量必须与被它所代替得内生变量高度相关; 3)与模型中其她解释变量不相关,以避免出现多重共线性。 做了替代后,用普通最小二乘法即可得到原回归系数得一致估计量。 二、工具变量法得基本原理 我们分别从简单线性回归模型与多元线性回归模型两方面来具体分析工具变量法得基本原理: 简单线性回归模型 考虑简单线性回归模型(2、1)其中为内生变量。 则其正规方程为:(2、2) 设回归模型中得解释变量与随机扰动项相关,则如前所述,普通最小二乘估计量就是非一致得。现用一个工具变量来代替正规方程中得解释变量,其残差表达式不变。
工具变量法 Document serial number【UU89WT-UU98YT-UU8CB-UUUT-UUT108】
工具变量法 一、工具变量法的主要思想 在无限分布滞后模型中,为了估计回归系数,通常的做法是对回归系数作一些限制,从而对受限的无限分布滞后模型进行估计。在这里,考伊克模型、适应性期望模型与部分调整模型给出了很好的解决此类问题的思路。经过变换,新的模型中,随机扰动项的表达式为: 考伊克模型:1t t t v u u λ-=- (01λ<< ,λ为衰减率) (); 适应性期望模型:1(1)t t t v u u λ-=--(01λ<< ,λ为期望系数)(); 部分调整模型:(1)t t v u γ=-(01γ≤< ,1γ-为调整系数) ()。 t u 为原无限分布滞后模型中的扰动项,t v 为变换后的扰动项。 在原模型中的随机扰动项满足经典假设的前提下,部分调整模型也满足经典假设,但是考伊克模型与适应性期望模型的随机扰动项由于存在原随机扰动项的滞后项,也就是说考伊克模型与适应性期望模型的解释变量1t Y - 势必与误差项t v 相关,因此,可能会出现上述两个模型的最小二乘估计甚至是有偏的这样严重的问题。那么,我们是否可以找到一个与 1t Y -高度相关但与t v 不相关的变量来替代1t Y -在这里,一个可行的估计方法 就是工具变量法。 在讨论工具变量法之前,我们先来了解一下外生变量和内生变量。 一般来说:一个回归模型中的解释变量有的与随机扰动项无关,我们称这样的解释变量为外生变量;而模型中有的解释变量与随机扰动项相
关,我们可称这样的解释变量为内生解释变量。内生解释变量的典型情况之一就是滞后应变量为解释变量的情形,如上述考伊克模型与适应性期望模型中的1t Y 。 外生解释变量:回归模型中的解释变量与随机扰动项无关; 内生解释变量:回归模型中的解释变量与随机扰动项无关; 了解了内生变量和外生变量的概念,我们接着讨论工具变量法的主要思想:工具变量法和普通最小二乘法是模型参数估计的两类重要方法,在多元线性回归模型中,如果出现解释变量与随机误差项相关(即出现内生变量)时,其回归系数的普通最小二乘估计是非一致的,这时就需要引入工具变量。 工具变量,顾名思义是在模型估计过程中被作为工具使用,以替代模型中与随机误差性相关的随机解释变量(即内生变量)。 满足条件:1)总体无关:工具变量与随机扰动项无关; 2)样本相关:工具变量必须与被它所代替的内生变量高度相关; 3)与模型中其他解释变量不相关,以避免出现多重共线性。 做了替代后,用普通最小二乘法即可得到原回归系数的一致估计量。 二、工具变量法的基本原理 我们分别从简单线性回归模型和多元线性回归模型两方面来具体分析工具变量法的基本原理: 简单线性回归模型
第15章 工具变量估计与两阶段最小二乘法15.1复习笔记 一、动机:简单回归模型中的遗漏变量 1.面对可能发生的遗漏变量偏误(或无法观测异质性)的四种选择 (1)忽略遗漏变量问题,承受有偏而又不一致估计量,若能把估计值与关键参数的偏误方向一同给出,则该方法便令人满意。 (2)试图为无法观测变量寻找并使用一个适宜的代理变量,该方法试图通过用代理变量取代无法观测变量来解决遗漏变量的问题,但并不是总可以找到一个好的代理。 (3)假定遗漏变量不随时间变化,运用固定效应或一阶差分方法。 (4)将无法观测变量留在误差项中,但不是用OLS 估计模型,而是运用一种承认存在遗漏变量的估计方法,工具变量法。 2.工具变量法 简单回归模型 01y x u ββ=++其中x 与u 相关: ()Cov 0 ,x u ≠(1)为了在x 和u 相关时得到0β和1β的一致估计量,需要有一个可观测到的变量z,z 满足两个假定: ①z 与u 不相关,即Cov(z,u)=0;
②z 与x 相关,即Cov(z,x)≠0。 满足这两个条件,则z 称为x 的工具变量,简称为x 的工具。 z 满足①式称为工具外生性条件,工具外生性意味着,z 应当对y 无偏效应(一旦x 和u 中的遗漏变量被控制),也不应当与其他影响y 的无法观测因素相关。z 满足②式意味着z 必然与内生解释变量x 有着或正或负的关系。这个条件被称为工具相关性。 (2)工具变量的两个要求之间的差别 ①Cov(z,u)是z 与无法观测误差u 的协方差,通常无法对它进行检验:在绝大多数情形中,必须借助于经济行为或反思来维持这一假定。 ②给定一个来自总体的随机样本,z 与x(在总体中)相关的条件则可加以检验。最容易的方法是估计一个x 与z 之间的简单回归。在总体中,有 01x z v ππ=++从而,由于 ()() 1Cov /ar V ,x z z π=所以式Cov(z,x)≠0中的假定当且仅当10π≠时成立。因而就能够在充分小的显著水平上,相对双侧对立假设110H π≠:而拒绝虚拟假设010H π=:。就能相当有把握地肯定工具z 与x 是相关的。 3.工具变量估计量 (1)参数的工具变量(IV)估计量 参数的识别意味着可以根据总体矩写出1β,而总体矩可用样本数据进行估计。为了根据总体协方差写出1β,利用简单回归方程可得z 与y 之间的协方差为:
内生性与工具变量估计方法 一 一元模型的IV 估计 采用MROZ 数据,进行练习。 估计教育对工资收入的回报: 01log()wage educ ββμ =++ 为了便于比较首先得到OLS 估计结果,在命令窗口输入 smpl 1 428 equation eq01.ls log(wage) c educ 教育的系数估计值表明,每多接受一年教育可得到月11%的回报。 接下来,我们用父亲的受教育程度(fatheduc )作为educ 的工具变量。我们必须认为fatheduc 与u 不相关;第二个要求是educ 与fatheduc 相关。为了验证第二点,作一个educ 对fatheduc 的回归。 equation eq02.ls educ c fatheduc 可以看出,educ 与fatheduc 之间存在统计显著的正相关。
采用fatheduc 作为educ 的工具变量,进行工具变量回归。 equation eq03.tsls log(wage) c educ @ fatheduc IV 估计量的标准误是OLS 标准误的2.5倍,这在我们的意料之中。 二 多元模型的IV 估计 采用card 数据,进行练习。 估计教育对工资收入的回报: 012log()var wage educ Control iables βββμ =+++ 为了便于对照,先做OLS 回归 Smpl 1 3010 Equation eq01.ls log(wage) c educ exper expersq black smsa south smsa66 reg662 reg663 reg664 reg665 reg666 reg667 reg668 reg669
工具变量原理 教学目的及要求: 1、理解引入随机解释变量的目的及产生的影响 2、理解估计量的渐进无偏性和一致性 3、掌握随机解释变量OLS 的估计特性 4、应用工具变量法解决随机解释变量问题 第一节 随机解释变量问题 一、随机解释变量问题产生的原因 多元(k )线性回归模型: i ki k i i i U X X X Y ++???+++=ββββ22110 (8-1) 其矩阵形式为: U XB Y += (8-2) 在多元(k )线性回归模型中,我们曾经假定,解释变量j X 是非随机的。如果j X 是随机的,则与随机扰动项i U 不相关。即: C o v () i ij U X ,0= ),,2,1;,,2,1(n i k j ???=???= (8-3) 许多经济现象中,这种假定是不符合实际的,因为许多经济变量是不能用控制的方法进行观测的,所以作为模型中的解释变量其取值就不可能在重复抽样中得到相同和确定的数值,其取值很难精确控制,也不易用实验方法进行精确观测,解释变量成为随机变量。又由于随机项U 包含了模型中略去的解释变量,而略去的解释变量往往是同模型中相关的变量,因而就很有可能在X 是随机变量的情况下与随机项U 相关,这样原有的古典假设就不能满足,产生随机解释变量。 在联立方程模型以及模型中包含有滞后内生变量等情况下,如果扰动项是序列相关的,那么均有扰动项和解释变量之间的相关性的出现,模型就存在随机解释变量问题。
例如,固定资产投资与国民收入的关系满足如下模型: t t t t u I Y I +++=-1210βββ 其中,t I 为t 期的固定资产投资,1-t I 为1-t 期的固定资产投资,t Y 为t 期的国民收入,因为1 -t I 是随机变量,故模型中存在随机解释变量。 再如,消费与收入之间的影响关系模型为 t t t t u C Y C +++=-1210βββ 其中,t C 为t 期的消费支出,1-t C 为1-t 期的消费支出,t Y 是t 期的收入,因为1-t C 是随机变量,故模型中存在随机解释变量。 二、随机解释变量问题的后果 模型中,在解释变量为随机变量并且与扰动项相关的情况下,应用普通最小二乘法估计参数可能会出现估计的不一致性,使得估计值产生很大的偏误,造成拟合优度检验的全面失准,F 检验失效,t 检验失去意义。在这种情况下,各种统计检验得到的是虚假的结果,不能作为判别估计式优劣的依据。 随机解释变量带来何种结果取决于它与随机误差项是否相关: 1)随机解释变量与随机误差项不相关 2)随机解释变量与随机误差项在小样本下相关,在大样本下渐进无关 3)随机解释变量与随机误差项高度相关 4)滞后被解释变量与随机误差项相关 第二节 随机解释变量模型的估计特性 我们讨论的估计量的性质(包括无偏性、最小方差性)都是在样本容量一定的情况下的统计性质,在数理统计上叫做小样本性质。在某些情况下,小样本时的估计量不具有某种统计性质,但是随着样本容量的增大,一个估计量在小样本时不具有的性质,大样本时就逐渐具有这种统计性质了,这种性质我们叫做大样本性质或叫做估计量的渐近统计性质。常用的渐近统计性质有渐近无偏性和一致性。