第一讲 普通最小二乘法的代数
一、 问题
假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。我们对01ββ、这两个参数的值一无所知。我们的任务是利用样本数据去猜测01ββ、的取值。现在,我们手中就有一个样本容量为N 的样本,其观测值是:
1122(,),(,),...,(,)N N y x y x y x 。问题是,如何利用该样本来猜测
01ββ、的取值
为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。既然y 与x 具有近似的线性关系,
那么我们就在图中拟合一条直线:0
1
???y x ββ=+。该直线是对
y 与x 的真实关系的近似,而01??,ββ分别是对01
,ββ的猜测(估计)。问题是,如何确定0
?β
与1
?β,以使我们的猜测看起来是合理的呢
笔记:
1、为什么要假定y 与x 的关系是0
1y x ββε=++呢一种合理的解释
是,某一经济学理论认为x 与y 具有线性的因果关系。该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。 2、
01y x ββε=++被称为总体回归模型。由该模型有:
01E()E()y x x x ββε=++。既然ε代表其他不重要因素对y 的影响,
因此标准假定是:E()0x ε=。故进而有:01E()y x x ββ=+,这被
称为总体回归方程(函数),而01
???y x ββ=+相应地被称为样本回归方程。由样本回归方程确定的?y
与y 是有差异的,?y y -被称为残差?ε。进而有:01
???y x ββε=++,这被称为样本回归模型。 二、 两种思考方法
法一:
12(,,...,)N y y y '与12???(,,...,)N y y y '是N 维空间的两点,0
?β与1
?β的选择应该是这两点的距离最短。这可以归结为求解一个数学问题:
由于?i i y y -是残差?i ε的定义,因此上述获得0?β与1
?β的方法即是0?β与1
?β的值应该使残差平方和最小。 法二:
给定i x ,看起来i y 与?i y 越近越好(最近距离是0)。然而,
当你选择拟合直线使得i y 与?i y
是相当近的时候,j y 与?j y 的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,
给定12,,..,N x x x ,拟合直线的选择应该使1y 与2?y 、2y 与2?y
、...、N y 与?N y 的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题:
由于N 为常数,因此法一与法二对于求解0?β与1
?β的值是无差异的。
三、 求解
定义2011
??()N
i i
i Q y x ββ==--∑,利用一阶条件,有: 由(1)也有:
在这里11N i i y y N ==∑、1
1N
i i x x N ==∑
笔记:
这表明:1、样本回归函数01???y x ββ=+过点(,)x y ,即穿过数据集的中心位置;2、?y y =(你能证明吗),这意味着,尽管01??ββ、的取值不能保证?i i y y =,但01
??ββ、的取值能够保证?y 的平均值与y 的平均值相等;3、虽然不能保证每一个残差都为0,但我们可以保证残差的
平均值为0。从直觉上看,01??ββ、作为对01
ββ、的一个良好的猜测,它们应该满足这样的性质。 笔记:
对于简单线性回归模型:0
1y x ββε=++,在OLS 法下,由正规
方程(1)可知,残差之和为零【注意:只有拟合直线带有截距时才存在正规方程(1)】。由正规方程(2),并结合正规方程(1)有:
1?????0()()()0?(,)0i i
i i i
i
x
x x x Cov x εε
εεεε
=?-=
--=?=∑∑∑见练习()提示
无论
用何种估计方法,我们都希望残差所包含的信息价值很小,如果残差还含有大量的信息价值,那么该估计方法是需要改进的!对模型
01y x ββε=++利用OLS ,我们能保证(1):残差均值为零;(2)残
差与解释变量x 不相关【一个变量与另一个变量相关是一个重要的信
息】。
方程(1)与(2)被称为正规方程,把01
??y x ββ=-带入(2),有:
上述获得01
??ββ、的方法就是普通最小二乘法(OLS )。 练习: (1)验证:
提示:定义i Z 的离差为i i z Z Z =-,则离差之和1
0N
i
i z
==∑必为零。利
用这个简单的代数性质,不难得到: 笔记:
定义y 与x 的样本协方差、x 的样本方差分别为:
2
(,)()()/()()/i i i Cov x y x x y y N Var x x x N
=--=-∑∑,
则1(,)?()
Cov x y Var x β=。
上述定义的样本协方差及其样本方差分别是对总体协方差xy δ及其总体方差2
x δ的有偏估计。相应的无偏估计是:
基于前述对()Var x 与(,)Cov x y 的定义,可以验证:
其中a ,b 是常数。值得指出的是,在本讲义中,在没有引起混淆的情况下,我们有时也用()Var x 、(,)Cov x y 来表示总体方差与协方差,不过上述公式同样成立。
(2)假定y x βε=+,用OLS 法拟合一个过原点的直线:
??y
x β=,求证在OLS 法下有: 并验证:∑∑∑+=2
22
??i i i
y y ε
笔记:
1、现在只有一个正规方程,该正规方程同样表明
?0i i x ε=∑。然而,由于模型无截距,因此在OLS 法下我们不能保证?0i
ε
=∑恒成立。所以,尽管?0i i
x ε
=∑成立,但现在该式并不意味着?(,)0Cov x ε=成立。
2、无截距回归公式的一个应用:
01101()()()
i i i i i i y x y y x x y x ββεβεεββε=++?
?
??-=-+-??=++?
定义i
i F y y =-、i i D x x =-、i i e εε=-,则1i i i F D e β=+。按
照OLS 无截距回归公式,有:
(3)假定y βε=+,用OLS 法拟合一水平直线,即:??y
β=,求证?y β
=。 笔记:
证明上式有两种思路,一种思路是求解一个最优化问题,我们所获得的一个正规方程同样是?
0i
ε=∑;另外一种思路是,模型y βε
=+是模型
y x βε=+的特例,利用?0i i x ε
=∑的结论,注意到此时1i x =,因此同样有?0i ε
=∑。 (4)对模型01y x ββε=++进OLS 估计,证明残差与?y 样本不相关,即??(,)0Cov y ε
=。
四、 拟合程度的判断
(一)方差分解及其R 2
的定义
可以证明,??()()()Var y Var y Var ε=+。 证明:
方差表示一个变量波动的信息。方差分解亦是信息分解。建
立样本回归函数0
1
???y x ββ=+时,从直觉上看,我们当然希望
关于?y
的波动信息能够最大程度地体现关于y 的波动信息。因此,我们定义判定系数2
?()()
Var y
R Var y =,显然,201R ≤≤。
如果R 2大,则y 的波动信息就越能够被?y
的波动信息所体现。R 2也被称为拟合优度。当21R =时,?()0Var ε
=,而残差均值又为零,因此着各残差必都为零,故样本回归直线与样本数据完全拟合。
(二)总平方和、解释平方和与残差平方和
定义:
其中TSS 、ESS 、RSS 分别被称为总平方和、解释平方和与残差平方和。根据方差分解,必有:TSS=ESS+RSS 。因此,
2/1/R ESS TSS RSS TSS ==-
(三)关于R 2
的基本结论
1、R 2也是y 与?y 的样本相关系数r 的平方。 证明:
2、对于简单线性回归模型:01y x ββε=++, R 2
是y 与x
的样本相关系数的平方。证明:
2
222 2011
2
011
22
???
?(,+)
(,)(,)
R???
?
()()()(+)()()
(,)
xy
Cov y x
Cov y y Cov y x
Var y Var y Var y Var x Var y Var x
Cov y x
r
βββ
βββ
===
==
练习:
(1)对于模型:yβε
=+,证明在OLS法下R2=0。
(2)对于模型:
01
y x
ββε
=++,证明在OLS法
警告!
软件包通常是利用公式21/
R RSS TSS
=-,其中2
?
i
RSSε
=∑来计算R2。应该注意到,我们在得到结论
222
?
?
()()
i i i
y y y yε
-=-+
∑∑∑时利用了?0
ε=的性质,而该性质只有在拟合直线带有截距时才成立,因此,如果拟合直线无截距,则上述结论并不一定成立,因此,此时我们不能保证R2为一非负值。总而言之,在利用R2时,我们的模型一定要带有截距。当然,还有一个大前提,即我们所采用的估计方法是OLS。
五、自由度与调整的R2
如果在模型中增加解释变量,那么总的平方和不变,但残差平方和至少不会增加,一般是减少的。为什么呢举一个例子。假如我们用OLS法得到的模型估计结果是:01122
???
?
i i i
y x x
βββ
=++,此时,OLS法估计等价于求解最小化
问题:
令最后所获得的目标函数值(也就是残差平方和)为
RSS1。现在考虑对该优化问题施加约束:2
?0β
=并求解,则得到目标函数值RSS2。
比较上述两种情况,相对于RSS1, RSS2是局部最小。因此,RSS1小于或等于RSS2。应该注意到,原优化问题施加约束后对应于模型估计结果:0
11???i
i
y
x ββ'''=+ 因此,如果单纯依据R 2标准,我们应该增加解释变量以使模型拟合得更好。增加解释变量将增加待估计的参数,在样本容量有限的情况下,这并不一定是明智之举。这涉及到自由度问题。
什么叫自由度假设变量x 可以自由地取N 个值
12(,,...,)N x x x ,那么x 的自由度就是N 。然而,如果施加一个约束,i x a =∑,a 为常数,那么x 的自由度就减少了,新的自由度就是N-1。
考虑在样本回归直线01122????i i i
y x x βββ=++下残差?ε的自由度问题。对残差有多少约束根据正规方程(1)(2),有:
?
?0;0i
i i x εε==∑∑,因此存在两个约束。故残差的自由度是
N-2。如果当样本回归函数是:
012????y x z βββ=++,则残差的自由度为N-3。显然,待估计的参数越多,则残差的自由度越小。
自由度过少会带来什么问题简单来说,自由度过少会使
估计精度很低。例如,我们从总体中随机抽取12,,...,N x x x 来计算x 以作总体均值的估计,现在x 的自由度是N ,显然N 越大则以x 作为总体均值的估计越精确。
根据正规方程,我们是通过残差来获得对参数的估计,因此,残差自由度过少意味着我们对参数的估计也是不精确的。
笔记:
举一个极端的例子,对简单线性回归模型,假定我们只有两次观测
11,)y x (、22(,)y x 。显然,我们可以保证R 2=1,即完全拟合。但我们得
到的这个拟合直线很可能与y 与x 的真实关系相去甚远,毕竟我们只有两次观测。事实上,此时残差的自由度为0!
我们经常需要对估计方法进行自由度调整。 例如,当利用公式2()()/i Var x x x N =-∑来估计总体方差时,我们实际上是对变量2()x x -求样本均值。然而应该注意到,约束条件()0i x x -=∑恒成立,这意味着变量2()x x -的自由度是N-1而不是N 。现在对估计方法进行自由度调整,利用
22
1()1
x i
S x x N =--∑作为对总体方差的估计。上述两种估计具有什么不同的后果呢可以证明, ()Var x 是有偏估计而2x S 是无偏估计。
笔记:
什么叫有偏估计如果我们无限次重复抽取样本容量为N 的样本,针对每一个样本都可以依据公式2
()()/i
Var x x x N =
-∑计算总体方
差的一个估计值。然后,对这些方差的估计值计算平均值,如果该平均值不等于总体方差,那么我们就称()Var x 是对总体方差的一个有偏估计。抽象一点,即2
[()]x E Var x δ≠。
R 2忽视了自由度调整,这由下面的推导可以看出:
在这里,?()Var ε
与()Var y 都是对相应总体方差的有偏估计。现在我们对自由度作调整,重新定义一个指标,即所谓的调整的R 2
(2R ):
应该注意到,如果是针对多元线性回归模型,待估计的斜率参数有k 个,另外还有1个截距(即总的待估计系数参数的个数为k+1个),那么上述公式就是:
22R R ≤,且可能为负数。 思考题:
如果用增加解释变量的方法来提高R 2
,这一定会提高2
R 吗
笔记:
假设甲同学的回归结果是01122????y x x βββε=+++,而乙同学的回归结果是011
???y x ββε'''=++。甲同学足够幸运,他获得的2
R 确实比乙同学所获得的高,但这是否就意味着,依据已有的样本,甲同学所选取的模型就一定优于乙同学所选取的呢答案是“不一定!”。对模型的选取不能仅仅依靠2
R 这个指标,其他的因素应该被考虑,例如,模型是否符合经济学理论,估计参数是否有符合预期的符号,这些因素在模型选择时都十分重要。另外一点也特别要引起重视,即被解释变量不同的模
型(例如一个模型的被解释变量是log y ,而另一个模型其被解释变量是y )其2
R (或者2
R )是不可比的。总而言之,初学者要坚决抵制仅仅依靠2R 来进行模型选择的诱惑!
六、 简单线性回归模型的拓展:多元线性回归模
型
考虑01122????y x x βββ=++,各系数的估计按照OLS 是求解
数学问题:
因此,存在三个正规方程:
第一个方程意味着残差之和为零,也意味着?y
y =及其 笔记:
第一个正规方程
?
0i
ε=∑可以被改写为00?0,1i i i x x ε
==∑。 第二个方程结合第一个正规方程意味着残差与x 1样本不相关;
第三个方程结合第一个正规方程意味着残差与x 2样本不相关。
根据上述三个方程,可以获得0?β、1?β、2
?β,在此不给出具体公式。
笔记:
对于估计结果01122????y x x βββ=++,是不是2?β的数值大于1
?β就一定意味着在解释变量y 时2x 比1x 更加重要呢答案是“不一定!”。这是因为,通过对2x 与1x 取不同的测量单位,那么2x 与1x 前面的估计系数值将发生改变。有一种办法可以使估计系数不随解释变量的测度单位变
化而变化,其基本原理如下:
在这里s 表示变量的样本标准差。定义: 则有:12*12???i
i i y x x i z b z b z ε=++。
在新模型中,解释变量是原变量的标准化,它是无量纲的。保持其
他因素不变,当11i x z ?=时,1?i y z b ?=。注意到11
11
()i
i x x x x z s -?=?,当样本容量很大时1x 与1x s 分别和总体均值1x u 及其总体标准差1x δ近似,因此111/i x i x z x s ?≈?。类似,111/i y i y z y s ?≈?。11i x z ?=意味着
11i x x s ?≈,因此对1?b 的一个翻译是,保持其他因素不变,当1x 变化一个标准差时,y 约将变化1?b 个标准差。类似可以对2
?b 进行翻译。 ?b
被称为标准化系数或者β系数。在实践中,我们可以先利用标准化变量进行无截距回归得到标准化系数,然后反推出非标准化变量回归模型中的各个斜率系数的估计值。
七、 O LS 的矩阵代数
(一)矩阵表示
总体多元回归模型是:
如果用矩阵来描述,首先定义下列向量与矩阵: 模型的矩阵表示: (二)如何得到OLS 估计量
求解一个最小化问题:???()()Min Y X Y X β
β
β--',有: 而根据矩阵微分的知识(见下面的笔记),有:
?()()0()?????()()???()2??Y Y Y X Y X X Y
X Y X X X Y X X X X X X βββββββββββ
??''==='''????''''==+=''''''??故,?X Y X X β
='',则1?()()X X X Y β-='' 笔记:
1、()/()/()/2a b b b a b a
b Ab b Ab ??=??=??='''。在这里,1
m a ?是向量,m m A ?是对称矩阵,a b '与b Ab '都是标量。重要规则是:一个标量关于一个列向量的导数仍是列向量,并且维数保持不变。
2、矩阵微分规则与标准的微积分学中的微分规则具有一定的对应性。假定
(,)()()
f x y x
g x
h y =,则
(,)()
()()()f x y g x g x h y xh y x x
??=+??。注意到:
??()???()2?X X X X X X X X βββ
βββ
?''=+='''''?,在这里?X X β''之所以要取转置,是因为按照规则:一个标量关于一个列向量的导数仍是列向量,而
?X X β
''是一个行向量。 注意,为了保证1()X X -'
的存在,OLS 法假设X 列满秩,即解释变量不是完全共线的【应该注意,截距对应的解释变量取值恒为1】。
笔记:
1、为什么假设
X
列满秩
X X
'是(1)(1)k k +?+矩阵。为了保证
1()X X -'的存在,那么()1rank X X k =+'。基于矩阵知识点:
()()rank X X rank X =',因此这也要求()1rank X k =+。X
是
(1)n k ?+矩阵,因此X 列满秩。
2、对于模型:01122y x x βββε=+++,如果121i i x x +=恒成立,
则X 不是列满秩的,因此1()X X -'
不存在,故无法估计012βββ、、。换一种思路考虑:如果
121i i x x +=恒成立,则由
01122y x x βββε=+++可以推出:
其中a 为任意常数。故此时我们无法对012βββ、、加以识别。
在研究简单线性回归模型时,我们似乎并没有关注解释变量完全共线问题。是不是“解释变量不能完全共线”仅仅是多元线性回归模型的标准假定呢其实不然。考虑简单线性回归模型101i
i i y x ββε=++的矩阵表示: 如果X
列满秩,这意味着11121111
N
x x x λ???? ? ? ? ? ? ?
? ? ? ? ? ? ? ? ? ??
?
?
?
≠,其中λ为常数,从而2
11()0i x x -≠∑。注意到111211()()?()
i i i y y x x x x β--=-∑∑,而2
11()0i x x -≠∑正是我们所要求的!
思考题:
对于模型01122i i i i y x x βββε=+++,如果我们只有2个观
测值,我们能够得到012
???βββ、、吗
计量经济学题库 一、单项选择题(每小题1分) 1.计量经济学是下列哪门学科的分支学科()。 A.统计学 B.数学 C.经济学 D.数理统计学 2.计量经济学成为一门独立学科的标志是()。 A.1930年世界计量经济学会成立B.1933年《计量经济学》会刊出版 C.1969年诺贝尔经济学奖设立 D.1926年计量经济学(Economics)一词构造出来 3.外生变量和滞后变量统称为()。 A.控制变量 B.解释变量 C.被解释变量 D.前定变量 4.横截面数据是指()。 A.同一时点上不同统计单位相同统计指标组成的数据B.同一时点上相同统计单位相同统计指标组成的数据 C.同一时点上相同统计单位不同统计指标组成的数据D.同一时点上不同统计单位不同统计指标组成的数据 5.同一统计指标,同一统计单位按时间顺序记录形成的数据列是()。 A.时期数据 B.混合数据 C.时间序列数据 D.横截面数据 6.在计量经济模型中,由模型系统内部因素决定,表现为具有一定的概率分布的随机变量,其数值受模型中其他变量影响的变量是()。 A.内生变量 B.外生变量 C.滞后变量 D.前定变量 7.描述微观主体经济活动中的变量关系的计量经济模型是()。 A.微观计量经济模型 B.宏观计量经济模型 C.理论计量经济模型 D.应用计量经济模型 8.经济计量模型的被解释变量一定是()。 A.控制变量 B.政策变量 C.内生变量 D.外生变量 9.下面属于横截面数据的是()。 A.1991-2003年各年某地区20个乡镇企业的平均工业产值 B.1991-2003年各年某地区20个乡镇企业各镇的工业产值 C.某年某地区20个乡镇工业产值的合计数 D.某年某地区20个乡镇各镇的工业产值 10.经济计量分析工作的基本步骤是()。 A.设定理论模型→收集样本资料→估计模型参数→检验模型B.设定模型→估计参数→检验模型→应用模型 C.个体设计→总体估计→估计模型→应用模型D.确定模型导向→确定变量及方程式→估计模型→应用模型 11.将内生变量的前期值作解释变量,这样的变量称为()。 A.虚拟变量 B.控制变量 C.政策变量 D.滞后变量 12.()是具有一定概率分布的随机变量,它的数值由模型本身决定。 A.外生变量 B.内生变量 C.前定变量 D.滞后变量 13.同一统计指标按时间顺序记录的数据列称为()。 A.横截面数据 B.时间序列数据 C.修匀数据 D.原始数据 14.计量经济模型的基本应用领域有()。 A.结构分析、经济预测、政策评价 B.弹性分析、乘数分析、政策模拟 C.消费需求分析、生产技术分析、 D.季度分析、年度分析、中长期分析 15.变量之间的关系可以分为两大类,它们是()。 A.函数关系与相关关系B.线性相关关系和非线性相关关系 C.正相关关系和负相关关系D.简单相关关系和复杂相关关系 16.相关关系是指()。 A.变量间的非独立关系B.变量间的因果关系C.变量间的函数关系 D.变量间不确定性的依存关系17.进行相关分析时的两个变量()。
计量经济学(庞浩)第二版第十一章练习题及参考解答 11.1 考虑以下凯恩斯收入决定模型: βββββ-=++=+++=++1011120212212t t t t t t t t t t t C Y u I Y Y u Y C I G 其中,C =消费支出,I =投资指出,Y =收入,G =政府支出;t G 和1t Y -是前定变量。 (1)导出模型的简化型方程并判定上述方程中哪些是可识别的(恰好或过度)。 (2)你将用什么方法估计过度可识别方程和恰好可识别方程中的参数。 练习题11.1参考解答: 1011120212212112122112102012221112111211121112110111121(1)1 1111t t t t t t t t t t t t t t t t t t t t t t t Y C I G Y u Y Y u G Y Y Y G u u u u Y Y G Y G v βββββββββββββββββββπππ----=++=+++++++=++++++++=+++ --------=+++ 102012221011111121112111211121 1011211110201122 111211121 111211111211121101021112011 ()1111(1)()11()111t t t t t t t t t t t u u C Y G u Y u u G u βββββββββββββββββββββββββββββββββββββ--++=+++++----------++= ++ ----++++-----+=-11212111122111121112111211121 20211222111t t t t t t t t u u u Y G Y G v ββββββββββββπππ--+-+++-------=+++ 10201222202111121112111211121 2212201121211020212221 1112111211121 211222********* 1 () 1111(1)()111()11t t t t t t t t t t t t u u I Y G Y u Y G u u Y βββββββββββββββββββββββββββββββββββ----++=++++--------++--++= +++ ------++++----220201120211021202122211112111211121 211211222 1112111213031132311111t t t t t t t t t t u Y G u u u Y Y G v ββββββββββββββββββββββββπππ-----++=+++ ------+-++----=+++
第六章 1、答:给定显著水平α,依据样本容量n和解释变量个数k’,查D.W.表得d统计量的上界 du和下界dL,当0 计量经济学讲义共十讲文档编制序号:[KKIDT-LLE0828-LLETD298-POI08] 第一讲 普通最小二乘法的代数 一、 问题 假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。我们对01ββ、这两个参数的值一无所知。我们的任务是利用样本数据去猜测01ββ、的取值。现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。问题是,如何利用该样本来猜测01ββ、的取值 为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。既然y 与x 具有近似的线性关 系,那么我们就在图中拟合一条直线:01 ???y x ββ=+。该直线是对y 与x 的真实关系的近似,而0 1 ??,β β分别是对01 ,ββ的猜测(估计)。问题是,如何确定0?β与1 ?β,以使我们的猜测看起来是合理的呢 笔记: 1、为什么要假定y 与x 的关系是0 1y x ββε=++呢一种合理的解释 是,某一经济学理论认为x 与y 具有线性的因果关系。该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。 2、0 1y x ββε=++被称为总体回归模型。由该模型有: 01E()E()y x x x ββε=++。既然ε代表其他不重要因素对y 的影 响,因此标准假定是:E()0x ε=。故进而有: 01E()y x x ββ=+,这被称为总体回归方程(函数),而 01 ???y x ββ=+相应地被称为样本回归方程。由样本回归方程确定的?y 与y 是有差异的,?y y -被称为残差?ε。进而有:0 1 ???y x ββε=++,这被称为样本回归模型。 二、 两种思考方法 法一: 12(,,...,)N y y y '与12???(,,...,)N y y y '是N 维空间的两点,0 ?β与1 ?β的选择应该是这两点的距离最短。这可以归结为求解一个数学问题: 由于?i i y y -是残差?i ε的定义,因此上述获得0?β与1 ?β的方法即是0 ?β 与1 ?β的值应该使残差平方和最小。 法二: 给定i x ,看起来i y 与?i y 越近越好(最近距离是0)。然而,当你选择拟合直线使得i y 与?i y 是相当近的时候,j y 与?j y 的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,给定12,,..,N x x x ,拟合直线的选择应该使1y 与 2?y 、2y 与2?y 、...、N y 与?N y 的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦,因此,我们把第二种思考方法转化求解数学问题: 由于N 为常数,因此法一与法二对于求解0?β与1 ?β的值是无差异的。 三、 求解 第11章 OLS 用于时间序列数据的其他问题11.1复习笔记 一、平稳和弱相关时间序列 1.平稳和非平稳时间序列 平稳时间序列过程,就是概率分布在如下意义上跨时期稳定的时间序列过程:如果从这个序列中任取一个随机变量集,并把这个序列向前移动h 个时期,那么其联合概率分布仍然保持不变。 (1)平稳随机过程 对于随机过程{ 1 2 }t x t =:,,…,如果对于每一个时间指标集121m t t t ≤<??<和任意整数h≥1,()12m t t t x x x ???,,,的联合分布都与() 12 m t h t h t h x x x ++???+,,,的联合分布相同,那么这个随机过程就是平稳的。这种平稳经常称为严平稳,它是从概率分布的角度去定义的。其含义之一是(取m=1和t 1=1):对所有t=2,3,…,x 1与x t 都有相同的分布。序列{ 1 2 }t x t =:,,…是同分布的。 不平稳的随机过程称为非平稳过程。因为平稳性是潜在随机过程而非其某单个实现的性质,所以很难判断所搜集到的数据是否由一个平稳过程生成。但是,要指出某些序列不是平稳的却很容易。 (2)协方差平稳过程(宽平稳,弱平稳) 对于一个具有有限二阶矩()2t E x ??∞??<的随机过程{ 1 2 }t x t =:, ,…,若:(i)E(x t )为常数;(ii)Var(x t )为常数;(iii)对任何t,h≥1,Cov(x t ,x t+h )仅取决于h,而不取决于t,那它就是协方差平稳的。 协方差平稳只考虑随机过程的前两阶矩:这个过程的均值和方差不随着时间而变化,而且,x t 和x t+h 的协方差只取决于这两项之间的距离h,与起始时期t 的位置无关。由此立即可知x t 与x t+h 之间的相关性也只取决于h。 如果一个平稳过程具有有限二阶矩,那么它一定是协方差平稳的,但反过来未必正确。由于严平稳的条件比较苛刻,在实际中从概率分布的角度去验证是无法实现的,所以在实际运用中所指的平稳都是指宽平稳,即协方差平稳。一个时间序列是严平稳的不一定是宽平稳,只有当它的二阶矩存在时,才是宽平稳。 2.弱相关时间序列 (1)弱相关 对于一个平稳时间序列过程{ 1 2 }t x t =:,,…,若随着h 无限增大,x t 和x t+h “近乎独立”,则称之为弱相关的。 对于协方差平稳序列,可以用相关系数来刻画弱相关:如果随着h →∞,x t 和x t+h 之间的相关系数“足够快”地趋于0,这个协方差平稳的时间序列就是弱相关的。换言之,随着变量在时间上的距离变大,它们之间的相关系数变得越来越小。随着h →∞,()Corr 0t t h x x →+,的协方差平稳序列被称为渐近无关的。 (2)弱相关对回归分析重要的原因 本质上,它取代了能使大数定律(LLN)和中心极限定理(CLT)成立的随机抽样假定。对于时间序列数据,中心极限定理要求平稳性和某种形式的弱相关,因此,在多元回归分析中使用平稳而又弱相关的时间序列最为理想。 (3)弱相关时间序列的例子 ①独立同分布序列:一个独立序列无疑是弱相关序列。 第一讲 普通最小二乘法的代数 一、 问题 假定y 与x 具有近似的线性关系:01y x ββε=++,其中ε是随机误差项。我们对01ββ、这两个参数的值一无所知。我们的任务是利用样本数据去猜测01ββ、的取值。现在,我们手中就有一个样本容量为N 的样本,其观测值是:1122(,),(,),...,(,)N N y x y x y x 。问题是,如何利用该样本来猜测01ββ、的取值? 为了回答上述问题,我们可以首先画出这些观察值的散点图(横轴x ,纵轴y )。既然y 与x 具有近似的线性关系,那么我们就在图中拟合一条直线: 1 ???y x ββ=+。该直线是对y 与x 的真实关系的近似,而01??,ββ分别是对01 ,ββ的猜测(估计)。问题是,如何确定0 ?β 与1 ?β,以使我们的猜测看起来是合理的呢? 笔记: 1、为什么要假定y 与x 的关系是0 1y x ββε=++呢?一种合 理的解释是,某一经济学理论认为x 与y 具有线性的因果关系。该理论在讨论x 与y 的关系时认为影响y 的其他因素是不重要的,这些因素对y 的影响即为模型中的误差项。 2、 01y x ββε=++被称为总体回归模型。由该模型有: 01E()E()y x x x ββε=++。既然ε代表其他不重要因素对y 的影响,因此标准假定是:E()0x ε=。故进而有: 01E()y x x ββ=+,这被称为总体回归方程(函数),而01 ???y x ββ=+相应地被称为样本回归方程。由样本回归方程确定的 ?y 与y 是有差异的,?y y -被称为残差?ε。进而有:01 ???y x ββε=++,这被称为样本回归模型。 二、 两种思考方法 法一: 12(,,...,)N y y y '与12???(,,...,)N y y y '是N 维空间的两点,0 ?β 与1 ?β的选择应该是这两点的距离最短。这可以归结为求解一个数学问题: 01012201????,,11 ???()()N N i i i i i i Min y y Min y x ββββββ==-=--∑∑ 由于?i i y y -是残差?i ε的定义,因此上述获得0 ?β与1?β的方法即是0 ?β 与1 ?β的值应该使残差平方和最小。 法二: 给定i x ,看起来i y 与?i y 越近越好(最近距离是0)。然而,当你选择拟合直线使得i y 与?i y 是相当近的时候,j y 与?j y 的距离也许变远了,因此存在一个权衡。一种简单的权衡方式是,给定12,,..,N x x x ,拟合直线的选择 应该使1y 与2?y 、2y 与2?y 、...、N y 与?N y 的距离的平均值是最小的。距离是一个绝对值,数学处理较为麻烦, 第六讲 多重共线 一、 FWL 定理及其应用 考虑模型: 112233i i i i i y a b x b x b x ε=++++ (1) 假如我们只关注 1 ?b ,则通过如下步骤可以获得之。 第1步:把 1x 对其他解释变量进行回归(请注意,截距所对应的解释变量为1) ,即有: 101223????i i i i x x x v βββ=+++ (2) 第2步:把 y 也对(2)中的解释变量进行回归,即有: 01223????i i i i y x x w ???=+++ (3) 第3步:把 ?w 对?v 进行回归(不含截距,当然你可以包含截距,但你会发现,截距 的估计结果是零,这是因为?w 与?v 其均值都为零) ,即有模型: ??i i i v e w η=+ (4) 则有:2????i i i w v v η=∑∑,可以验证,1??b η=,且残差?i e 等于初始的残差?i ε。此即著名的FWL 定理(Frisch-Waugh-Lovell theorem )。关于FWL 定理的一个简单证明见附录1。思考题: 利用关于“偏导数”的直觉,你能够理解 1 ??b η=吗? 考察2????i i i w v v η=∑∑,把01223????i i i i y x x w ? ??=---代入,现在分子是: 2012230123????()?????????i i i i i i i i i i i v x i i y x x y v x v v v w v ??????------∑∑∑==∑∑∑ 应该注意到,在进行第一步回归时,OLS 法保证了 203???i i i i i v x x v v ===∑∑∑ 因此,22??????i i i i i i w v y v v v η== ∑∑∑∑ 显然,如果把 y 对?v 直接进行无截距回归: *?i i i y v η? =+ (5) 我们也可以得到: *122???????i i i i i i y v w v b v v η η====∑∑∑∑。 因此,如果只关注如何获得1 ?b ,我们可以把FWL 定理中第二步与第三步合并为把y 对 ? v 直接进行无截距回归。 思考题: ?i ?与?i e 相等吗?提示: ???????i i i e v i i i w y v η ?η--== 注意到, 2?i v ∑是(2)中的残差平方和,对(2),有: 22211 11 ()()??i i i x x x x v TSS ESS RSS -=-+↓↓↓∑∑∑ 计量经济学讲义 第四讲 趋势和DF 检验(修订版) 此翻译稿制作学习之用,如有错误之处,文责自负。 趋势平稳序列(TS )(图1和2) 一个趋势平稳序列绕着一个确定的趋势(序列的均值),其波动幅度不显示增大或者减小的趋势。 线性确定性趋势: t t t y εβα++= ),0(~2 σεiid t t=1,2,… 平方确定性趋势: t t t t y εγβα+++=2 ),0(~2 σεiid t t=1,2,… 通常: t t t f y ε+=)( ),0(~2 σεiid t t=1,2,… 均值是是随时间变化的(川),但是方差是常数。t ε可以为任意平稳序列,也就是说,不一定要是白噪声过程。 通过拟合一个确定的多项式时间趋势,趋势可以来消除:拟合趋势后残差将给出一个去趋势的序列。 一个带线性确定性趋势AR (1)过程可以写作: t 1-t 1t )1)-t (y (t y εβαφβα+--=-- ),0(~2 σεiid t t=1,2,… 此处确定性趋势被t y 减去。然而在实践中,α、β是未知的而且必须估计出来。于是模型可以被重述为: t 1-t 1111t y t )1()1(y εφβφβφαφ++-++-= 其中包含一个截距和一个趋势,也就是 t 1-t 1* *t y t y εφβα+++= 此处 βφαφα11*)1(+-= 且 βφβ)1(1* -= 若1||1<φ,那么此AR 过程就是围绕一个确定性趋势的平稳过程. 差分平稳序列(DF )(也叫单整序列)和随机性趋势 如果一个非平稳序列可以由一个平稳序列通过d 次差分得到,那么我们说这个序列就是d 阶单整的,写做I (d ).这一过程也因此叫做差分平稳过程(DSP ). 因此,平稳序列就是零阶单整的,I (0)。白噪声序列是I (0)。 所以如果序列t d t y w ?=是平稳的,那么t y 就是I (d )。?是差分算子,即 等等2-t 1-t t 2-t 1-t 1-t t 1-t t t t 21-t t t y 2y y )y y ()y y ()y y (y y ,y y y +-=---=-?=??=?-=? 如果序列 1-t t t t y y y w -=?= 是平稳的话,t y 是I (1); 如果序列2-t 1-t t t 2 t y 2y y y w +-=?= 是平稳的,t y 是I (2), 1 根据1961年到1985年期间美国个人消费支出和个人可支配收入数据,得到如下的回归模型: ()() () 8755 .0.9979 .06933.22936.702392.20925.088544.04664.49?232==-=++-=W D R t X X Y t t t 其中:=Y 个人消费支出(1982年10亿美元),=2X 个人可支配收入(PDI )(1982年10亿美元),=3X 道.琼斯工业平均指数。0.946, 1.543L U d d == (1)在回归方程的残差中存在一阶自相关吗?你是如何知道的。 (2)利用杜宾两阶段回归,将上述回归模型进行转换,重新进行回归,结果如下: ()() 28 .2.981 .066.272.3009.089.097.17?2*3*2*===++-=W D R t X X Y t t t 自相关问题解决了吗?你是如何知道的? (3)比较初始回归和变换后的回归,PDI 的t 值急剧下降,这一变化说明了什么? (4)初始方程的2 0.9979R =大于变换后的方程2 0.981R =,因此,初始方程的解释能力比变换后的方程的解释能力强,这种说法是否正确,为什么? 1)存在。因为0.946, 1.543L U d d ==,0.87550.946<,所以存在正相关。 2)自相关问题已经解决。因为0.946, 1.543L U d d ==,1.543 2.284 1.543<<-, 所以不存在自相关。 3)这一变化说明,初始回归方程中,由于存在自相关,使得PDI 的方差被高估了。 4)这种说法不正确。因为被解释变量不同。 2.下面是一个回归模型的检验结果。 White Heteroskedasticity Test: F-statistic 19.41659 Probability 0.000022 Obs*R-squared 16.01986 Probability 0.006788 Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 05/31/06 Time: 10:54 Sample: 1 18 Included observations: 18 Variable Coefficient Std. Error t-Statistic Prob. 选择题(单选题1-10 每题1 分,多选题11-15 每题2 分,共20 分) 1、在多元线性回归中,判定系数R2随着解释变量数目的增加而 B A.减少 B.增加 C.不变 D.变化不定 2、在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近1,则表明模型中 存在 C A.异方差性 B.序列相关 C.多重共线性 D.拟合优度低 3、经济计量模型是指 D A.投入产出模型 B.数学规划模 C.模糊数学模型 D.包含随机方程的经济数学模型 4、当质的因素引进经济计量模型时,需要使用 D A.外生变量 B.前定变量 C.生变量 D.虚拟变量 5、将生变量的前期值作解释变量,这样的变量称为 D A.虚拟变量 B.控制变量 C.政策变量 D.滞后变量 6、根据样本资料已估计得出人均消费支出Y对人均收入X的回归模型Ln Y=5+0.75LnX,这表明 人均收入每增加1%,人均消费支出将预期增加 B A.0.2% B.0.75% C.5% D.7.5% 7、对样本相关系数r,以下结论中错误的是 D A.越接近于1,Y与X之间线性相关程度越高 B.越接 近于0,Y与X之间线性相关程度越弱 C.-1≤r≤1 D.若r=0,则X与Y独立 8、当DW>4-d L,则认为随机误差项εi A.不存在一阶负自相关 B.无一阶序列相关 C.存在一阶正自相关D.存在一阶负自相关 9、如果回归模型包含二个质的因素,且每个因素有两种特征,则回归模型中需要引入 A.一个虚拟变量B.两个虚拟变量 C.三个虚拟变量 D.四个虚拟变量 10、线性回归模型中,检验H0: i =0(i=1,2,…,k) 时,所用的统计量t ?i 服从 var(?i ) A.t(n-k+1) B.t(n-k-2) C.t(n-k-1) D.t(n-k+2) 11、对于经典的线性回归模型,各回归系数的普通最小二乘法估计量具有的优良特性有ABC A.无偏性 B.有效性 C.一致性 D.确定性 E.线性特性 12、经济计量模型主要应用于ABCD A.经济预测 B.经济结构分析 C.评价经济政策 D.政策模拟 13、常用的检验异方差性的方法有ABC、 A.戈里瑟检验 B.戈德菲尔德-匡特检验 C.怀特检验 D.DW检验 E.方差膨胀因子检测 14、对分布滞后模型直接采用普通最小二乘法估计参数时,会遇到的困难有BCE A.不能有效提高模型的拟合优度 B.难以客观确定滞后期的长度 C.滞后期长而样本小时缺乏足够自由度 D.滞后的解释变量存在序列相关问题 E.解释变量间存在多重共线性问题 《中级计量经济学》 蒋岳祥 第一章引言 1.1什么是计量经济学? 计量经济学是由挪威经济学家R.Fisher在三十年代首先创立的一门学科,是关于运用统计方法测量经济关系的艺术与科学,已经成为现代经济学的重要组成部分之一。 如果要给计量经济学(Econometrics)下一个较为确切的定义,我们可以这样界定:计量经济学是这样一门学科,它根据以往历史的经济资料与数据,从经济理论出发,运用数理统计的分析方法对经济关系建立经济计量模型,并依据所建立的模型对经济系统进行结构分析,经济预测和政策评价。所以计量经济学涉及数学学科中的统计学领域和经济学领域,统计学与经济理论是计量经济学的两块基石。 经济现象包罗万象,影响经济的因素有很多,如果我们企图将所有的因素作为研究的对象,我们可能什么结论也得不到,研究经济问题的一般方法是:我们总是选用最重要的因素变量而屏弃一些非本质的因素(变量),还需要了解哪些经济现象是有待解释的,哪些重要因素是有助于解释这些经济现象的,如何度量量化那些因素,并努力寻求它们之间存在的数量关系,并用统计推断来检验这些关系,故一般建立计量经济模型的过程与方法是: 计量经济模型建立,求解,解释过程图 2 1.2 计量经济模型(Econometric Modeling)实例 学过经济学中凯恩斯经济理论的人都知道,理论上说消费和收入存在着密切的联系,如果C 表示消费,Y 表示收入。则C 与Y 的关系,可用消费函数表示: C=f (Y ) (1) 这样的函数满足: 1)边际消费倾向(MPC )dY dC 位于0和1之间,即 0< dY dC <1; 2)平均消费倾向(APC ) Y C 是随着收入的增加而减少。 我们不妨将第二个条件作些化解,这个条件用数学语言表示是:dY Y C d ??? ??<0, 而 C Y Y dY dC dY Y C d dY Y C d 2 111- ? = ? ?? ?? ?= )(1)( 1APC MPC Y Y C dY dC Y -=-?= <0 即MPC <APC 。 在现实经济社会中,消费与收入之间的关系很难确切地用方程(1)表示收入,我们所能采集到的数据往往受到这样那样的影响,我们可用随机扰动ε来表示这些影响,所以,我们要对方程(1)要作适当调整,于是消费和收入之间的关系可以写成如下形式: ),(εY f C = (2) 其中ε是随机扰动。 满足凯恩斯条件的)(ε?Y f 很多,无法枚举穷尽,但我们可以大致将它们分为线性模型与非线性模型两类。 [例1]线性模型(Linear Model) 方程(2)的一个最简单的情况,是C 与Y 的线性关系,即 C=α+βY+ε (3) 其中0<β<1,α>0 如果我们现在从历史记录中或观察到N 个样本,即(Y t ,C t ),t=1.2,……N ,于是我们有如下一组方程: 第八讲 平稳时间序列 在严格意义上,随机过程{}t X 的平稳性是指这个 过程的联合和条件概率分布随着时间t 的改变而保持不变。在实践中,我们更关注弱意义上的平稳或者所谓的协方差平稳: 2();();(,)t t t t j j E X Var X Cov X X μδδ+=== 显然20δδ=。 在本讲义中,平稳皆指协方差平稳。当上述条件中的任意一个被违背时,则称{}t X 是非平稳的。 (一)平稳随机过程的例子 1、白噪声过程{}t ε: 20()0;();(,)0,t t t t j j E Var Cov εεδεε+≠=== 笔记: 假定t ε还服从正态分布,则{}t ε被称为高斯白噪声。在正态分布下,独立与不相关是两个等价的概念,从而高斯白噪声{}t ε也属于严格白噪声。对于严格白噪声过程,有: , (12) ()()t t t t E E εεεε--=,。因此,就预测t ε来说,,1t i i ε-≥没有任何信息价值。当一个变量的当期及其过去值对预测变量未来值没有任何帮助时,我们常常称该变量是不可预测的。 2、AR(1)过程: 011,11t t t y a a y a ε<-=++,{}t ε是白噪声过程 为了验证上述过程满足平稳性条件,我们首先通过迭代得到:1 1 1 1 00 1 0t t i i t i i i t t y a a a y a ε---===++∑∑。接下来注意到, 1 1 1)0(t i i t t E y a a a y -==+∑,进一步假设数据生成过程发生了 很久,即t 趋于无穷大,则0 1 )1(t a E y a μ-==;其次也有 1 1 ()() t i t i i t Var y Var a ε--==∑,当t 趋于无穷大时, 2 12 2 1()11()i t Var a a Var y εδ-= - = ;最后,当t 趋于无穷大时,有: 1211111111222 (12411112) 1......(...) [()()] [()()]s s t t s t s t t s t s t s t t s s s s s a a a a a E y y E a a a a a μμδδεεεεεεε+-----------++- -+++++++++++= == 关于AR(p)过程的平稳性,见附录。下图是对一个 平稳AR(1)过程的模拟。 1,(0,1) 10.8t N ID t t t y y εε-+=+ 笔记: 4 最小二乘原理 计量经济学最关心的理论模型是类似于y x αβ=+ 表示变量之间的关系。 1. 散点图 为了弄清楚变量之间的关系,我们从画出他们的散点图开始比较好。从画的图中我们可以大体上判断以下变量之间是呈直线关系,还是二次曲线关系。这对准确建立模型很有帮助。 模型y x αβ=+代表只要我们知道x ,我们就可以完全知道y 。但是现实中不是这样。这时除了系统因素x 之外,还有其他别的因素影响y 。此时我们用确率模型 ,1,2,,t t t Y X u t n αβ=++= 来表示。其中,y 是被说明变量,或从属变量;x 是说明变量,或独立变量;u 是误差项,也可以叫做搅乱项。 2. 函数的设定与参数的意义 不同的模型定义,它所定义的参数的意义不同。为简单起见,在本节中,我们先省去误差项。我们讨论一下参数的意义。 在y x αβ=+中,dy dx β= ,β意味着x 发生一单位的变化时,y 相应地变化几个单 位,也就是我们所熟悉的限界消费性向。 但是对于y x βα=来说,我们先两边取自然对数,log log log y x αβ=+,这时, log log d y d x β=,其中,log ,log dy dx d y d x y x ==,结果log log d y x dy d x y dx β==。β代 表x 变化1%时,y 变化β%单位。也就是弹力性。 3. 最小二乘法 3-1. 基本符号 样本平均 1 111,n n t t t t X X Y Y n n === = ∑ ∑ 偏离样本平均的平方和 () 2 2222 1 1 1 n n n x t t t t t t S x X X X nX ==== = -= -∑∑∑ ; () 2 2222 1 11n n n y t t t t t t S y Y Y Y nY ==== = -= -∑ ∑∑ ()()1 1 1 n n n xy t t t t t t t t t S x y X X Y Y X Y nX Y ==== = --=-∑∑∑ 其中,,t t t t x X X y Y Y =-=-,小写代表偏离样本平均的程度,即偏差。 偏差有以下重要性质: ()1 1 0n n t t t t x X X === -=∑∑; ()1 1 0n n t t t t y Y Y === -=∑ ∑ 计量经济学讲义 计量经济学讲义 第四讲 趋势和DF 检验(修订版) 此翻译稿制作学习之用,如有错误之处,文责自负。 趋势平稳序列(TS )(图1和2) 一个趋势平稳序列绕着一个确定的趋势(序列的均值),其波动幅度不显示增大或者减小的趋势。 线性确定性趋势: t t t y εβα++= ) ,0(~2σεiid t t=1,2,… 平方确定性趋势: t t t t y εγβα+++=2 ) ,0(~2σεiid t t=1,2,… 通常: t t t f y ε+=)( ) ,0(~2σεiid t t=1,2,… 均值是是随时间变化的(川),但是方差是常数。t ε可以为任意平稳序列,也就是说,不一 定要是白噪声过程。 通过拟合一个确定的多项式时间趋势,趋势可以来消除:拟合趋势后残差将给出一个去趋势的序列。 一个带线性确定性趋势AR (1)过程可以写作: t 1-t 1t )1)-t (y (t y εβαφβα+--=-- ) ,0(~2σεiid t 版权所 t=1,2,… 此处确定性趋势被t y 减去。然而在实践中,α、 β 是未知的而且必须估计出来。于是模型可以被 重述为: t 1-t 1111t y t )1()1(y εφβφβφαφ++-++-= 其中包含一个截距和一个趋势,也就是 t 1 -t 1 * * t y t y εφβα+++= 此处 β φαφα11* )1(+-= 且 β φβ)1(1*-= 若1 ||1 <φ ,那么此AR 过程就是围绕一个确定性 趋势的平稳过程. 差分平稳序列(DF )(也叫单整序列)和随机性趋势 如果一个非平稳序列可以由一个平稳序列通过d 次差分得到,那么我们说这个序列就是d 阶单整的,写做I (d ).这一过程也因此叫做差分平稳过程(DSP ). 因此,平稳序列就是零阶单整的,I (0)。白噪声序列是I (0)。 所以如果序列t d t y w ?=是平稳的,那么t y 就是I (d )。? 是差分算子,即 等等 2-t 1-t t 2-t 1-t 1-t t 1-t t t t 21-t t t y 2y y )y y ()y y ()y y (y y ,y y y +-=---=-?=??=?-=? 第二讲 普通最小二乘估计量 一、基本概念:估计量与估计值 对总体参数的一种估计法则就是估计量。例如,为了估计总体均值为u ,我们可以抽取一个容量为N 的样本,令Y i 为第i 次观测值,则u 的一个很自然的 估计量就是?i Y u Y N ==∑。A 、B 两同学都利用了这种 估计方法,但手中所掌握的样本分别是12(,,...,)A A A N y y y 与12(,,...,)B B B N y y y 。A 、B 两同学分别计算出估计值 ?A i A y u N =∑ 与?B i B y u N =∑ 。因此,在上例中,估计量?u 是随机的,而??,A B u u 是该随机变量可能的取值。估计量 所服从的分布称为抽样分布。 如果真实模型是:01y x ββε=++,其中01,ββ是待估计的参数,而相应的OLS 估计量就是: 1 01 2 ()???;() i i i x x y y x x x βββ-==--∑∑ 我们现在的任务就是,基于一些重要的假定,来考察上述OLS 估计量所具有的一些性质。 二、高斯-马尔科夫假定 ●假定一:真实模型是:01y x ββε=++。有三种 情况属于对该假定的违背:(1)遗漏了相关的解释变量或者增加了无关的解释变量;(2)y 与x 间的关系是非线性的;(3)01,ββ并不是常数。 ●假定二:在重复抽样中,12(,,...,)N x x x 被预先固定 下来,即12(,,...,)N x x x 是非随机的(进一步的阐释见附录),显然,如果解释变量含有随机的测量误差,那么该假定被违背。还存其他的违背该假定的情况。 笔记: 12(,,...,)N x x x 是随机的情况更一般化,此时,高斯-马尔科夫假定二被更改为:对任意,i j ,i x 与j ε不相关,此即所谓的解释变量具有严格外生性。显然,当12(,,...,)N x x x 非随机时,i x 与j ε必定不相关,这是因为j ε是随机的。 ●假定三:误差项期望值为0,即 ()0,1,2i E i N ε==。 笔记: 1、当12(,,...,)N x x x 随机时,标准假定是: 12(,,...,)0,1,2,...,i N E x x x i N ε== 根据迭代期望定律有:12[(,,...,)]()i N i E E x x x E εε=,因 此,如果12(,,...,)0i N E x x x ε=成立,必定有:()0i E ε=。 计量经济学(第四版)习题参考答案 潘省初 第一章 绪论 1.1 试列出计量经济分析的主要步骤。 一般说来,计量经济分析按照以下步骤进行: (1)陈述理论(或假说) (2)建立计量经济模型 (3)收集数据 (4)估计参数 (5)假设检验 (6)预测和政策分析 1.2 计量经济模型中为何要包括扰动项? 为了使模型更现实,我们有必要在模型中引进扰动项u 来代表所有影响因变量的其它因素,这些因素包括相对而言不重要因而未被引入模型的变量,以及纯粹的随机因素。 1.3什么是时间序列和横截面数据? 试举例说明二者的区别。 时间序列数据是按时间周期(即按固定的时间间隔)收集的数据,如年度或季度的国民生产总值、就业、货币供给、财政赤字或某人一生中每年的收入都是时间序列的例子。 横截面数据是在同一时点收集的不同个体(如个人、公司、国家等)的数据。如人口普查数据、世界各国2000年国民生产总值、全班学生计量经济学成绩等都是横截面数据的例子。 1.4估计量和估计值有何区别? 估计量是指一个公式或方法,它告诉人们怎样用手中样本所提供的信息去估计总体参数。在一项应用中,依据估计量算出的一个具体的数值,称为估计值。如Y 就是一个估计量,1 n i i Y Y n == ∑。现有一样本,共4个数,100,104,96,130,则 根据这个样本的数据运用均值估计量得出的均值估计值为 5.1074 130 96104100=+++。 第二章 计量经济分析的统计学基础 2.1 略,参考教材。 2.2请用例2.2中的数据求北京男生平均身高的99%置信区间 N S S x = =45 =1.25 用α=0.05,N-1=15个自由度查表得005.0t =2.947,故99%置信限为 x S t X 005.0± =174±2.947×1.25=174±3.684 也就是说,根据样本,我们有99%的把握说,北京男高中生的平均身高在170.316至177.684厘米之间。 2.3 25个雇员的随机样本的平均周薪为130元,试问此样本是否取自一个均值为120元、标准差为10元的正态总体? 原假设 120:0=μH 备择假设 120:1≠μH 检验统计量 () 10/25X X μσ-Z == == 查表96.1025.0=Z 因为Z= 5 >96.1025.0=Z ,故拒绝原假设, 即 此样本不是取自一个均值为120元、标准差为10元的正态总体。 2.4 某月对零售商店的调查结果表明,市郊食品店的月平均销售额为2500元,在下一个月份中,取出16个这种食品店的一个样本,其月平均销售额为2600元,销售额的标准差为480元。试问能否得出结论,从上次调查以来,平均月销售额已经发生了变化? 原假设 : 2500:0=μH 备择假设 : 2500:1≠μH ()100/1200.83?X X t μσ-= === 查表得 131.2)116(025.0=-t 因为t = 0.83 < 131.2=c t , 故接受原假 设,即从上次调查以来,平均月销售额没有发生变化。计量经济学讲义共十讲
伍德里奇《计量经济学导论》(第5版)笔记和课后习题详解-第11章 OLS用于时间序列数据的其他问题【
(新)计量经济学讲义第一讲(共十讲)
计量经济学讲义第六讲(共十讲)
计量经济学讲义
计量经济学复习10
计量经济学试卷汇总_(含答案)
中级计量经济学讲义_第一章引言
计量经济学第八讲v
计量经济学讲义-3--第一章 线性回归基础
计量经济学讲义
计量经济学讲义第二讲(共十讲)
计量经济学(第四版)习题及参考答案详细版