搜档网
当前位置:搜档网 › 第四章 多重共线性

第四章 多重共线性

第四章 多重共线性
第四章 多重共线性

第四章多重共线性答案(1)

第四章 多重共线性 一、判断题 1、多重共线性是一种随机误差现象。(F ) 2、多重共线性是总体的特征。(F ) 3、在存在不完全多重共线性的情况下,回归系数的标准差会趋于变小,相应的t 值会趋于变大。(F ) 4、尽管有不完全的多重共线性,OLS 估计量仍然是最优线性无偏估计量。(T ) 5、在高度多重共线的情形中,要评价一个或多个偏回归系数的个别显著性是不可能的。(T ) 6、变量的两两高度相关并不表示高度多重共线性。(F ) 7、如果分析的目的仅仅是预测,则多重共线性一定是无害的。(T ) 8、在多元回归中,根据通常的t 检验,每个参数都是统计上不显著的,你就不会得到一个高的2R 值。(F ) 9、如果简单相关系数检测法证明多元回归模型的解释变量两两不相关,则可以判断解释变量间不存在多重共线性。( F ) 10、多重共线性问题的实质是样本问题,因此可以通过增加样本信息得到改善。(T ) 11、虽然多重共线性下,很难精确区分各个解释变量的单独影响,但可据此模型进行预测。(T ) 12、如果回归模型存在严重的多重共线性,可不加分析地去掉某个解释变量从而消除多重共线性。(F ) 13、多重共线性的存在会降低OLS 估计的方差。(F ) 14、随着多重共线性程度的增强,方差膨胀因子以及系数估计误差都在增大。(T ) 15、解释变量和随机误差项相关,是产生多重共线性的原因。(F ) 16、对于模型i ni n i 110i u X X Y ++++=βββ ,n 1i ,, =;如果132X X X -=,模型必然存在解释变量的多重共线性问题。(T ) 17、多重共线性问题是随机扰动项违背古典假定引起的。(F ) 18、存在多重共线性时,模型参数无法估计。(F ) 二、单项选择题 1、在线性回归模型中,若解释变量1X 和2X 的观测值成比例,既有12i i X kX =,其中k 为 非 零 常 数 , 则 表 明 模 型 中 存 在 ( B ) A 、异方差 B 、多重共线性 C 、序列相关 D 、随机解释变量 2、 在多元线性回归模型中,若某个解释变量对其余解释变量的可决系数接近1,则表明模型 中存在

第八章(多重共线性)

第八章 多重共线性 一、多重共线性及其产生原因 定义:对于多元线性回归模型: 01122...i i i k ki i y x x x u ββββ=+++++ 如果模型的解释变量之间存在着较强的线性相关关系,或者说,存在一组不全为零的常数12,,....,k λλλ,使得: 1122...0i i k ki i x x x v λλλ+++=,i v 是随机误差项。 则称模型存在着多重..共线性,如果0i v =,则称存在完全的多重共线性。 ?直观地看,多重共线性是不是造成了冗余变量,这里的冗余的含义是什么? 思考:只有一个解释变量会出现多重共线性吗? 产生原因: 1.经济变量的内在联系,这是根本原因,这导致多重共线性无法克服。 2.经济变量变化趋势的“共向性”。 3.解释变量中含有滞后变量。 二、多重共线性的影响 古典回归模型要求模型不存在完全的多重共线性。所以,即使存在严重的多重共线性,OLS 估计仍然是最佳线性无偏估计(BLUE )。但会产生以下问题: (一) 增大OLS 估计的方差 设模型为二元线性, 01122i i i i y x x u βββ=+++ 可以证明, 2 12 21112 1 ()()1i D x x r σβ= ? --∑ VIF 被称为方差膨胀因子。 分别计算12r 分别等于0,0.5,0.9时的方差膨胀因子。 ?方差变得过大,有什么不好?? (二) 难以区分每个解释变量的独立影响 对于多元线性回归模型,回归系数为

i i y x β?= ?,根据偏导数的概念,i β的经济含义是什么? (三) T 检验的可靠性降低 可能使T 检验失效,原来显著的T 值变成不显著的,从而将有重要影响的变量剔除出模型。 思考:比较一下和模型存在异方差及自相关时对T 检验的影响有何不同? (四) 回归模型缺乏稳定性 参数估计值对样本的变化比较敏感,这实际上也是OLS 估计方差较大的另一个表现。 例子来说明: 见表一 如果改成: 再重新进行回归,看会发生什么情况? 一个理念:多重共线性不可避免。 三、多重共线性的检验 外在症兆:R-平方很高,但只有极个别或少数几个解释变量前的系数显著(T 值偏小)。 1.相关系数检验 利用相关系数可以分析解释变量之间的两两相关情况。 例:服装需求函数。根据理论和经验分析,影响居民服装需求的主要因素有:可支配收入X ,流动资产拥有量K ,服装类价格指数P1和总物价指数P0。下表给出了有关统计资料。

第五章 答案.doc

第5章 多重共线性 习题: 1. 什么是共线性?什么是多重共线性? 答:共线性是指回归模型中的各个解释变量之间不存在线性关系。“多重共线性”一词常常用来表示解释变量之间具有较高的共线性程度,但又不是完全共线性的情形。 2. 在k 变量的模型中有k 个正规方程用以估计k 个未知系数。假定X k 是其余X 变量的一个完 全线性组合,你怎样说明在这种情形中不可能估计这k 个回归系数? 答:当一个变量是另一些变量的线性函数时,在这k 正规个方程中,实际只有k-1个有效方程,利用线性代数的知识我们可以知道k-1个方程是无法准确估计k 个未知数的。 3. 一般来说,如何判断模型中是否存在严重的多重共线性问题? 答:(1)2R 较高但t 值显著的系数不多。(2)解释变量两两高度相关。(3)观察每个解释变量对其它剩余解释变量的回归方程,这样的回归称为辅助回归。如果某个辅助回归方程的拟合优度显著不为零(即整体显著:F 检验),则存在多重共线性。(4)使用方差膨胀因子判断。克莱因经验法则(Klein ’s rule of thumb ) 如果某个解释变量还有一些诸如偏相关系数(partial correlation coefficient )、本征值(eigenvalues )或病态指数(condition index )等其他方法可用于诊断多重共线性的程度。对其余解释变量的辅助回归的拟合优度大于因变量Y 对所有解释变量作回归所得到的拟合优度2 R ,则可能存在比较严重的多重共线性。 4. 什么是方差膨胀因子(VIF ),它有什么作用? 答:22322222323?var()()()()i i i i i x x x x x βσ??=???-??∑∑∑∑ 即 222222222323222231?var()1()()1i i i i i i x r x x x x x σσβ??????==?????-??- ??????? ∑∑∑∑∑ (5.7)

第4章多重共线性

计量经济学课程教案

第四章 多重共线性 § 什么是多重共线性 一、多重共线性的概念 对于模型 Y i = 1 + 2 X 2i + 3X 3i ++ k X ki + i i=1,2,…,n 其基本假设之一是解释变量是互相独立的。 如果存在 c 1X 1i +c 2X 2i +…+c k X ki =0 i=1,2,…,n 其中: c i 不全为0,则称为解释变量间存在完全共线性(perfect multicollinearity )。 在矩阵表示的线性回归模型 Y=X + 中,完全共线性指:秩(X)

(2)滞后变量的引入 在经济计量模型中,往往需要引入滞后经济变量来反映真实的经济关系。 例如,消费=f(当期收入, 前期收入) 显然,两期收入间有较强的线性相关性。 (3)样本资料的限制 由于完全符合理论模型所要求的样本数据较难收集,特定样本可能存在某种程度的多重共线性。 一般经验: 时间序列数据样本:简单线性模型,往往存在多重共线性。 截面数据样本:问题不那么严重,但多重共线性仍然是存在的。 § 多重共线性产生的后果 一、完全共线性下参数估计量不存在 μX βY += 的OLS 估计量为: Y X X X β''=-1)(? 如果存在完全共线性,则(X’X)-1不存在,无法得到参数的估计量。 二、近似共线性下OLS 估计量非有效 近似共线性下,可以得到OLS 参数估计量, 但参数估计量方差的表达式为 12)()?(-'=X X β σCov 由于|X’X| 0,引起(X’X)-1主对角线元素较大,使参数估计值的方差增大,OLS 参数估计量非有效。

多元线性回归概述

定义:线性回归模型中的解释变量有多个。一般表现形式:多元线性回归模型k :解释变量个数;i =1,2…,n βj :回归参数(Regression Coefficient );j=1,2…,k 习惯上:把常数项看成为一虚变量的系数,该虚变量的样本观测值始终取1。这样: i ki k i i i X X X Y μββββ++???+++=22110虚变量 X 0=1模型中解释变量的数目为(k+1) 指2个或2个以上

多元线性回归模型总体回归函数的随机表达形式: i ki k i i i X X X Y μββββ++???+++=22110总体回归函数非随机表达式: ki k i i ki i i i X X X X X X Y E ββββ+???+++=2211021),,|( 偏回归系数βj :在其他解释变量保持不变的情况下,X j 每变化1个单位时,Y 的均值E(Y)的变化;或者说X j 的单位变化对Y 均值的“直接”或“净”(不含其他变量)影响。 方程表示:各变量X 值给定时Y 的平均响应。

总体回归模型n 个随机方程的矩阵表达式为 μ X βY +=)1(212221212111111+?????????????=k n kn n n k k X X X X X X X X X X 121????? ????????=n n Y Y Y Y 1)1(210?+????????????????=k k ββββ β1 21?????????????=n n μμμ μ其中n :样本容量k :解释变量的个数

e i 称为残差或剩余项(Residuals),μi 的近似替代样本回归函数: ki ki i i i X X X Y ββββ?????22110++++= 其随机表示式: i ki ki i i i e X X X Y +++++=ββββ????22110 βX Y ??=e βX Y +=???????? ??=k βββ????10 β?????? ? ??=n e e e 21e 其中 或样本回归函数的矩阵表达:

第八章练习题参考解答

第八章练习题参考解答: 练习题 8.1 Sen 和Srivastava (1971)在研究贫富国之间期望寿命的差异时,利用101个国家的数据,建立了如下的回归模型: 2.409.39ln 3.36((ln 7))i i i i Y X D X =-+-- (4.37) (0.857) (2.42) R 2=0.752 其中:X 是以美元计的人均收入; Y 是以年计的期望寿命; Sen 和Srivastava 认为人均收入的临界值为1097美元(ln10977=),若人均收 入超过1097美元,则被认定为富国;若人均收入低于1097美元,被认定为贫穷国。 括号内的数值为对应参数估计值的t-值。 (1)解释这些计算结果。 (2)回归方程中引入()ln 7i i D X -的原因是什么?如何解释这个回归解释变量? (3)如何对贫穷国进行回归?又如何对富国进行回归? (4)从这个回归结果中可得到的一般结论是什么? 8.2 表中给出1965—1970年美国制造业利润和销售额的季度数据。假定利润不仅与销售额有关,而且和季度因素有关。要求: (1)如果认为季度影响使利润平均值发生变异,应如何引入虚拟变量? (2)如果认为季度影响使利润对销售额的变化率发生变异,应当如何引入虚拟变量? (3)如果认为上述两种情况都存在,又应当如何引入虚拟变量? (4)对上述三种情况分别估计利润模型,进行对比分析。 8.3 在统计学教材中,采用了方差分析方法分析了不同班次对劳动效率的影响,其样本数据为 早班 中班 晚班

34 49 39 37 47 40 35 51 42 33 48 39 33 50 41 35 51 42 36 51 40 试采用虚拟解释变量回归的方法对上述数据进行方差分析。 8.4 Joseph Cappelleri 基于1961—1966年的200只Aa 级和Baa 级债券的数据(截面数据和时间序列数据的合并数据),分别建立了LPM 和Logit 模型: LPM i i i i i i u X X X X Y ++++++=5544332 211βββββ Logit i i i i i i i u X X X X p p In Li ++++++=-=5544332 211)1( βββββ 其中:i Y =1 债券信用等级为Aa (穆迪信用等级) i Y =1 债券信用等级为Baa (穆迪信用等级) 2X =债券的资本化率,作为杠杆的测度(100?=总资本的市值 长期债券的市值) =3X 利润率(100?=总资产净值 税后收入) =4X 利润率的标准差,测度利润率的变异性 =5X 总资产净值,测度规模 上述模型中2β和4β事先期望为负值,而3β和5β期望为正值(为什么)。 对于LPM ,Cappeleri 经过异方差和一阶自相关校正,得到以下结果: i Y ?=0.6860-0.017922i X +0.0486i X 3+0.0572i X 4+0.378×10-7×5i Se=(0.1775)(0.0024) (0.0486) (0.0178) (0.039×10- 8) R 2=0.6933 对于Logit 模型,Cappeleri 在没有对异方差进行弥补的情形下用ML 得以下结果: i i i i i i X X X X p p In 56 43221092.09041.06248.03185.06622.1)1(-?+-+--=- 试解下列问题: (1)为什么要事先期望2β和4β为负值? (2)在LPM 中,当4β>0是否合理?

第四章 多重共线性

第四章 多重共线性 一、填空题 1. 在多元线性回归模型中,解释变量间呈现近似线性关系的现象为________问题,给计量经济建模带来不利影响,因此需检验和处理它。 2. 在回归分析中,当检验回归系数所得的t 值不显著时,我们往往将它归结为多重共线性。但也可能是其他原因的影响,如 或 。 3. 存在多重共线时,回归系数的标准差趋于 ,t 值趋于 。方差膨胀因子越大,OLS 估计量的 将越大。 4. 检验样本是否存在多重共线性的常见方法有:________ 、 和 。 5. 处理多重共线性的方法主要有两大类:__________和_________。 二、问答题 1. 简述多重共线性的含义。 2. 简述多重共线性的后果。 3. 方差膨胀因子(Variance Inflation Factor, VIF )及其含义? 4. 列举多重共线性的检验方法。 5. 多重共线性的补救办法? 6. 假设在模型i i i i u X X Y +++=22110βββ中,1X 与2X 之间的相关系数为零,于是有人建议你进行如下回归: i i i i i i u X Y u X Y 22201110++=++=γγαα (1) 是否存在11??βα=且22??βγ=?为什么? (2) 0?β会等于0?α 或0?γ或某两个的某个线性组合吗? (3) 是否有() ()11 ?var ?var αβ=且() ()22?var ?var γβ=? 7. 在决定一个回归模型的“最优”解释变量集时人们常用逐步回归的方法。在逐步回归中既可采取每次引进一个解释变量的程序(逐步向前回归),也可以先把所有可能的解释变量都放在一个多元回归中,然后逐一地将它们剔除(逐步向后回归)。加进或剔除一个变量,通常是根据F 检验看其对ESS 的贡献而作出决定的。根据你现在对多重共线性的认识,你赞成任何一种逐步回归的程序吗?为什么? 8.克莱因与戈德伯格曾用1921-1950年(1942-1944年战争期间略去)美国国内消费Y 和工资收入X1、非工资—非农业收入X2、农业收入X3的时间序列资料,利用OLSE 估计得出了下列回归方程:

多重线性回归分析

一、作业 教材P214 三。 二、自我练习 (一)教材P213 一。 (二)是非题 1.当一组资料的自变量为分类变量时,对这组资料不能做多重线性回归分析。( ) 2.若多重线性方程模型有意义.则各个偏回归系数也均有统计学意义。〔) 3.回归模型变量的正确选择在根本上依赖于所研究问题本身的专业知识。() 4.从各自变量偏回归系数的大小.可以反映出各自变量对应变量单位变化贡献的大小。( ) 5.在多元回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数不变。( ) (三)选择题 1. 多重线性回归分析中,共线性是指(),导致的某一自变量对Y的作用可以由其他自变量的线性函数表示。 A. 自变量相互之间存在高度相关关系 B. 因变量与各个自变量的相关系数相同 C. 因变量与自变量间有较高的复相关关系 D. 因变量与各个自变量之间的回归系数相同

2. 多重线性回归和Logistic 回归都可应用于()。 A. 预测自变量 B. 预测因变量Y 取某个值的概率π C. 预测风险函数h D. 筛选影响因素(自变量) 3.在多重回归中,若对某个自变量的值都增加一个常数,则相应的偏回归系数: A.不变 B.增加相同的常数 C.减少相同的常数 D.增加但数值不定 4.在多元回归中,若对某个自变量的值都乘以一个相同的常数k,则: A.该偏回归系数不变 B.该偏回归系数变为原来的 1/k倍 C.所有偏回归系数均发生改变 D.该偏回归系数改变,但数值不定 5.作多重线性回归分析时,若降低进入的F 界值,则进入方程的变量一般会: A.增多 B.减少 C.不变 D.可增多也可减少(四)筒答题 1.为什么要做多重线性回归分析?

计量经济学

第八章 多重共线性:其中的某一个解释变量可以表示为其它解释变量的线性函数。 完全多重共线性的存在对计量经济学方程的估计产生的影响? 当存在完全多重共线性时,运用普通最小二乘估计将无法得出回归参数的估计值,并且,大多数通最小二乘估计程序会意识错误信息。 完全多重共线性举例:可以观察一个解释变量是不是另一个解释变量的倍数,或者观察一个解释变量是不是另一个解释变量加上一个常数项。 简答题:多重共线性 产生的后果:(1)估计量是无偏的;(2)估计量的方差和标准差将会增大(3)多重共线性下的t统计量会变小(4)估计量对模型设定的变化变得及其敏感。当存在显著的多重共线性时,增加或者删除某个解释变量,或者某些观测值的增加或减少,通常会导致参数估计β有较大的改变。 (5)方程的整体拟合优度以及不存在多重共线性的变量的参数估计几乎不受影响。 多重共线性的诊断:(1)考察两个解释变量之间的简单相关系数,一般r>0.8,则认为存在多重共线性。 (2)有较高的方差膨胀因子,一般VIF>5,则认为存在严重的多重共线性 多重共线性的补救措施:(1)什么都不做。(方程中的多重共线性并非总是减少t统计量使其减少到不显著的程度,对β的影响也并非总是导致它的符号与预期的不同。 (2)去掉多余的变量 (3)增大样本容量 第十四章 分析题 内生变量:由系统本身确定的变量 外生变量:由系统外部因素所决定的变量前定变量:外生变量和置后的内生变量 结构式方程:是以外生变量和内生变量的方式,描述了隐含在每个内生变量背后的内在经济理论。 简约式方程:每个特定的内生变量都单独用用所有的前定变量和随机误差项表示的方程。 简答使用简约式方程的三个原因:(1)由于简约式方程没有内在的联动性,因而没有违背古典假设。(2)简约式参数被解释为效应乘数,意味着它们有着经济意义和应用价值。 (3)简约式方程在最常用的的联立方程估计方法中扮演着重要的角色, 二阶段最小二乘估计法:第一阶段:对与每个内生变量相对应的简约式方程进行回归,这里的内生变量在联立方程系统中作为解释变量。第二阶段:用简约式方程中 得到的 S Y?替代出现在结构式方程右边的Ys,然后用普通最小二乘估计修正后的结构式方程。 模型识别的阶条件:是判断联立系统中的特定方程是否可惜别的一种系统方法。(1)整个联立系统中前定变量的个数(2)所考察方程中需要估计的斜率参数的个数。 第十章 名词解释:异方差性的本质,后果,诊断,修正 非纯异方差性:有模型设定误差(比如遗漏误差)引起的。 异方差的后果:(1)纯异方差性并不会导致参数估计量有偏 (2)异方差性通常会导致普通最小二乘估计量不再具有最小方差性 (3)异方差性将导致SE(β?)的最小二乘估计量有偏,因而导致假设检验结果不可信。 第九章 名词解释序列相关:误差项的序列之间存在相关性 一阶序列相关: t t t μ ρε ε+ = -1 ε代表回归方程中的误差项。 简答序列相关性的后果:(1)纯序列相关不会导致对参数的有偏估计。 (2)序列相关是普通最小二乘估计量不再是线性无偏估计量 (3)序列相关性导致SE(β?)的普通最小二乘估计是有偏的,并使假设检验不可靠。 杜宾-沃森检验重点自己去翻书 序列相关性的修正:如果确定是纯序列相关,则应考虑用广义最小二乘法或者

回归分析概要(多元线性回归模型)

第二章 回归分析概要 第五节 多元线性回归分析 一 模型的建立与假定条件 在一元线性回归模型中,我们只讨论了包含一个解释变量的一元线性回归模型,也就是假定被解释变量只受一个因素的影响。但是在现实生活中,一个被解释变量往往受到多个因素的影响。例如,商品的消费需求,不但受商品本身的价格影响,还受到消费者的偏好、收入水平、替代品价格、互补品价格、对商品价格的预测以及消费者的数量等诸多因素的影响。在分析这些问题的时候,仅利用一元线性回归模型已经不能够反映各变量间的真实关系,因此,需要借助多元线性回归模型来进行量化分析。 1. 多元线性回归模型的基本概念 如果一个被解释变量(因变量)t y 有k 个解释变量(自变量)tj x ,k j ,...,3,2,1=, 同时,t y 不仅是tk x 的线性函数,而且是参数0β和k i i ,...3,2,1=,β(通常未知)的线性函数,随即误差项为t u ,那么多元线性回归模型可以表示为: ,...22110t tk k t t t u x x x y +++++=ββββ ),..,2,1(n t = 这里tk k t t t x x x y E ββββ++++=...)(22110为总体多元线性回归方程,简称总体回归方程。 其中,k 表示解释变量个数,0β称为截距项,k βββ...21是总体回归系数。k i i ,...3,2,1=,β表示在其他自变量保持不变的情况下,自变量tj X 变动一个单位所引起的因变量Y 平均变动的数量,因而也称之为偏回归系数。 当给定一个样本n t x x x y tk t t t ,...2,1),,...,,(21=时,上述模型可以表示为: ???? ??? ???????????+++++=+++++=+++++=+++++=t tk k t t t k k k k k k u x x x y u x x x y u x x x y u x x x y ββββββββββββββββ (22110333223110322222211021112211101) 此时,t y 与tj x 已知,i β与t u 未知。 其相应的矩阵表达式为:

第5章习题(多重共线性)

第5章 多重共线性 1、所谓不完全多重共线性是指存在不全为零的数k λλλ,,,21 ,有( ) 是随机误差项式中v e v x x x .D e v x x x .C x x x .B v x x x .A k x x k k x k k k k k k ? ∑=++++=++++=+++=++++ 12211221221122110 0λλλλλλλλλλλλ 2、设21,x x 为解释变量,则完全多重共线性是( ) 0.(021.0.02 1.22121121=+=++==+x x e x D v v x x C e x B x x A 为随机误差项) 3.设线性回归模型为i i i i u x x y +++=33221βββ,下列表明变量之间具有完全多重共线性的是( )(其中v 为随机误差项) 0000.0000.0 020.0 020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A 4.设线性回归模型为i i i i u x x y +++=33221βββ,下列表明变量之间具有不完全多重共线性的是( )(其中v 为随机误差项) 0000.0000.0 020.0 020.321321321321=+*+*+*=*+*+*=+*++*=*++*v x x x D x x x C v x x x B x x x A 5.如果模型中的解释变量存在完全的多重共线性,参数的最小二乘估计量是( ) A .无偏的 B. 有偏的 C. 不确定 D. 确定的 6.下列说法不正确的是( ) A.多重共线性产生的原因有模型中大量采用滞后变量

计量经济学课后答案第四、五章(内容参考)

第四章随机解释变量问题 1. 随机解释变量的来源有哪些? 答:随机解释变量的来源有:经济变量的不可控,使得解释变量观测值具有随机性;由于随机干扰项中包括了模型略去的解释变量,而略去的解释变量与模型中的解释变量往往是相关的;模型中含有被解释变量的滞后项,而被解释变量本身就是随机的。 2.随机解释变量有几种情形? 分情形说明随机解释变量对最小二乘估计的影响与后果? 答:随机解释变量有三种情形,不同情形下最小二乘估计的影响和后果也不同。(1)解释变量是随机的,但与随机干扰项不相关;这时采用OLS估计得到的参数估计量仍为无偏估计量;(2)解释变量与随机干扰项同期无关、不同期相关;这时OLS估计得到的参数估计量是有偏但一致的估计量;(3)解释变量与随机干扰项同期相关;这时OLS估计得到的参数估计量是有偏且非一致的估计量。 3. 选择作为工具变量的变量必须满足那些条件? 答:选择作为工具变量的变量需满足以下三个条件:(1)与所替代的随机解释变量高度相关;(2)与随机干扰项不相关;(3)与模型中其他解释变量不相关,以避免出现多重共线性。 4.对模型 Y t =β +β 1 X 1t +β 2 X 2t +β 3 Y t-1 +μ t 假设Y t-1与μ t 相关。为了消除该相关性,采用工具变量法:先求Y t 关于X 1t 与 X 2t 回归,得到Y t ?,再做如下回归: Y t =β +β 1 X 1t +β 2 X 2t +β 3Y t?1-+μt 试问:这一方法能否消除原模型中Y t-1与μ t 的相关性? 为什么? 解答:能消除。在基本假设下,X1t,X2t与μt应是不相关的,由此知,由X1t 与X 2t 估计出的Y t ?应与μt不相关。 5.对于一元回归模型 Y t =β +β 1 X t *+μ t 假设解释变量X t *的实测值X t 与之有偏误:X t = X t *+e t ,其中e t 是具有零均值、无 序列相关,且与X t *及μ t 不相关的随机变量。试问: (1) 能否将X t= X t*+e t代入原模型,使之变换成Y t=β0+β1X t+νt后进行估计? 其中,ν t 为变换后模型的随机干扰项。 (2) 进一步假设μt与e t之间,以及它们与X t*之间无异期相关,那么E(X t-1νt)=0成立吗?X t与X t-1相关吗? (3) 由(2)的结论,你能寻找什么样的工具变量对变换后的模型进行估计? 解答:(1)不能。因为变换后的模型为 Y t=β0+β1X t+(μt-β1e t)

第11章 多重线性回归分析思考与练习参考答案

第11章多重线性回归分析 思考与练习参考答案 一、最佳选择题 1.逐步回归分析中,若增加自变量的个数,则(D)。 A.回归平方和与残差平方和均增大 B.回归平方和与残差平方和均减小 C.总平方和与回归平方和均增大 D.回归平方和增大,残差平方和减小 E.总平方和与回归平方和均减小 2.下面关于自变量筛选的统计学标准中错误的是(E)。 A.残差平方和(SS 残差)缩小B.确定系数(R)增大 2 C.残差的均方(MS 残差)缩小D.调整确定系数(R ad)增大 2 E.C p统计量增大 3.多重线性回归分析中,能直接反映自变量解释因变量变异百分比的指标为(C)。 A.复相关系数 B.简单相关系数 C.确定系数 D.偏回归系数 E.偏相关系数

4.多重线性回归分析中的共线性是指(E)。 A.Y关于各个自变量的回归系数相同 B.Y关于各个自变量的回归系数与截距都相同 C.Y变量与各个自变量的相关系数相同 D.Y与自变量间有较高的复相关 E.自变量间有较高的相关性 5.多重线性回归分析中,若对某一自变量的值加上一个不为零的常数K,则有(D)。 A.截距和该偏回归系数值均不变 B.该偏回归系数值为原有偏回归系数值的K 倍 C.该偏回归系数值会改变,但无规律 D.截距改变,但所有偏回归系数值均不改变 E.所有偏回归系数值均不会改变 二、思考题 1.多重线性回归分析的用途有哪些? 答:多重线性回归在生物医学研究中有广泛的应用,归纳起来,可以包括以下几个方面:定量地建立一个反应变量与多个解释变量之间的线性关系,筛选危险因素,通过较易测量的变量估计不易测量的变量,通过解释变量预测反应变量,通过反应变量控制解释变量。2.多重线性回归模型中偏回归系数的含义是什么? 答:偏回归系数的含义是:在控制其他自变量的水平不变的情况下,该自变量每改变一个单位,反应变量平均改变的单位数。 3.请解释用于多重线性回归参数估计的最小二乘法的含义。 答:最小二乘法的含义是:残差的平方和达到最小。 4.如何判断和处理多重共线性? 答:如果自变量之间存在较强的相关,则存在多重共线性。可以通过分析自变量之间的相关系数、计算方差膨胀因子和容忍度等指标判断是否存在多重共线性。如果自变量间存在多重共线性,最简单的处理办法是删除变量,即在

第5章、违背基本假设的问题:多重共线性、异方差和自相关共36页文档

第5章、违背基本假设的问题: 多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设: 1.y=Xβ+ε 2.Rank(X)=K 3.ε|X~N(0,σ2I) 第 1 页

§1、多重共线性(multicollinearity) 1、含义及后果 1)完全的多重共线性 如果存在完全的多重共线性(perfect multicollinearity),即在X中存在不完全为0的a i,使得 a1x1+…+a K x K=0 即X的列向量之间存在线性相关。因此,有Rank(X)

2)近似共线性 常见为近似共线性,即 a1x1+…+a K x K≈0 则有|X’X|≈0,那么(X’X)-1对角线元素较大。由于所以b k的方差将较大。 例子:Longley是著名例子。 第 3 页

第 4 页 2、检验方法 1)VIF 法(方差膨胀因子法,variance inflation factor ) 第j 个解释变量的VIF 定义为 此处2j R 是第j 个解释变量对其他解释变量进行回归的确定系数。若2j R 接近于1,那么VIF 数值将较大,说明第j 个解释变量与其他解释变量之间存在线性关系。从而,可以用VIF 来度量多重共线性的严重程度。当 2j R 大于0.9,也就是VIF 大于10时,认为自变量之间存在比较严重的多重共线性。 K 个解释变量,就有K 个VIF 。可以计算K 个VIF 的平均值。若大于10,认为存在比较严重的多重共线性。

第五章 异方差性 思考题

第五章 异方差性 思考题 5.1 简述什么是异方差 ? 为什么异方差的出现总是与模型中某个解释变量的变化有关 ? 5.2 试归纳检验异方差方法的基本思想 , 并指出这些方法的异同。 5.3 什么是加权最小二乘法 , 它的基本思想是什么 ? 5.4 产生异方差的原因是什么 ? 试举例说明经济现象中的异方差性。 5.5 如果模型中存在异方差性 , 对模型有什么影响 ? 这时候模型还能进行应用分析吗 ? 5.6 对数变化的作用是什么 ? 进行对数变化应注意什么 ? 对数变换后模型的经济意义有什么变化 ? 5.7 怎样确定加权最小二乘法中的权数 ? 练习题 5.1 设消费函数为 12233i i i i Y X X u βββ=+++ 其中,i Y 为消费支出;2i X 为个人可支配收入;3i X 为个人的流动资产;i u 为随机误差项 , 并且 E(i u )=0,Var(i u )= 222i X σ( 其中2 σ为常数) 。试回答以下问题 : 1) 选用适当的变换修正异方差 , 要求写出变换过程 ; 2) 写出修正异方差后的参数估计量的表达式。 5.2 根据本章第四节的对数变换 , 我们知道对变量取对数通常能降低异方差性 , 但需对这种模型的随机误差项的性质给予足够的关注。例如 ,设模型为 21Y X u ββ=,对该模型中 的变量取对数后得 12ln ln ln ln Y X u ββ=++ 1) 如果ln u 要有零期望值 ,u 的分布应该是什么 ? 2) 如果 E(u )=1, 会不会 E(ln u )=0? 为什么 ? 3) 如果 E(ln u ) 不为零 , 怎样才能使它等于零 ? 5.3 表 5.8 给出消费 Y 与收入 X 的数据 , 试根据所给数据资料完成以下问题 : 1) 估计回归模型12Y X u ββ=++中的未知参数1β和2β, 并写出样本回归模型的书写格式; 2) 试用 GOMeld-Quandt 法和 White 法检验模型的异方差性 3 3) 选用合适的方法修正异方差。

计量经济学·多元线性回归模型

计量经济学·多元线性回归模型应用作业 1985~2014年中国GDP与进口、出口贸易总额的关系 一、概述 在当今市场上,一国的GDP与多个因素存在着紧密的联系,例如进口总额与出口总额等都就是影响一国GDP 的重要因素。本次将以中国1985-2014年GDP与进口总额、出口总额两个因素因素的数据,通过建立计量经济模型来分析上述变量之间的关系,强调贸易对GDP 的重要性,从而促进国内生产总值的发展。 二、模型构建过程 ⒈变量的定义 解释变量:X1进口贸易总额,X2出口贸易总额被解释变量:Y国内生产总值 建立计量经济模型:解释原油产量与进口贸易总额、出口贸易总额之间的关系。 ⒉模型的数学形式 设定GDP与两个解释变量相关关系模型,样本回归模型为: ⒊数据的收集 该模型的构建过程中共有两个变量,分别就是中国从1990-2006年民用汽车拥有量、电力产量、国内生产总值以及能源消费总量,因此为时间序列数据,最后一个即2006年的数据作为预测对比数据,收集的数据如下所示 时间国内生产总值(亿元) 出口总额(人民币亿 元) 进口总额(人民币亿 元) 1985年9039、9 808、9 1257、8 1986年10308、8 1082、1 1498、3 1987年12102、2 1470 1614、2 1988年15101、1 1766、7 2055、1 1989年17090、3 1956 2199、9 1990年18774、3 2985、8 2574、3 1991年21895、5 3827、1 3398、7 1992年27068、3 4676、3 4443、3 1993年35524、3 5284、8 5986、2 1994年48459、6 10421、8 9960、1 1995年61129、8 12451、8 11048、1 1996年71572、3 12576、4 11557、4 1997年79429、5 15160、7 11806、5 1998年84883、7 15223、6 11626、1 1999年90187、7 16159、8 13736、5 2000年99776、3 20634、4 18638、8 2001年110270、4 22024、4 20159、2 2002年121002 26947、9 24430、3 2003年136564、6 36287、9 34195、6 2004年160714、4 49103、3 46435、8 2005年185895、8 62648、1 54273、7 2006年217656、6 77597、2 63376、86

第五章 多重共线性的诊断与处理

第五节 多重共线性的诊断与处理 5.1 多重共线性的诊断 数据来源:《计量经济学》于俊年 编著 对外经济贸易大学出版社 2000.6 p208-p209 某国1998-1998的经济数据 年份 进口额(y ) 国内产值(x 1t ) 存货额(x 2t ) 国内消费(x 3t ) 1988 15.9 149.3 4.2 108.1 1989 16.4 161.2 4.1 114.8 1990 19 171.5 3.1 123.2 1991 19.1 175.5 3.1 126.9 1992 18.8 180.8 1.1 132.1 1993 20.4 190.7 2.2 137.7 1994 22.7 202.1 2.1 146 1995 26.5 212.1 5.6 154.1 1996 28.1 226.1 5 162.3 1997 27.6 231.9 5.1 164.3 1998 26.3 239 0.7 167.6 5.1.1 条件数与病态指数诊断 重共线性。 ,则认为存在严重的多共线性;若或较强的多重,则认为存在中等程度很小;则认为多重共线性程度重共线性。 ,则认为存在严重的多的多重共线性;若或较强,则认为存在中等程度度很小;若,则认为多重共线性程阵(不包括常数项) 为自变量的相关系数矩303010,1010001000100100) () ()()(min max 1>≤≤<>≤≤<== ?=?CI CI CI R R CI R R R R R κκκκλκ 设x 1,x 2,…,x p 是自变量X 1,X 2,…X P ,经过中心化和标准化得到的向量,即: R x x X X X X x T i i i =??= ∑2 )( 记(x 1,x 2,…,x p )为x,设λ为x T x 一个特征值,?为对应的特征向量,其长度为1,若0≈λ,则: 221122110000c X c X c X c x x x x x x x x p p p p T T T T ≈+++?≈+++?≈?≈==?≈=L L ????λ?λ???λ?? 根据上表,计算如下: x=[149.3, 4.2, 108.1; 161.2, 4.1, 114.8; 171.5, 3.1,123.2; 175.5, 3.1, 126.9; 180.8, 1.1, 132.1; 190.7, 2.2, 137.7; 202.1, 2.1, 146; 212.1, 5.6, 154.1; 226.1,5, 162.3; 231.9, 5.1, 164.3; 239, 0.7, 167.6] 求x 的相关矩阵R

第11章 多重线性回归分析案例辨析及参考答案

第11章 多重线性回归分析 案例辨析及参考答案 案例11-1 预测人体吸入氧气的效率。为了解和预测人体吸入氧气的效率,某人收集了31名中年男性的健康调查资料。一共调查了7个指标,分别是吸氧效率(Y ,%)、年龄(1X ,岁)、体重(2X ,kg )、跑1.5 km 所需时间(3X ,min )、休息时的心跳频率(4X ,次/min )、跑步时的心跳频率(5X ,次/min )和最高心跳频率(6X ,次/min )(教材表11-9)。试用多重线性回归方法建立预测人体吸氧效率的模型。 教材表11-9 吸氧效率调查数据 该研究员采用后退法对自变量进行筛选,最后得到结果如教材表11-10所示。 教材表11-10 多重线性回归模型的参数估计 Table 11-10 Parameter estimation of regression model Variable Unstandardized Coefficients Standardized Coefficients t P B Std. Error Intercept 100.079 11.577 8.644 0.000 1X -0.213 0.091 -0.214 -2.337 0.027 3X -2.768 0.331 -0.721 -8.354 0.000 5X -0.339 0.116 -0.653 -2.939 0.007 6X 0.255 0.132 0.439 1.936 0.064 * 90.34=F , 001.0

对模型进行方差分析的结果认为模型有统计学意义(P <0.05),确定系数的数值(0.843)也说明模型拟合的效果较好。考察各个自变量的偏回归系数,研究者发现,6X 的偏回归系数符号为正,认为最高心跳频率越大,人的吸氧效率就越高,这与专业结论相反。出现这种悖论的原因是什么呢? 案例辨析 我们先分析一下各个自变量之间的简单相关系数,结果发现5X 和6X 存在有较强的相关(r =0.930, P <0.001), 对回归模型进行共线性诊断,结果发现自变量5X 的容忍度为0.122,方差膨胀因子等于8.188,自变量6X 的容忍度为0.117,方差膨胀因子等于8.522,说明自变量之间存在多重共线性,所以出现了与专业结论相反的现象。 正确做法 在这里,我们可以把自变量6X 从模型中删除以消除多重共线性的影响,应重新建立多重线性回归方程。最好多用几种筛选自变量的方法(如前进法、后退法、逐步回归分析、最优回归子集法等)筛选自变量,结合专业知识和统计学知识,综合分析和比较,从而得到比较优的多重回归方程。 案例11-2 医院住院人数的预测 石磊(1991)发表了其所在医院1970-1989年期间历年门诊人次 1X 、病床利用率2X 、病床周转次数3X 和住院人数Y 的数据(教材表11-11),建立由1X 、2X 、3X 预 测Y 的线性回归方程[中国卫生统计,1991,8(6)]。下面列出了多重线性回归分析的主要结果(教材表11-12)。 教材表11-11 重庆医科大学附属第二医院1970-1989年若干统计资料 年份 住院人数 Y 门诊人数/万人 1X 病床利用率/% 2X 病床周转次数 3X 1970 6 349 49.8 94.25 19.84 1971 6 519 38.1 98.50 20.37 1972 5 952 36.6 89.86 18.80 1973 5 230 36.0 86.00 16.34 1974 5 411 32.3 83.29 16.91 1975 5 277 37.8 77.88 18.07 1976 3 772 34.1 92.62 17.96 1977 3 846 42.2 86.57 18.31 1978 3 866 38.1 84.29 18.41 1979 5 142 39.5 89.29 20.61 1980 7 724 55.8 97.63 21.72 1981 8 167 63.0 96.53 23.33 1982 8 107 65.2 93.43 21.91 1983 7 998 66.1 94.45 21.05 1984 7 331 65.4 93.03 19.96 1985 6 447 60.1 91.79 18.81 1986 4 869 56.9 88.94 15.82 1987 5 506 57.7 91.79 16.01 1988 5 741 53.4 99.03 16.59 1989 5 568 48.7 94.93 19.09

相关主题