搜档网
当前位置:搜档网 › 第四章 回归分析

第四章 回归分析

第四章 回归分析
第四章 回归分析

§4.2 回归变量的选择与逐步回归

二、逐步回归(stepwise )

逐步回归分三种:

向前选择法,从模型中无自变量开始,根据给定的条件,每次将

一个最符合条件的变量进入模型,直至所有符合条件的变量都进

入模型为止。

向后剔除法,先建立全模型,根据给定的条件,每次剔除一个最

不符合条件的自变量,直到回归方程不在含有不符合条件的自变

量为止。

Stepwise 法,即前面两种方法的结合,从含有某几个变量或没有

自变量开始,根据给定的条件,将一个最符合条件的变量进入模

型,再剔除新老变量中不符合条件的变量,接着再选入符合条件

的变量,再剔除新老变量不符合条件的变量。如此反复选入变、

剔除变量,直到没有一个变量可选入和剔除为止。

命令:stepwise(X,y)

stepwise(X,y,inmode)

stepwise(X,y,inmodel,penter,premove)

stepwise(X,y)

X 为不包括全为1列向量n ×m ,n 为样本容量,m 为自变量个数。y 为因变量n ×1列向量。

stepwise(X,y,inmode)

Inmode 为逐步回归时,最初所包括的自变量。如果n=4, 如果inmode 为[1,3],则表明最初所包括的自变量为X 矩阵第1列和第3列所对应的自变量。Inmode 缺失时,表明最初没有包括自变量,只包括n ×1全为1的列向量。

stepwise(X,y,inmodel,penter,premove)

逐步回归时,为了了解增加和剔除变量的原则,以增加一个变量为例:1

新模型中的参数个数)

(增加的变量个数,新模型中的参数个数)

)-(增加的变量个数)-(=新模型中的参数个数)

新模型残差平方和增加的变量个数老模型的回归平方和)新模型的回归平方和-新老新---=n n n F F ~F /(R 1/R R /(/(222

相应的P 值:()值F F p p >=

当相应的P 值小于等于penter 时,新的变量将被引进时。

同理,删除一个变量x 时:

1 可参见《计量经济学基础》上册,[美]达摩达尔·N ·古扎拉蒂 中国人民大学出版社 p240-p243

老模型中的参数个数)

(删除的变量个数,老模型中的参数个数)

)-(删除的变量个数)-(=老模型中的参数个数)

老模型残差平方和删除的变量个数新模型的回归平方和)老模型的回归平方和-老新老---=n n n F F ~F /(R 1/R R /(/(222

当相应的P 值大于等于premove 时,相应的变量x 将被删除。

如果最小的P 值小于等于给定penter ,或最大的P 值大于等于给定的premove ,则每一步都是选择最大的F 值(或的P 值最小的)变量引进模型。将最小的F 值(或最大的P 值)对应的变量删除。penter 一定小于等于premove

缺失的情况下,penter 为0.05,premove 为0.1。

值得注意的是,以增加一个变量为例,新模型中F 值等于新模型中增加变量

对应的t 值的平方,新模型中F 值对应的P 值等于新模型中增加变量对应t 值的P 值。

z =[5.5000 31.0000 10.0000 8.0000 79.3000

2.5000 55.0000 8.0000 6.0000 200.1000

8.0000 67.0000 12.0000 9.0000 163.2000

3.0000 50.0000 7.0000 16.0000 200.1000

3.0000 38.0000 8.0000 15.0000 146.0000

2.9000 71.0000 12.0000 17.0000 177.7000

8.0000 30.0000 12.0000 8.0000 30.9000

9.0000 56.0000 5.0000 10.0000 291.9000

4.0000 42.0000 8.0000 4.0000 160.0000

6.5000 73.0000 5.0000 16.0000 339.4000

5.5000 60.0000 11.0000 7.0000 159.6000

5.0000 44.0000 12.0000 12.0000 8

6.3000

6.0000 50.0000 6.0000 6.0000 23

7.5000

5.0000 39.0000 10.0000 4.0000 107.2000

3.5000 55.0000 10.0000

4.0000 15

5.0000

8.0000 70.0000 6.0000 14.0000 201.4000

6.0000 40.0000 11.0000 6.0000 100.2000

4.0000 50.0000 11.0000 8.0000 13

5.8000

7.5000 62.0000 9.0000 13.0000 223.3000

7.0000 59.0000 9.0000 11.0000 195.0000]

x=z(:,[1:4]);y=z(:,5);

stepwise(x,y)% 回车得:

解释一下上面这个对话框,同四个部分组成:

左上角

右上角

中间

最低端

第一部分,彩色水平柱状图是回归系数90%的置信区间,黑色水平柱状图是回归系数95%的置信区间。如果柱状图穿过中间虚线(横坐标为0),则在相应的显著性水平下,回归系数为0。柱状图中间的红点,为对应回归系数的值。

第二部分,红色字体表示在原始模型上加上相应变量时,对应变量的回归系数,对应的t统计量值和对应的p值。蓝色模型为原始模型的变量的回归系数,对应的t统计量值和对应p值。在此例中,全为红色,说明原始模型自变量是包括只有全为1列向量。

y=c1+6.53444×x1 回归系数t值:0.7768对应的p值0.4473

y=c2+4.02871×x2 回归系数t值:0.44192对应的p值0.0003

应用回归分析,第4章课后习题参考答案

第4章违背基本假设的情况 思考与练习参考答案 试举例说明产生异方差的原因。 答:例:截面资料下研究居民家庭的储蓄行为 Y i=β0+β1X i+εi 其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。 由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。 例:以某一行业的企业为样本建立企业生产函数模型 Y i=A iβ1K iβ2L iβ3eεi 被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。异方差带来的后果有哪些 答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 1、参数估计量非有效 2、变量的显著性检验失去意义 3、回归方程的应用效果极不理想 总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。 答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差

的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS 求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。 加权最小二乘法的方法: 简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。 答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和中加入一个适当的权数i w ,以调整各项在平方和中的作用,加权最小二乘的离差平方和为: ∑=----=n i ip p i i i p w x x y w Q 1211010)( ),,,(ββββββ (2) 加权最小二乘估计就是寻找参数p βββ,,,10 的估计值pw w w βββ?,,?,?10 使式(2)的离差平方和w Q 达极小。所得加权最小二乘经验回归方程记做 p pw w w w x x y βββ????110+++= (3) 22011 1 ???()()N N w i i i i i i i i Q w y y w y x ββ===-=--∑∑22 __ 1 _ 2 _ _ 02 222 ()() ?()?1 11 1 ,i i N w i i i w i w i w w w w w kx i i i i m i i i m i w x x y y x x y x w kx x kx w x σβββσσ==---=-= = ===∑∑1N i =1 1表示=或

应用数理统计吴翊李永乐第四章回归分析课后作业参考答案

第四章 回归分析 课后作业参考答案 炼铝厂测得铝的硬度x 与抗张强度y 的数据如下: i x 68 53 70 84 60 72 51 83 70 64 i y 288 298 349 343 290 354 283 324 340 286 (1)求y 对x 的回归方程 (2)检验回归方程的显著性(05.0=α) (3)求y 在x =65处的预测区间(置信度为 解:(1) 1、计算结果 一元线性回归模型εββ++=x y 10只有一个解释变量 其中:x 为解释变量,y 为被解释变量,10,ββ为待估参数,ε位随机干扰项。 ( )()() ( )685.222 ,959.4116,541.35555 .76725 .19745 .109610 ,5.3151,5.6712 2 1 21 2 1 12 1 2 12 11=-= =-=== =-=-==-=--==-=-======∑∑∑∑∑∑∑∑========n Q U L Q L L U y n y y y L y x n y x y y x x L x n x x x L n y n y x n x e e yy e xx xy n i i n i i yy n i i i n i i i xy n i i n i i xx n i i n i i σ 使用普通最小二乘法估计参数10,ββ 上述参数估计可写为95.193??,80.1?1 01 =-===x y L L xx xy βββ 所求得的回归方程为:x y 80.195.193?+= 实际意义为:当铝的硬度每增加一个单位,抗张强度增加个单位。 2、软件运行结果 根据所给数据画散点图

应用回归分析第4章课后习题参考答案

应用回归分析第4章课后习题参考答案 第4章违背基本假设的情况 思考与练习参考答案 试举例说明产生异方差的原因。 答:例:截面资料下研究居民家庭的储蓄行为 Y i=0+1X i+εi 其中:Y i表示第i个家庭的储蓄额,X i表示第i个家庭的可支配收入。 由于高收入家庭储蓄额的差异较大,低收入家庭的储蓄额则更有规律性,差异较小,所以εi的方差呈现单调递增型变化。 例:以某一行业的企业为样本建立企业生产函数模型 Y i=A i1K i2L i3eεi 被解释变量:产出量Y,解释变量:资本K、劳动L、技术A,那么每个企业所处的外部环境对产出量的影响被包含在随机误差项中。由于每个企业所处的外部环境对产出量的影响程度不同,造成了随机误差项的异方差性。这时,随机误差项ε的方差并不随某一个解释变量观测值的变化而呈规律性变化,呈现复杂型。异方差带来的后果有哪些 答:回归模型一旦出现异方差性,如果仍采用OLS估计模型参数,会产生下列不良后果: 1、参数估计量非有效 2、变量的显著性检验失去意义

3、回归方程的应用效果极不理想 总的来说,当模型出现异方差性时,参数OLS估计值的变异程度增大,从而造成对Y的预测误差变大,降低预测精度,预测功能失效。 简述用加权最小二乘法消除一元线性回归中异方差性的思想与方法。 答:普通最小二乘估计就是寻找参数的估计值使离差平方和达极小。其中每个平方项的权数相同,是普通最小二乘回归参数估计方法。在误差项等方差不相关的条件下,普通最小二乘估计是回归参数的最小方差线性无偏估计。然而在异方差的条件下,平方和中的每一项的地位是不相同的,误差项的方差大的项,在残差平方和中的取值就偏大,作用就大,因而普通最小二乘估计的回归线就被拉向方差大的项,方差大的项的拟合程度就好,而方差小的项的拟合程度就差。由OLS求出的仍然是的无偏估计,但不再是最小方差线性无偏估计。所以就是:对较大的残差平方赋予较小的权数,对较小的残差平方赋予较大的权数。这样对残差所提供信息的重要程度作一番校正,以提高参数估计的精度。加权最小二乘法的方法: 简述用加权最小二乘法消除多元线性回归中异方差性的思想与方法。 答:运用加权最小二乘法消除多元线性回归中异方差性的思想与一元线性回归的类似。多元线性回归加权最小二乘法是在平方和

第四章 回归分析

§4.2 回归变量的选择与逐步回归 二、逐步回归(stepwise ) 逐步回归分三种: 向前选择法,从模型中无自变量开始,根据给定的条件,每次将 一个最符合条件的变量进入模型,直至所有符合条件的变量都进 入模型为止。 向后剔除法,先建立全模型,根据给定的条件,每次剔除一个最 不符合条件的自变量,直到回归方程不在含有不符合条件的自变 量为止。 Stepwise 法,即前面两种方法的结合,从含有某几个变量或没有 自变量开始,根据给定的条件,将一个最符合条件的变量进入模 型,再剔除新老变量中不符合条件的变量,接着再选入符合条件 的变量,再剔除新老变量不符合条件的变量。如此反复选入变、 剔除变量,直到没有一个变量可选入和剔除为止。 命令:stepwise(X,y) stepwise(X,y,inmode) stepwise(X,y,inmodel,penter,premove) stepwise(X,y) X 为不包括全为1列向量n ×m ,n 为样本容量,m 为自变量个数。y 为因变量n ×1列向量。 stepwise(X,y,inmode) Inmode 为逐步回归时,最初所包括的自变量。如果n=4, 如果inmode 为[1,3],则表明最初所包括的自变量为X 矩阵第1列和第3列所对应的自变量。Inmode 缺失时,表明最初没有包括自变量,只包括n ×1全为1的列向量。 stepwise(X,y,inmodel,penter,premove) 逐步回归时,为了了解增加和剔除变量的原则,以增加一个变量为例:1 新模型中的参数个数) (增加的变量个数,新模型中的参数个数) )-(增加的变量个数)-(=新模型中的参数个数) 新模型残差平方和增加的变量个数老模型的回归平方和)新模型的回归平方和-新老新---=n n n F F ~F /(R 1/R R /(/(222 相应的P 值:()值F F p p >= 当相应的P 值小于等于penter 时,新的变量将被引进时。 同理,删除一个变量x 时: 1 可参见《计量经济学基础》上册,[美]达摩达尔·N ·古扎拉蒂 中国人民大学出版社 p240-p243

R软件公式:第四章回归分析【回归检验】

例、在一系列不同温度 x (单位:?C )下,观测硝酸钠在100ml 水中溶解的重量 η(单位:g ),得数据如下: 设有 i i i bx a εη++= ,i ε~),0(2σN ,9,,2,1 =i ,921,,,εεε 相互独立。 (1) 建立η关于x 的一元线性回归方程; (2) 检验线性回归方程是否显著(05.0=α); (3) 若回归效果显著,求在0x =32时,求0η的95%的预测区间。 R 程序 x<-c(0,4,10,15,21,29,36,51,68) y<-c(66.7,71.0,76.3,80.6,85.7,92.9,99.4,113.6,125.1) xx<-data.frame(matrix(c(y,x),nr=9,nc=2)) lm(y~x,xx) ->hg summary(hg) confint(hg) x0<-data.frame(x=32) lm.pred<-predict(hg,x0,interval="prediction",level=0.95) lm.pred 结果及说明:

> x<-c(0,4,10,15,21,29,36,51,68) > y<-c(66.7,71.0,76.3,80.6,85.7,92.9,99.4,113.6,125.1) > xx<-data.frame(matrix(c(y,x),nr=9,nc=2)) > lm(y~x,xx) ->hg > summary(hg) Call: lm(formula = y ~ x, data = xx) Residuals: Min 1Q Median 3Q Max -1.61134 -0.09124 0.03260 0.14363 1.68955 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 67.507790.50548 133.55 3.48e-13 ***a的值(截距) x 0.870640.01506 57.83 1.21e-10 ***b的值(斜率)t检验值p值--- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 σ西格玛星值 Residual standard error: 0.9594 on 7 degrees of freedom * Multiple R-squared: 0.9979, Adjusted R-squared: 0.9976 F-statistic: 3344 on 1 and 7 DF, p-value: 1.214e-10 F检验值p值 > confint(hg) 2.5 % 97.5 % (Intercept) 66.312534 68.7030548 x 0.835038 0.9062428 > x0<-data.frame(x=32) > lm.pred<-predict(hg,x0,interval="prediction",level=0.95) > lm.pred fit lwr upr η的95%的预测区间 1 95.36829 92.96754 97.76904 P92,4.6,4.7,4.8题,解法相同

相关主题