搜档网
当前位置:搜档网 › 经典线性回归模型

经典线性回归模型

经典线性回归模型
经典线性回归模型

2 经典线性回归模型

§2.1 概念与记号

1.线性回归模型是用来描述一个特定变量y 与其它一些变量x 1,…,x p 之间的关系。 2. 称特定变量y 为因变量 (dependent variable )、 被解释变量 (explained variable )、 响应变量(response variable )、被预测变量(predicted variable )、回归子 (regressand )。

3.称与特定变量相关的其它一些变量x 1,…,x p 为自变量(independent variable )、 解释变量(explanatory variable )、控制变量(control variable )、预测变量 (predictor variable )、回归量(regressor )、协变量(covariate )。

4.假定我们观测到上述这些变量的n 组值:(

) ip i i x x y , , , 1 L (i=1,…,n)。称 这n 组值为样本(sample )或数据(data )。

§2.2 经典线性回归模型的假定

假定 2.1(线性性(linearity))

i

ip p i i x x y e b b b + + + + = L 1 1 0 (i=1,…,n)。 (2.1)

称方程(2.1)为因变量y 对自变量x 1,…,x p 的线性回归方程(linear regression equation ),其中 ( ) p , k k , , 1 0 L = b 是待估的未知参数(unknown parameters ),

( ) n i i , , 1 L = e 是满足一定限制条件的无法观测的误差项(unobserved error term ) 。称自

变量的函数 ip p i x x b b b + + + L 1 1 0 为回归函数(regression function )或简称为回归 (regression )。称 0 b 为回归的截距(ntercept),称 ( ) p k k , , 1 L = b 为自变量的回归系数 (regression coefficients ) 。某个自变量的回归系数表示在其它条件保持不变的情况下,

这个自变量变化一个单位对因变量的影响程度, 这个影响是在排除其它自变量的影 响后,这个自变量对因变量的偏效应。

下面引入线性回归方程的矩阵表示。记

( ) T

p b b b b , , , 1 0 L = (未知系数向量(unknown coefficient vector )) ( ) T ip i i x x x , , ~ 1 L = , ( ) T ip i i x x x , , , 1 1 L = ,则

i

T

i i x y e b + = (i=1,…,n)。

又记

X = ÷ ÷ ÷ ?

? ? ? ? è ? np p n x x x x M L L L M M 1 1 11 1 1 , Y = ÷ ÷ ÷ ? ? ? ? ? è ? n y y M 1 , ÷ ÷ ÷

? ? ? ? ? è ? = n e e e M 1 ,则 e

b + = X Y 假定2.2(严格外生性(strictly exogeneity))

( ) ( )

np n p i n i x x x x E x x E , , , , , , | ~, , ~| 1 1 11 1 L L L L e e = =0 (i=1,…,n)。

严格外生性的含义 ·误差项的无条件期望为零

( ) 0 = i E e

(i=1,…,n)。 ·正交条件(orthogonality conditions )

( ) ( ) ( ) 0 ~ 1 = ÷ ÷ ÷ ?

? ? ? ? è ? = i jp i j i j x E x E x E e e e M (i=1,…,n ? j=1,…,n )。

·不相关条件(zero-correlation conditions )

( ) 0

, cov = jk i x e (对所有i ,j ,k)。

由以上严格外生性的含义可知,如果在时间序列数据中存在的滞后效应 (lagged effect )和反馈效应(feetback effect ) ,那么严格外生性条件就不成立。因

而,在严格外生性假定下推出的性质就不能用于这类时间序列数据。滞后效应是指 自变量历史值对因变量当前值的影响, 反馈效应是指因变量当前值对自变量未来值 的影响。

假定2.3(无多重共线性(no multicollinearity))

n×(p+1)矩阵X的秩为(p+1)的概率为1。 假定2.4(球面误差方差(spherical error variance))

( ) n

n I x x Var 2

1 ~, , ~| s e = L ·条件同方差(conditional homoskedasticity )

( )

0 ~ , , ~| 2 1 2 > =s e n

i x x E L (i=1,…,n)。 (误差方差) ·误差项不相关(no correlation between error term )

( )

0 ~ , , ~| 1 = n

j i x x E L e e (对所有i≠j) 在经典线性回归模型的四个假定中,假定2.1和假定2.3是必不可少的,但假定 2.2和假定2.4中的严格外生性、条件同方差和误差项不相关以后可以适当放宽。

§2.3 随机样本的经典线性回归模型

若样本( )

T

i i x y ~, (i=1,…,n)为IID ,那么假定2.2和假定2.4可简化为 假定2.2: ( ) 0

~| = i i x E e (i=1,…,n) 假定2.4: ( ) 0

~| 2

2 > =s e i i x E (i=1,…,n) §2.4 确定性自变量的经典线性回归模型

若更进一步假定自变量x 1,…,x p 为确定性的变量,那么假定2.2和假定2.4可 进一步简化为

假定2.2: ( ) 0 = i E e

(i=1,…,n)

假定2.4: ( ) n

I Var 2 s e = §2.5 最小二乘估计量及其代数性质

虽然我们无法直接观测到误差项, 但对未知系数向量β的一个假想值 (hypothetical

value )b ~

,容易计算出

ip

p i i x x y b b b ~

~ ~ 1 1 0 - - - - L 称这个量为第i 次观测的残差(residual ),并且称使残差平方和(residual sum of squares )

( )

( ) ? = - - - - = n

i ip

p i i x x y Q 1

2 1 1 0 ~ ~ ~ ~

b b b b L =( ) ( )

b b ~

~ X Y X Y T - - 达到最小的假想值:

为未知系数向量β的普通最小二乘估计量(ordinary least squares estimators ),简记 为OLS 估计量。下面介绍OLS 估计量的一些代数性质。 ·一阶条件(first-order conditions )

( ) 0

= - Xb Y X T (正规方程(normal equations ))

·β的OLS 估计量:在假定2.3成立时

(

)

÷ ?

? ? è ? ÷ ? ? ? è ? = = ? ? = - = -

n

i i i n i T i i T

T

y x n x x n Y X X X b 1 1

1 1 1 1 ·估计量的抽样误差(sampling error ): ( ) e

b T T X X X b 1

- = - ·第i 次观测的拟合值(fitted value ): b

x y T

i i = ? ·拟合值向量(vector of fitted value ): ( ) HY

Y X X X X Xb Y T T o = = -1

? ·投影矩阵(projection matrix ): ( ) T T X

X X X H o (对称幂等,秩为p+1,HX=X ) ·第i 次观测的OLS 残差(OLS residual ): i i T

i i i y

y b x y e ? - = - = ( )

b b

~ min arg ~

Q b =

·残差向量(vector of OLS residuals ):e=Y-Xb= Y Y ? - =(I-H)Y≡MY e

M = ·零化子(annihilator ):M=I n – H (对称幂等,秩为n-p-1,MX=0)

·一阶条件: 0 = e X T

,即 0

1 1

= ? = n

i i i e x n ( ( ) 0 = i i x E e )

·OLS 估计的几何意义: e Y

e Xb Y + = + = ? L(X)

·残差平方和(residuals sum of squares )

RSS= e e M MY Y e e T T T

= = ,(其自由度为n-p-1)

·σ 2

的OLS 估计量

RMS

p n RSS

s o - - =

1

2 (残差均方,residual mean square )

·回归(方程)标准误(standard error of the regression (equation))

1

- - =

p n RSS s (残差标准误,residual standard error)

·平方和分解公式

当回归方程包含常数项时,可以证明

称这个等式为平方和分解公式。记

Y

e

Y

? e e Y Y

Y Y T T T + = ? ? ( ) ( ) ? ? ? = = = + - = - n

i i

n

i i

n

i i

e y y

y y 1

2

1

2

1

2

?

( ) Y n I Y y y SST T T n

i i ÷ ? ?

?

è ? - = - o ? =

ii 1 1 2 (称为总平方和,其自由度为n-1) (其中, ( ) T 1 , , 1L = i 表示每个元素均为1的n 维向量)

( ) RSS SST y

y SS n

i i reg - = - o ? =1 2

? (称为回归平方和,其自由度为p ) 则平方和分解公式又可写成:

,(n-1)=p+(n-p-1)。 平方和分解公式将总平方和分解为回归平方和与残差平方和两部分。 总平方和 表示样本中因变量的总变异,回归平方和表示总变异中能够解释的部分,因此又称 为解释平方和,回归平方和是由样本中自变量的变异产生的,回归平方和可表示回 归的效应。残差平方和表示总变异中不能解释的部分,残差平方和是由不可观测的 误差的波动产生的。

·决定系数(coefficient of determination, R square )

SST

RSS R -

=1 2 , 当回归方程包含常数项时,由平方和分解公式有 1 0 2 £ £ R 。当回归方程不包含 常数项时,平方和分解公式不再成立,且有可能会出现 ,即

RSS SST < ,从而使R 2

变成负数。因此决定系数只能用于包含常数项的回归。

由平方和分解公式可知, 因变量的变异由解释变量的变异和误差的变异两部分

组成。决定系数R 2 度量了由解释变量变异(回归函数)决定的因变量变异的比例。 或者说决定系数R 2 度量了解释变量(回归函数)能够解释的因变量变异的比例。

·复相关系数(multiple correlation coefficient ,multiple R )

( )( ) ( ) ( ) ? ? ? = = = - - - - o = - = n

i i n i i n

i i

i

y

y y y y y

y y Y

Y corr SST

RSS R 1

2

1

2

1 ? ? ? ? ) ? , ( 1 ( ) ? ? = = < - n

i i n

i i e y y 1

2 1

2

RSS SS SST reg + =

对只有一个自变量的一元线性回归,R 2

就是 y 与 x 的样本相关系数的平方,

复相关系数就是 y 与 x 的样本相关系数的绝对值,即

( )

( ) ( ) 2 2 2 , ) ? , ( X Y corr Y Y corr R = = , ( )

X Y corr Y Y corr R , ) ? , ( = = 且自变量的回归系数和 y 与 x 的样本相关系数之间的关系为

( )

( ) ( ) x

y

n i i n i i

s s r

x x n y y n X Y corr b o - - - - == ? ? = = 1

2

1 2

1 1 1 1 1 , ·修正决定系数(adjusted coefficient of determination, adjusted R square)

由假定2.1、假定2.2和假定2.4有

i T i i x y e b + = , ( ) ( ) ( ) ( )

2 s b e b +

= + = T

i i T i i x Var Var x Var y Var 因此理论上,由自变量变异决定的因变量变异的比例(称为理论决定系数)为

理论决定系数 ( )

i y Var 2

1 s -

= 分别用 1 2

- - = p n RSS s 和 ( ) ? = - - n i i y y n 1

2

1 1 来估计

2 s 和 ) ( i y Var ,得修正决定系数 ) 1 /( )

1 /( 1

2

- - - - = n SST p n RSS R adj ) 1 /( 1 - -

= n SST RMS ( ) 2 1 1

1

1 R p n n - - - - -

= 1

1 1

2 - - -

- - - =

p n p R p n n 由决定系数R 2 的含义可知,决定系数R 2

越大,回归方程对样本拟合的越好。可 以证明回归方程中包含的解释变量越多,残差平方和就越小,从而决定系数R 2

就越

大。但在样本容量不变的情况下,回归方程中包含的解释变量越多,对未知系数向 量的估计就越不精确,因此并不是回归方程中包含的解释变量越多越好。而修正决 定系数综合考虑了解释变量个数和对样本拟合的程度这两方面的因素。

·非中心化R 2 (Uncentered R 2

Y Y e e R T T

uc

- =1 2 ,( e e Y Y Y Y T T T + = ? ? ) 显然 1 0 2

£ £ uc R , 非中心化R 2 的含义是解释变量的变异能够解释的因变量的变异 的比例。在回归方程不包含常数项时,可用非中心化R 2 代替决定系数R 2

§2.6 最小二估计量的有限样本性质

·无偏性(unbiasedness ):在假定2.1~假定2.3下

( ) b

= n x x b E ~, , ~| 1 L ·条件方差阵表达式(expression for the variance ) :在假定2.1~假定2.4下,

( ) ( ) ( )

ij T n c C X X x x b Var 2 2 1 2 1 ~, , ~| s s s o o = - L ·Gauss-Markov 定理:在假定2.1~假定2.4下,OLS 估计量b 是有效的线性无偏估计

量。即对于任意的Y 的线性函数构成的无偏估计量b ? ,都有 ( ) ( )

n

n x x Var x x b Var ~ , , ~| ? ~, , ~| 1 1 L L b £ ·σ 2 的OLS 估计量的无偏性:在假定2.1~假定2.4下

( )

2

1 2 ~ , , ~| s = n

x x s E L cov(b, e | n x x ~, , ~ 1 L )=0

(它是OLS 估计量b 的条件方差阵的条件无偏估计量)

Var(b|X) ( ) ( ) 1

2 1 ~, , ~| - = o X X s x x b Var T n L ( )

ij c s C s 2 2 = =

· k b OLS 估计的标准误(standard error )

SE(b k )= kk

c s (k=0,1,…,p)

为探讨OLS 估计量b 的精确抽样分布,我们还需对回归方程误差项的分布作出 假定,经典线性回归模型假定误差项是正态的。 假定2.5(误差项的正态性(normality of the error term))

( )~ ~, , ~| 1 n

x x L e 正态分布 ·观测向量Y 的分布:在假定2.1~假定2.5下

( ) ( ) n n I X N

x x Y 2 1 , ~ ~, , ~| s b L ·残差向量的分布:在假定2.1~假定2.5下

( ) (

) M N x x e n 2 1 , 0 ~ ~, , ~| s L ·估计量的抽样分布:在假定2.1~假定2.5下

( ) ( ) ( ) ( ) ( )

C N X X N

x x b T n 2

1

2 1 , 0 , 0 ~ ~, , ~| s s b = - - L · k b 的置信区间

( ) ( )

1 2

1 - - ± -

p n t

b SE b k k a

· k b 显著性检验(对 0 : 0 : 1 0 1 = k k H vs H b b 的检验)的统计量

( )

( ) 1

~ - - =

p n t b SE b t k k

k (k=0,1,…,p) ·检验线性约束 r R H = b : 0 (R 与r 为已知,#r×(p+1)矩阵R 是满行秩的)的F 统计量

F =

( ) ( ) [ ] ( ) 2

1

1

/# s r r Rb R X X R r Rb T T

T

- - - - (Wald 检验统计量) ( ) ( ) ( ) 1 , # ~ 1 / /# - - - - - =

p n r F p n RSS r RSS RSS U

U R (似然比检验统计量)

( ) ( ) [ ] ( ) r

r Rb R

X b RVar r Rb T T

/# | 1

- - = -

其中,RSS U =RSS 表示无约束最小二乘估计的残差平方和,RSS R 表示在线性约 束 r R = b ~

下最小二乘估计的残差平方和,即

RSS R ≡ ·回归方程显著性检验(对 0 : 1 0 = = = p H b b L 的检验)的F 统计量

( ) ( ) ( ) RMS MS p n RSS p SS p n RSS p RSS SST F reg reg o - - = - - - =

1 / / 1

/ / ( ) 1

, ~ 1 1 2

2

- - - - - = p n p F R R p p n (其中, p

SS MS reg

reg =

称为回归均方) ·最大似然估计(maximun likelihood estimators ,ML 估计)

实际上,我们还能证明:在假定2.1~假定2.5下,系数向量的OLS 估计量也是 ML 估计量,而 2 s 的ML 估计量则为

最大对数似然函数值是

) log( 2 2 ) 2 log( 2 n

RSS n n n - - - p ·回归函数的估计和因变量的预测

如果线性拟合模型经过检验是显著的, 那么我们就可用它来做估计回归函数和

预测因变量。对给定自变量的一组新的观测值 ( ) T

p x x x 0 01 0 , , , 1 L = ,估计对应的回归 函数值 b T x 0 和预测对应的因变量值 0 y 。显然回归函数 b T x 0 的估计值和 0 y 的预测值均

p p T

x b x b b b x y 0 01 1 0 0 0

? + + + = = L 估计值的抽样误差和预测值的预测误差分别为

( ) b b - - = - b x b x x T

T T 0

0 0 ( ) b e e b - - = - + = - b x b x x y y T T T

0 0 0 ? ( ) b b ~

min ~ Q r

R = RSS n

1

? 2 = s

在假定2.1~假定2.5下,抽样误差和预测误差的分布分别为

( ) (

) 0

1

2 0 0 , 0

~ x X X x N b x x T T T T - - s b ( ) ( )

( ) 0

1

2 0

1 , 0 ~ ? x X X x N y y T

T

- + - s 可进一步证明

( )

( ) 1 ~ 0

1 0 0 - - - -

p n t x X X x s b

x x T T T T b ( ) ( )

1 ~ 1 ? 0

1 0 - - + - -

p n t x

X X x s y

y T T 由此得到回归函数 b T

x 0 的区间估计和因变量 0 y 的区间预测分别为

( ) ( ) 0

1

2

1 0 1 ? x

X X x s p n t

y T T

- -

- - ± a ( ) ( ) 0

1 2

1 0 1 1 ? x X X x s p n t

y T

T - -

+ - - ± a 特别在只有一个自变量的情况下,回归函数 b T

x 0 的区间估计和因变量 0 y 的区间预测

分别为

( ) ( )

( )

? = - - - + - ± n i i x x x x n s n t y 1

2 2

2

1 0 0

1

2 ? a ( ) ( )

( ) ? = -

- - + + - ± n i i x x x x n

s n t

y 1

2

2

2

1 0 0

1

1 2 ? a

§2.7 R中有关线性回的函数

下面通过一个例子来说明R中与线性回归相关的函数。

例根据经验, 在人的身高相等的情况下, 血压的收缩压Y与体重x1(kg)和年龄x2(岁 数)有关。现收集13个男子的数据,试建立Y关于x1和x2的线性回归方程。

> blood<-data.frame(

X1=c(76.0, 91.5, 85.5, 82.5, 79.0, 80.5, 74.5, 79.0, 85.0, 76.5, 82.0, 95.0, 92.5),

X2=c(50, 20, 20, 30, 30, 50, 60, 50, 40, 55, 40, 40, 20),

Y= c(120, 141, 124, 126, 117, 125, 123, 125, 132, 123, 132, 155, 147)

)

> cor(blood)

X1 X2 Y

X1 1.0000000 -0.7002831 0.9064018

X2 -0.7002831 1.0000000 -0.3827729

Y 0.9064018 -0.3827729 1.0000000

plot(blood)

lm.sol<-lm(Y ~ X1+X2, data=blood)

lm( )函数用于估计线性模型,此函数返回一个线性拟合模型(lm对象)。此函 数的一般用法为

lm(formula,data, subset,...)

formula 指定R的模型公式,其形式是y~x1+x2+...+x p。如果线性模型中不包含常数 项,那么要在模型公式中增加自变量0,y~0+x1+x2+...+x p。R允许在模型

公式中使用表达式作为变量,log(y) ~ x1 + log( x2)。为了避免表达式

中的算术运算符与公式中的+,-,*,^等运算符号相混淆,可使用I( )

函数将整个表达式包围起来作为一个变量,log(y) ~ x1 + I(x2+x3)。 data 可选的数据框,指定样本数据。

subset 可选的向量,指定样本数据的子集,并用这个子集来估计模型。

lm对象是一个保存线性拟合模型信息的列表,此列表中的常用信息有 coefficients 系数向量的OLS估计值。

residuals OLS残差向量

fitted.values OLS拟合值向量

df.residual 残差的自由度n-p-1

> lm.sol$coefficients

(Intercept) X1 X2

-62.9633591 2.1365581 0.4002162

> lm.sol$residuals

1 2 3 4 5 6 7

0.5741329 0.4639664 -3.7166848 0.6908281 -0.8312185 -4.0403788 2.7768085

8 9 10 11 12 13

-0.8355416 -2.6527288 0.5047730 3.7569456 -1.0183102 4.3274082

> lm.sol$fitted.values

1 2 3 4 5 6 7 8

119.4259 140.5360 127.7167 125.3092 117.8312 129.0404 120.2232 125.8355

另外,还可通过一些函数获取更多线性拟合模型的信息。这些函数有 summary( ) 计算线性拟合模型的基本统计量,返回的是一个列表。

anova( ) 计算单个或多个线性拟合模型的方差分析表。

coef( ) 提取系数向量的估计值。

resid( ) 提取残差向量。

fitted( ) 提取拟合值向量。

vcov( ) 提取β的OLS估计量条件方差阵的估计。

deviance( ) 计算残差平方和。

formula( ) 提取模型公式。

summary( ) 函数的主要用法为

summary(object, correlation = FALSE)

其返回的列表中的常用统计量有

residuals 线性拟合模型的残差向量。

coefficients 关于系数向量估计的(p+1)×4矩阵。

sigma 误差标准差的估计值(回归标准误,残差标准误)。

r.squared 决定系数。

adj.r.squared 修正决定系数。

fstatistic 回归方程显著性检验的F统计量、分子自由度和分母自由度。 cov.unscaled 未乘s 2 的β的OLS估计量的条件方差阵的估计,即( ) 1- X

X T 。 correlation 如果correlation=TRUE ,β的OLS估计量的条件相关系数阵的估计。

> (out=summary(lm.sol))

Call:

lm(formula = Y ~ X1 + X2, data = blood)

Residuals:

Min 1Q Median 3Q Max

-4.0404 -1.0183 0.4640 0.6908 4.3274 Coefficients:

Estimate Std. Error t value Pr(>|t|) (Intercept) -62.96336 16.99976 -3.704 0.004083 ** X1 2.13656 0.17534 12.185 2.53e-07 *** X2 0.40022 0.08321 4.810 0.000713 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’1 Residual standard error: 2.854 on 10 degrees of freedom Multiple R-squared: 0.946, Adjusted R-squared: 0.935 F-statistic: 87.84 on 2 and 10 DF, p-value: 4.531e-07

> out$sigma

[1] 2.853596

> out$r.squared

[1] 0.9461441

> out$adj.r.squared

[1] 0.935373

> out$fstatistic

value numdf dendf

87.84038 2.00000 10.00000

9 10 11 12 13 134.6527 122.4952 128.2431 156.0183 142.6726 > lm.sol$df.residual

[1] 10>

anova( ) 函数的主要用法为

anova(object, ...)

如果只指定一个对象, 则返回那个线性拟合模型的方差分析表。 如果指定多个对象, 那么返回多个线性拟合模型比较的方差分析表,特别适用于嵌套模型的 F 检验 (Wald 检验,似然比检验),一般将简单的模型排在前面,复杂的模型排在后面。

anova(lm.sol )

Analysis of Variance Table Response: Y

Df Sum Sq Mean Sq F value

Pr(>F)

X1 1 1242.21 1242.21 152.549 2.227e-07 *** X2 1 188.36 188.36 23.132 0.0007133 ***

Residuals 10 81.43 8.14 ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05‘.’

0.1 ‘ ’ 1

anova(lm(Y~I(X1+X2),data=blood),lm.sol)

Analysis of V ariance Table Model 1: Y ~ I(X1 + X2) Model 2: Y ~ X1 + X2 Res.Df RSS Df Sum of Sq F Pr(>F) 1 11 1505.95 2 10 81.43 1 1424.52 174.94 1.164e-07 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> coef(lm.sol )

(Intercept) X1 X2 -62.9633591 2.1365581 0.4002162 > resid(lm.sol )

1 2 3 4 5 6 7 0.5741329 0.4639664-3.7166848 0.6908281-0.8312185 -4.0403788 2.7768085 8 9 10 11 12 13 -0.8355416-2.6527288 0.5047730 3.7569456-1.0183102 4.3274082 > fitted(lm.sol )

1 2 3 4 5 6 7 8 119.4259 140.5360 127.7167 125.3092 117.8312 129.0404 120.2232 125.8355 9 10 11 12 13 134.6527 122.4952 128.2431 156.0183 142.6726 > vcov(lm.sol )

> out$correlation NULL

> out$cov.unscaled

(Intercept)

X1

X2

(Intercept) 35.4895683 -0.362265125 -0.1372261097 X1 -0.9896500 1.0000000 0.7002831 X2

-0.7899354 0.7002831 1.0000000

> out1=summary(lm.sol,correlation =TRUE) > out1$correlation

(Intercept) X1 X2

(Intercept) 1.0000000 -0.9896500 -0.7899354 X1 -0.9896500 1.0000000 0.7002831 X2 -0.7899354 0.7002831 1.0000000

在R 的附加程序包CAR (Companion to Applied Regression )中的lhts( )函数可用 于检验线性约束 r R H = b : 0 。此函数的一般用法为

linear.hypothesis(model, hypothesis.matrix, rhs=NULL,) lht(model, hypothesis.matrix, rhs=NULL,)

model :指定线性拟合模型对象。

hypothesis.matrix :数值型的矩阵或向量,每一行表示模型系数的一个线性组合,

同rhs 一起构成了模型系数的线性约束。也可以是一个字符型向 量,每个元素指定系数的一个线性组合或线性约束。

Rhs:指定线性约束左边常数的向量,缺省表示左边常数全等于0。

R 的函数predict( )用于预测,其一般用法为

> library(car)

> lht(lm.sol,c("X1+3*X2=1")) > lht(lm.sol,c("X1+3*X2"),1) > lht(lm.sol,c(0,1,3),1) Linear hypothesis test Hypothesis: X1 + 3 X2 = 1

Model 1: Y ~ X1 + X2 Model 2: restricted model

Res.Df RSS Df Sum of Sq F Pr(>F) 1 10 81.43 2 11 369.58 -1 -288.15 35.386 0.0001415 *** ---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Intercept)

X1 X2 (Intercept) 288.991861 -2.94992804 -1.117433397 X1 -2.949928 0.03074496 0.010217576 X2 -1.117433 0.01021758 0.006924278

> deviance(lm.sol ) [1] 81.43009 > formula(lm.sol ) Y ~ X1 + X2

predict(object,newdata,interval=c("none","confidence","prediction"),level=0.95) object:指定线性拟合模型对象。

newdata:指新观测值所在的数据框。

interval:指定预测的形式,缺省为"none",表示只给出预测值;"confidence"

表示给出预测值和回归函数的估计值;"prediction"表示给出预测值和

预测区间。

> new=data.frame(X1=80,X2=40)

> lm.pred=predict(lm.sol,new,interval="prediction",level=0.95)

> lm.pred

fit lwr upr

1 123.9699 117.2889 130.6509

> (lm.pred=predict(lm.sol,new,level=0.95))

1

123.9699

> (lm.pred=predict(lm.sol,new,interval="confidence",level=0.95))

fit lwr upr

1 123.9699 121.9183 126.0215

> (lm.pred=predict(lm.sol,new,interval="prediction",level=0.70))

fit lwr upr

1 123.9699 120.6924 127.2474

最新第二章(简单线性回归模型)2-3答案

2.3拟合优度的度量 一、判断题 1.当 ()∑-2i y y 确定时,()∑-2 i y y ?越小,表明模型的拟合优度越好。(F ) 2.可以证明,可决系数2R 高意味着每个回归系数都是可信任的。(F ) 3.可决系数2R 的大小不受到回归模型中所包含的解释变量个数的影响。(F ) 4.任何两个计量经济模型的2R 都是可以比较的。(F ) 5.拟合优度2R 的值越大,说明样本回归模型对数据的拟合程度越高。( T ) 6.结构分析是2R 高就足够了,作预测分析时仅要求可决系数高还不够。( F ) 7.通过2R 的高低可以进行显著性判断。(F ) 8.2R 是非随机变量。(F ) 二、单项选择题 1.已知某一直线回归方程的可决系数为0.64,则解释变量与被解释变量间的线性相关系数为( B )。 A .±0.64 B .±0.8 C .±0.4 D .±0.32 2.可决系数2R 的取值范围是( C )。 A .2R ≤-1 B .2R ≥1 C .0≤2R ≤1 D .-1≤2R ≤1 3.下列说法中正确的是:( D ) A 如果模型的2R 很高,我们可以认为此模型的质量较好 B 如果模型的2R 较低,我们可以认为此模型的质量较差 C 如果某一参数不能通过显著性检验,我们应该剔除该解释变量 D 如果某一参数不能通过显著性检验,我们不应该随便剔除该解释变量 三、多项选择题 1.反映回归直线拟合优度的指标有( ACDE )。 A .相关系数 B .回归系数 C .样本可决系数 D .回归方程的标准差 E .剩余变差(或残差平方和) 2.对于样本回归直线i 01i ???Y X ββ+=,回归变差可以表示为( ABCDE )。 A .2 2i i i i ?Y Y -Y Y ∑ ∑  (-) (-) B .2 2 1 i i ?X X β∑ (-) C .2 2 i i R Y Y ∑ (-) D .2 i i ?Y Y ∑(-) E .1 i i i i ?X X Y Y β∑ (-()-) 3.对于样本回归直线i 01i ???Y X ββ+=,?σ为估计标准差,下列可决系数的算式中,正确的有( ABCDE )。 A .2i i 2 i i ?Y Y Y Y ∑∑(-)(-) B .2i i 2 i i ?Y Y 1Y Y ∑∑ (-)-(-)

多元线性回归模型的案例分析

1. 表1列出了某地区家庭人均鸡肉年消费量Y 与家庭月平均收入X ,鸡肉价格P 1,猪肉价格P 2与牛肉价格P 3的相关数据。 年份 Y/千 克 X/ 元 P 1/(元/千克) P 2/(元/千克) P 3/(元/千克) 年份 Y/千克 X/元 P 1/(元/ 千克) P 2/(元/ 千克) P 3/(元/千克) 1980 2.78 397 4.22 5.07 7.83 1992 4.18 911 3.97 7.91 11.40 1981 2.99 413 3.81 5.20 7.92 1993 4.04 931 5.21 9.54 12.41 1982 2.98 439 4.03 5.40 7.92 1994 4.07 1021 4.89 9.42 12.76 1983 3.08 459 3.95 5.53 7.92 1995 4.01 1165 5.83 12.35 14.29 1984 3.12 492 3.73 5.47 7.74 1996 4.27 1349 5.79 12.99 14.36 1985 3.33 528 3.81 6.37 8.02 1997 4.41 1449 5.67 11.76 13.92 1986 3.56 560 3.93 6.98 8.04 1998 4.67 1575 6.37 13.09 16.55 1987 3.64 624 3.78 6.59 8.39 1999 5.06 1759 6.16 12.98 20.33 1988 3.67 666 3.84 6.45 8.55 2000 5.01 1994 5.89 12.80 21.96 1989 3.84 717 4.01 7.00 9.37 2001 5.17 2258 6.64 14.10 22.16 1990 4.04 768 3.86 7.32 10.61 2002 5.29 2478 7.04 16.82 23.26 1991 4.03 843 3.98 6.78 10.48 (1) 求出该地区关于家庭鸡肉消费需求的如下模型: 01213243ln ln ln ln ln Y X P P P u βββββ=+++++ (2) 请分析,鸡肉的家庭消费需求是否受猪肉及牛肉价格的影响。 先做回归分析,过程如下: 输出结果如下:

(完整版)第二章(简单线性回归模型)2-2答案

2.2 简单线性回归模型参数的估计 一、判断题 1.使用普通最小二乘法估计模型时,所选择的回归线使得所有观察值的残差和达到最小。(F) 2.随机扰动项和残差项是一回事。(F ) 3.在任何情况下OLS 估计量都是待估参数的最优线性无偏估计。(F ) 4.满足基本假设条件下,随机误差项i μ服从正态分布,但被解释变量Y 不一定服从正态分 布。 ( F ) 5.如果观测值i X 近似相等,也不会影响回归系数的估计量。 ( F ) 二、单项选择题 1.设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是( D )。 A . ()() () i i 1 2 i X X Y -Y ?X X β--∑∑= B .() i i i i 12 2i i n X Y -X Y ? n X -X β∑∑∑∑∑= C .i i 122i X Y -nXY ?X -nX β∑∑= D .i i i i 12x n X Y -X Y ?βσ∑∑∑= 2.以Y 表示实际观测值,?Y 表示回归估计值,则普通最小二乘法估计参数的准则是使( D )。 A .i i ?Y Y 0∑(-)= B .2 i i ?Y Y 0∑ (-)= C .i i ?Y Y ∑(-)=最小 D .2 i i ?Y Y ∑ (-)=最小 3.设Y 表示实际观测值,?Y 表示OLS 估计回归值,则下列哪项成立( D )。 A .?Y Y = B .?Y Y = C .?Y Y = D .?Y Y = 4.用OLS 估计经典线性模型i 01i i Y X u ββ+=+,则样本回归直线通过点( D )。 A .X Y (,) B . ?X Y (,) C .?X Y (,) D .X Y (,) 5.以Y 表示实际观测值,?Y 表示OLS 估计回归值,则用OLS 得到的样本回归直线i 01i ???Y X ββ+=满足( A )。 A .i i ?Y Y 0∑(-)= B .2 i i Y Y 0∑ (-)= C . 2 i i ?Y Y 0∑ (-)= D .2i i ?Y Y 0∑ (-)= 6.按经典假设,线性回归模型中的解释变量应是非随机变量,且( A )。 i u i e

简单线性回归模型试题及答案

第二章 简单线性回归模型 一、单项选择题: 1、回归分析中定义的( B )。 A 、解释变量和被解释变量都是随机变量 B 、解释变量为非随机变量,被解释变量为随机变量 C 、解释变量和被解释变量都为非随机变量 D 、解释变量为随机变量,被解释变量为非随机变量 2、最小二乘准则是指使( D )达到最小值的原则确定样本回归方程。 A 、1?()n t t t Y Y =-∑ B 、1?n t t t Y Y =-∑ C 、?max t t Y Y - D 、21?()n t t t Y Y =-∑ 3、下图中“{”所指的距离是( B )。 A 、随机误差项 i 、?i Y 的离差 4、参数估计量?β是i Y 的线性函数称为参数估计量具有( A )的性质。 A 、线性 B 、无偏性 C 、有效性 D 、一致性 5、参数β的估计量β?具备有效性是指( B )。 A 、0)?(=βVar B 、)?(βVar 为最小 C 、0?=-ββ D 、)?(ββ-为最小 6、反映由模型中解释变量所解释的那部分离差大小的是( B )。 A 、总体平方和 B 、回归平方和 C 、残差平方和 D 、样本平方和 7、总体平方和TSS 、残差平方和RSS 与回归平方和ESS 三者的关系是( B )。 A 、RSS=TSS+ESS B 、TSS=RSS+ESS C 、ESS=RSS-TSS D 、ESS=TSS+RSS 8、下面哪一个必定是错误的( C )。 A 、 i i X Y 2.030?+= ,8.0=XY r B 、 i i X Y 5.175?+-= ,91.0=XY r C 、 i i X Y 1.25?-=,78.0=XY r D 、 i i X Y 5.312?--=,96.0-=XY r 9、产量(X ,台)与单位产品成本(Y ,元/台)之间的回归方程为?356 1.5Y X =-,这说明( D )。 A 、产量每增加一台,单位产品成本增加356元 B 、产量每增加一台,单位产品成本减少1.5元 C 、产量每增加一台,单位产品成本平均增加356元 D 、产量每增加一台,单位产品成本平均减少1.5元 10、回归模型i i i X Y μββ++=10,i = 1,…,25中,总体方差未知,检验010=β:H 时,所用的检验统计量1?1 1?βββS -服从( D )。 A 、)(22-n χ B 、)(1-n t C 、)(12-n χ D 、)(2-n t 11、对下列模型进行经济意义检验,哪一个模型通常被认为没有实际价值的( B )。 A 、i C (消费)i I 8.0500+=(收入) B 、di Q (商品需求)i I 8.010+=(收入)i P 9.0+(价格) C 、si Q (商品供给)i P 75.020+=(价格) D 、i Y (产出量)6.065.0i K =(资本)4.0i L (劳动) 12、进行相关分析时,假定相关的两个变量( A )。 X 1?β+ i Y

经典线性回归模型

2 经典线性回归模型 §2.1 概念与记号 1.线性回归模型是用来描述一个特定变量y 与其它一些变量x 1,…,x p 之间的关系。 2. 称特定变量y 为因变量 (dependent variable )、 被解释变量 (explained variable )、 响应变量(response variable )、被预测变量(predicted variable )、回归子 (regressand )。 3.称与特定变量相关的其它一些变量x 1,…,x p 为自变量(independent variable )、 解释变量(explanatory variable )、控制变量(control variable )、预测变量 (predictor variable )、回归量(regressor )、协变量(covariate )。 4.假定我们观测到上述这些变量的n 组值:( ) ip i i x x y , , , 1 L (i=1,…,n)。称 这n 组值为样本(sample )或数据(data )。 §2.2 经典线性回归模型的假定 假定 2.1(线性性(linearity)) i ip p i i x x y e b b b + + + + = L 1 1 0 (i=1,…,n)。 (2.1) 称方程(2.1)为因变量y 对自变量x 1,…,x p 的线性回归方程(linear regression equation ),其中 ( ) p , k k , , 1 0 L = b 是待估的未知参数(unknown parameters ), ( ) n i i , , 1 L = e 是满足一定限制条件的无法观测的误差项(unobserved error term ) 。称自 变量的函数 ip p i x x b b b + + + L 1 1 0 为回归函数(regression function )或简称为回归 (regression )。称 0 b 为回归的截距(ntercept),称 ( ) p k k , , 1 L = b 为自变量的回归系数 (regression coefficients ) 。某个自变量的回归系数表示在其它条件保持不变的情况下,

非线性回归分析

SPSS—非线性回归(模型表达式)案例解析 2011-11-16 10:56 由简单到复杂,人生有下坡就必有上坡,有低潮就必有高潮的迭起,随着SPSS 的深入学习,已经逐渐开始走向复杂,今天跟大家交流一下,SPSS非线性回归,希望大家能够指点一二! 非线性回归过程是用来建立因变量与一组自变量之间的非线性关系,它不像线性模型那样有众多的假设条件,可以在自变量和因变量之间建立任何形式的模型非线性,能够通过变量转换成为线性模型——称之为本质线性模型,转换后的模型,用线性回归的方式处理转换后的模型,有的非线性模型并不能够通过变量转换为线性模型,我们称之为:本质非线性模型 还是以“销售量”和“广告费用”这个样本为例,进行研究,前面已经研究得出:“二次曲线模型”比“线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的趋势变化”,那么“二次曲线”会不会是最佳模型呢? 答案是否定的,因为“非线性模型”能够更好的拟合“销售量随着广告费用的增加而呈现的变化趋势” 下面我们开始研究: 第一步:非线性模型那么多,我们应该选择“哪一个模型呢?” 1:绘制图形,根据图形的变化趋势结合自己的经验判断,选择合适的模型 点击“图形”—图表构建程序—进入如下所示界面:

点击确定按钮,得到如下结果:

放眼望去, 图形的变化趋势,其实是一条曲线,这条曲线更倾向于"S" 型曲线,我们来验证一下,看“二次曲线”和“S曲线”相比,两者哪一个的拟合度更高! 点击“分析—回归—曲线估计——进入如下界面

在“模型”选项中,勾选”二次项“和”S" 两个模型,点击确定,得到如下结果: 通过“二次”和“S “ 两个模型的对比,可以看出S 模型的拟合度明显高于

第二章(简单线性回归模型)2-2答案教学文稿

第二章(简单线性回归模型)2-2答案

2.2 简单线性回归模型参数的估计 一、判断题 1.使用普通最小二乘法估计模型时,所选择的回归线使得所有观察值的残差和达到最小。(F) 2.随机扰动项i u 和残差项i e 是一回事。(F ) 3.在任何情况下OLS 估计量都是待估参数的最优线性无偏估计。(F ) 4.满足基本假设条件下,随机误差项i μ服从正态分布,但被解释变量Y 不一定服从正态分 布。 ( F ) 5.如果观测值i X 近似相等,也不会影响回归系数的估计量。 ( F ) 二、单项选择题 1.设样本回归模型为i 01i i ??Y =X +e ββ+,则普通最小二乘法确定的i ?β的公式中,错误的是( D )。 A . ()() () i i 1 2 i X X Y -Y ?X X β--∑∑= B . () i i i i 1 2 2i i n X Y -X Y ?n X -X β ∑∑∑∑∑= C .i i 122i X Y -nXY ?X -nX β∑∑= D .i i i i 12 x n X Y -X Y ?βσ∑∑∑= 2.以Y 表示实际观测值,?Y 表示回归估计值,则普通最小二乘法估计参数的准则是使( D )。 A .i i ?Y Y 0∑(-)= B .2 i i ?Y Y 0∑ (-)= C .i i ?Y Y ∑(-)=最小 D .2 i i ?Y Y ∑ (-)=最小 3.设Y 表示实际观测值,?Y 表示OLS 估计回归值,则下列哪项成立( D )。 A .?Y Y = B .?Y Y = C .?Y Y = D .?Y Y = 4.用OLS 估计经典线性模型i 01i i Y X u ββ+=+,则样本回归直线通过点( D )。 A .X Y (,) B . ?X Y (,) C .?X Y (,) D .X Y (,) 5.以Y 表示实际观测值,?Y 表示OLS 估计回归值,则用OLS 得到的样本回归直线

常见非线性回归模型

常见非线性回归模型 1.简非线性模型简介 非线性回归模型在经济学研究中有着广泛的应用。有一些非线性回归模型可以通 过直接代换或间接代换转化为线性回归模型,但也有一些非线性回归模型却无 法通过代换转化为线性回归模型。 柯布—道格拉斯生产函数模型 y AKL 其中L和K分别是劳力投入和资金投入, y是产出。由于误差项是可加的, 从而也不能通过代换转化为线性回归模型。 对于联立方程模型,只要其中有一个方程是不能通过代换转化为线性,那么这个联立方程模型就是非线性的。 单方程非线性回归模型的一般形式为 y f(x1,x2, ,xk; 1, 2, , p) 2.可化为线性回归的曲线回归 在实际问题当中,有许多回归模型的被解释变量y与解释变量x之间的关系都不是线性的,其中一些回归模型通过对自变量或因变量的函数变换可以转化为

线性关系,利用线性回归求解未知参数,并作回归诊断。如下列模型。 (1)y 0 1e x (2)y 0 1x2x2p x p (3)y ae bx (4)y=alnx+b 对于(1)式,只需令x e x即可化为y对x是线性的形式y01x,需要指出的是,新引进的自变量只能依赖于原始变量,而不能与未知参数有关。 对于(2)式,可以令x1=x,x2=x2,?,x p=x p,于是得到y关于x1,x2,?, x p 的线性表达式y 0 1x12x2 pxp 对与(3)式,对等式两边同时去自然数对数,得lnylnabx ,令 y lny, 0 lna, 1 b,于是得到y关于x的一元线性回归模型: y 0 1x。 乘性误差项模型和加性误差项模型所得的结果有一定差异,其中乘性误差项模型认为yt本身是异方差的,而lnyt是等方差的。加性误差项模型认为yt是等 方差的。从统计性质看两者的差异,前者淡化了y t值大的项(近期数据)的作用, 强化了y t值小的项(早期数据)的作用,对早起数据拟合得效果较好,而后者则 对近期数据拟合得效果较好。 影响模型拟合效果的统计性质主要是异方差、自相关和共线性这三个方面。 异方差可以同构选择乘性误差项模型和加性误差项模型解决,必要时还可以使用 加权最小二乘。

案例分析报告(一元线性回归模型)

案例分析报告(2014——2015学年第一学期) 课程名称:预测与决策 专业班级:电子商务1202 学号: 2204120202 学生姓名:陈维维 2014 年 11月

案例分析(一元线性回归模型) 我国城镇居民家庭人均消费支出预测 一、研究目的与要求 居民消费在社会经济的持续发展中有着重要的作用,居民合理的消费模式和居民适度的消费规模有利于经济持续健康的增长,而且这也是人民生活水平的具体体现。从理论角度讲,消费需求的具体内容主要体现在消费结构上,要增加居民消费,就要从研究居民消费结构入手,只有了解居民消费结构变化的趋势和规律,掌握消费需求的热点和发展方向,才能为消费者提供良好的政策环境,引导消费者合理扩大消费,才能促进产业结构调整与消费结构优化升级相协调,才能推动国民经济平稳、健康发展。例如,2008年全国城镇居民家庭平均每人每年消费支出为11242.85元,最低的青海省仅为人均8192.56元,最高的上海市达人均19397.89元,上海是黑龙江的2.37倍。为了研究全国居民消费水平及其变动的原因,需要作具体的分析。影响各地区居民消费支出有明显差异的因素可能很多,例如,零售物价指数、利率、居民财产、购物环境等等都可能对居民消费有影响。为了分析什么是影响各地区居民消费支出有明显差异的最主要因素,并分析影响因素与消费水平的数量关系,可以建立相应的计量经济模型去研究。 二、模型设定 我研究的对象是各地区居民消费的差异。居民消费可分为城镇居民消费和农村居民消费,由于各地区的城镇与农村人口比例及经济结构有较大差异,最具有直接对比可比性的是城市居民消费。而且,由于各地区人口和经济总量不同,只能用“城镇居民每人每年的平均消费支出”来比较,而这正是可从统计年鉴中获得数据的变量。 所以模型的被解释变量Y选定为“城镇居民每人每年的平均消费支出”。 因为研究的目的是各地区城镇居民消费的差异,并不是城镇居民消费在不同时间的变动,所以应选择同一时期各地区城镇居民的消费支出来建立模

一般线性回归分析案例

一般线性回归分析案例 1、案例 为了研究钙、铁、铜等人体必需元素对婴幼儿身体健康的影响,随机抽取了30个观测数据,基于多员线性回归分析的理论方法,对儿童体内几种必需元素与血红蛋白浓度的关系进行分析研究。这里,被解释变量为血红蛋白浓度(y),解释变量为钙(ca)、铁(fe)、铜(cu)。 表一血红蛋白与钙、铁、铜必需元素含量 (血红蛋白单位为g;钙、铁、铜元素单位为ug) case y(g)ca fe cu 17.0076.90295.300.840 27.2573.99313.00 1.154 37.7566.50350.400.700 48.0055.99284.00 1.400 58.2565.49313.00 1.034 68.2550.40293.00 1.044 78.5053.76293.10 1.322 88.7560.99260.00 1.197 98.7550.00331.210.900 109.2552.34388.60 1.023 119.5052.30326.400.823 129.7549.15343.000.926 1310.0063.43384.480.869 1410.2570.16410.00 1.190 1510.5055.33446.00 1.192 1610.7572.46440.01 1.210 1711.0069.76420.06 1.361 1811.2560.34383.310.915 1911.5061.45449.01 1.380 2011.7555.10406.02 1.300 2112.0061.42395.68 1.142 2212.2587.35454.26 1.771 2312.5055.08450.06 1.012 2412.7545.02410.630.899 2513.0073.52470.12 1.652 2613.2563.43446.58 1.230

(完整版)第二章(简单线性回归模型)2-2答案

2.2简单线性回归模型参数的估计 、判断题 1. 使用普通最小二乘法估计模型时, (F ) 2. 随机扰动项u i 和残差项e i 是一回事。 (F ) 3. 在 任何情况下OLS 估计量都是待估参数的最 优线性无偏估计。 (F ) 布。 5.如果观测值X i 近似相等,也不会影响回归系数的估计量 】、单项选择题 1.设样本回归模型为 Y i =" ? X i +e i D )。 A. ?= ■ 1 X i X X i X Y i -Y ? X i Y i -nXY c. - X i 2-nX 2 2 ?以 丫表示实际观测值 ,Y?表示回归估计值, 则普通最小二乘法确定的 ?的公式中, 错误的是 ?n X i Y i - X i Y i i n X i 2- X i 2 ?_ n X i Y i - X i Y i i 1 2 x 则普通最小二乘法估计参数的准则是使 (D ) A. (丫— Y i )=o c. (Y — £ )=最小 「? 一 Y A . (X, 丫 ) 5.以丫表示实际观测值, 丫?表示OLS 估计回归值,则用 OLS 得到的样本回归直线 丫 ?一 ?) 4?满足基本假设条件下,随机误差项 i 服从正态分布,但被解释变量 Y 不一定服从正态分 所选择的回归线使得所有观察值的残差和达到最 3. 丫表示实际观测值 丫?表示OLS 估计回归值,则下列哪项成立( D A. 4.用OLS 估计经典线性模型 Y i — 0 i X i + u i ,则样本回归直线通过点( .(X, Y?)

满足(A)。 A.(Y i—丫i)一0 B . (Y i —Y)2 - 0 C.(Y—丫)2-0 D .(丫Y)-0 6.按经典假设,线性回归模型中的解释变量应是非随机变量,且(

多元线性回归模型

第四章 多元线性回归模型 在一元线性回归模型中,解释变量只有一个。但在实际问题中,影响因变量的变量可能不止一个,比如根据经济学理论,人们对某种商品的需求不仅受该商品市场价格的影响,而且受其它商品价格以及人们可支配收入水平的制约;影响劳动力劳动供给意愿(用劳动参与率度量)的因素不仅包括经济形势(用失业率度量),而且包括劳动实际工资;根据凯恩斯的流动性偏好理论,影响人们货币需求的因素不仅包括人们的收入水平,而且包括利率水平等。当解释变量的个数由一个扩展到两个或两个以上时,一元线性回归模型就扩展为多元线性回归模型。本章在理论分析中以二元线性回归模型为例进行。 一、预备知识 (一)相关概念 对于一个三变量总体,若由基础理论,变量21,x x 和变量y 之间存在因果关系,或21,x x 的变异可用来解释y 的变异。为检验变量21,x x 和变量y 之间因果关系是否存在、度量变量21,x x 对变量y 影响的强弱与显著性、以及利用解释变量21,x x 去预测因变量y ,引入多元回归分析这一工具。 将给定i i x x 21,条件下i y 的均值 i i i i i x x x x y E 2211021),|(βββ++= (4.1) 定义为总体回归函数(Population Regression Function,PRF )。定义),|(21i i i i x x y E y -为误差项(error term ),记为i μ,即),|(21i i i i i x x y E y -=μ,这样i i i i i x x y E y μ+=),|(21,或 i i i i x x y μβββ+++=22110 (4.2) (4.2)式称为总体回归模型或者随机总体回归函数。其中,21,x x 称为解释变量(explanatory variable )或自变量(independent variable );y 称为被解释变量(explained variable )或因变量(dependent variable );误差项μ解释了因变量的变动中不能完全被自变量所解释的部分。 在总体回归模型(4.2)中参数210,,βββ是未知的,i μ是不可观察的,统计计量分析的目标之一就是估计模型的未知参数。给定一组随机样本n i x x y i i i ,,2,1),,,(21 =,对(4.1)式进行估计,若21021,,),,|(βββi i i x x y E 的估 计量分别记为^2^1^0^,,,βββi y ,则定义(4.3)式为样本回归函数 i i i x x y 2^ 21^1^0^βββ++= (n i ,,2,1 =) (4.3) 注意,样本回归函数随着样本的不同而不同,也就是说^2^1^0,,βββ是随机变量,它们的随机性是由于i y 的随机性(同一组),(21i i x x 可能对应不同的i y )、21,x x 各

经典线性回归模型的诊断与修正

经典线性回归模型的诊断与修正下表为最近20年我国全社会固定资产投资与GDP的统计数据:1 年份国内生产总值(亿元)GDP 全社会固定资产投资(亿元)PI 1996 71813.6 22913.5 1997 79715 24941.1 1998 85195.5 28406.2 1999 90564.4 29854.7 2000 100280.1 32917.7 2001 110863.1 37213.49 2002 121717.4 43499.91 2003 137422 55566.61 2004 161840.2 70477.43 2005 187318.9 88773.61 2006 219438.5 109998.16 2007 270232.3 137323.94 2008 319515.5 172828.4 2009 349081.4 224598.77 2010 413030.3 251683.77 2011 489300.6 311485.13 2012 540367.4 374694.74 2013 595244.4 446294.09 1数据来源于国家统计局网站年度数据

1、普通最小二乘法回归结果如下: 方程初步估计为: GDP=75906.54+1.1754PI (32.351) R2=0.9822F=1046.599 DW=0.3653 2、异方差的检验与修正 首先,用图示检验法,生成残差平方和与解释变量PI的散点图如下:

从上图可以看出,残差平方和与解释变量的散点图主要分布在图形的下半部分,有随PI的变动增大的趋势,因此,模型可能存在异方差。但是否确定存在异方差,还需作进一步的验证。 G-Q检验如下: 去除序列中间约1/4的部分后,1996-2003年的OLS估计结果如下所示:

线性回归模型的研究毕业论文

线性回归模型的研究毕业论文 1 引言 回归分析最早是由19世纪末期高尔顿(Sir Francis Galton)发展的。1855年,他发表了一篇文章名为“遗传的身高向平均数方向的回归”,分析父母与其孩子之间身高的关系,发现父母的身高越高或的其孩子也越高,反之则越矮。他把儿子跟父母身高这种现象拟合成一种线性关系。但是他还发现了个有趣的现象,高个子的人生出来的儿子往往比他父亲矮一点更趋向于平均身高,矮个子的人生出来的儿子通常比他父亲高一点也趋向于平均身高。高尔顿选用“回归”一词,把这一现象叫做“向平均数方向的回归”。于是“线形回归”的术语被沿用下来了。 回归分析中,当研究的因果关系只涉及因变量和一个自变量时,叫做一元回归分析;当研究的因果关系涉及因变量和两个或两个以上自变量时,叫做多元回归分析。此外,回归分析中,又依据描述自变量与因变量之间因果关系的函数表达式是线性的还是非线性的,分为线性回归分析和非线性回归分析。按照参数估计方法可以分为主成分回归、偏最小二乘回归、和岭回归。 一般采用线性回归分析,由自变量和规定因变量来确定变量之间的因果关系,从而建立线性回归模型。模型的各个参数可以根据实测数据解。接着评价回归模型能否够很好的拟合实际数据;如果不能够很好的拟合,则重新拟合;如果能很好的拟合,就可以根据自变量进行下一步推测。 回归分析是重要的统计推断方法。在实际应用中,医学、农业、生物、林业、金融、管理、经济、社会等诸多方面随着科学的发展都需要运用到这个方法。从而推动了回归分析的快速发展。 2 回归分析的概述 2.1 回归分析的定义 回归分析是应用极其广泛的数据分析方法之一。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。 2.2 回归分析的主要容

(完整word版)多元线性回归模型案例分析

多元线性回归模型案例分析 ——中国人口自然增长分析一·研究目的要求 中国从1971年开始全面开展了计划生育,使中国总和生育率很快从1970年的5.8降到1980年2.24,接近世代更替水平。此后,人口自然增长率(即人口的生育率)很大程度上与经济的发展等各方面的因素相联系,与经济生活息息相关,为了研究此后影响中国人口自然增长的主要原因,分析全国人口增长规律,与猜测中国未来的增长趋势,需要建立计量经济学模型。 影响中国人口自然增长率的因素有很多,但据分析主要因素可能有:(1)从宏观经济上看,经济整体增长是人口自然增长的基本源泉;(2)居民消费水平,它的高低可能会间接影响人口增长率。(3)文化程度,由于教育年限的高低,相应会转变人的传统观念,可能会间接影响人口自然增长率(4)人口分布,非农业与农业人口的比率也会对人口增长率有相应的影响。 二·模型设定 为了全面反映中国“人口自然增长率”的全貌,选择人口增长率作为被解释变量,以反映中国人口的增长;选择“国名收入”及“人均GDP”作为经济整体增长的代表;选择“居民消费价格指数增长率”作为居民消费水平的代表。暂不考虑文化程度及人口分布的影响。 从《中国统计年鉴》收集到以下数据(见表1): 表1 中国人口增长率及相关数据

设定的线性回归模型为: 1222334t t t t t Y X X X u ββββ=++++ 三、估计参数 利用EViews 估计模型的参数,方法是: 1、建立工作文件:启动EViews ,点击File\New\Workfile ,在对 话框“Workfile Range ”。在“Workfile frequency ”中选择“Annual ” (年度),并在“Start date ”中输入开始时间“1988”,在“end date ”中输入最后时间“2005”,点击“ok ”,出现“Workfile UNTITLED ”工作框。其中已有变量:“c ”—截距项 “resid ”—剩余项。在“Objects ”菜单中点击“New Objects”,在“New Objects”对话框中选“Group”,并在“Name for Objects”上定义文件名,点击“OK ”出现数据编辑窗口。 年份 人口自然增长率 (%。) 国民总收入(亿元) 居民消费价格指数增长 率(CPI )% 人均GDP (元) 1988 15.73 15037 18.8 1366 1989 15.04 17001 18 1519 1990 14.39 18718 3.1 1644 1991 12.98 21826 3.4 1893 1992 11.6 26937 6.4 2311 1993 11.45 35260 14.7 2998 1994 11.21 48108 24.1 4044 1995 10.55 59811 17.1 5046 1996 10.42 70142 8.3 5846 1997 10.06 78061 2.8 6420 1998 9.14 83024 -0.8 6796 1999 8.18 88479 -1.4 7159 2000 7.58 98000 0.4 7858 2001 6.95 108068 0.7 8622 2002 6.45 119096 -0.8 9398 2003 6.01 135174 1.2 10542 2004 5.87 159587 3.9 12336 2005 5.89 184089 1.8 14040 2006 5.38 213132 1.5 16024

线性回归模型

线性回归模型 1.回归分析 回归分析研究的主要对象是客观事物变量之间的统计关系,它是建立在对客观事物进行大量试验和观察的基础上,用来寻找隐藏在那些看上去是不确定的现象中的统计规律性的方法。回归分析方法是通过建立模型研究变量间相互关系的密切程度、结构状态及进行模型预测的一种有效工具。 2.回归模型的一般形式 如果变量x_1,x_2,…,x_p与随机变量y之间存在着相关关系,通常就意味着每当x_1,x_2,…,x_p取定值后,y便有相应的概率分布与之对应。随机变量y与相关变量x_1,x_2,…,x_p之间的概率模型为 y = f(x_1, x_2,…,x_p) + ε(1) f(x_1, x_2,…,x_p)为变量x_1,x_2,…,x_p的确定性关系,ε为随机误差项。由于客观经济现象是错综复杂的,一种经济现象很难用有限个因素来准确说明,随机误差项可以概括表示由于人们的认识以及其他客观原因的局限而没有考虑的种种偶然因素。 当概率模型(1)式中回归函数为线性函数时,即有 y = beta_0 + beta_1*x_1 + beta_2*x_2 + …+ beta_p*x_p +ε (2) 其中,beta_0,…,beta_p为未知参数,常称它们为回归系数。当变量x个数为1时,为简单线性回归模型,当变量x个数大于1时,为多元线性回归模型。 3.回归建模的过程 在实际问题的回归分析中,模型的建立和分析有几个重要的阶段,以经济模型的建立为例:

(1)根据研究的目的设置指标变量 回归分析模型主要是揭示事物间相关变量的数量关系。首先要根据所研究问题的目的设置因变量y,然后再选取与y有关的一些变量作为自变量。通常情况下,我们希望因变量与自变量之间具有因果关系。尤其是在研究某种经济活动或经济现象时,必须根据具体的经济现象的研究目的,利用经济学理论,从定性角度来确定某种经济问题中各因素之间的因果关系。(2)收集、整理统计数据 回归模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后,就要对这些变量收集、整理统计数据。数据的收集是建立经济问题回归模型的重要一环,是一项基础性工作,样本数据的质量如何,对回归模型的水平有至关重要的影响。 (3)确定理论回归模型的数学形式 当收集到所设置的变量的数据之后,就要确定适当的数学形式来描述这些变量之间的关系。绘制变量y_i与x_i(i = 1,2,…,n)的样本散点图是选择数学模型形式的重要手段。一般我们把(x_i,y_i)所对应的点在坐标系上画出来,观察散点图的分布状况。如果n个样本点大致分布在一条直线的周围,可考虑用线性回归模型去拟合这条直线。 (4)模型参数的估计 回归理论模型确定之后,利用收集、整理的样本数据对模型的未知参数给出估计是回归分析的重要内容。未知参数的估计方法最常用的是普通最小二乘法。普通最小二乘法通过最小化模型的残差平方和而得到参数的估计值。即 Min RSS = ∑(y_i – hat(y_i))^2 = 其中,hat(y_i)为因变量估计值,hat(beta_i)为参数估计值。 (5)模型的检验与修改 当模型的未知参数估计出来后,就初步建立了一个回归模型。建立回归模型的目的是应用它来研究经济问题,但如果直接用这个模型去做预测、控制和分析,是不够慎重的。因为这个模型是否真正揭示了被解释变量与解释变量之间的关系,必须通过对模型的检验才能决定。统计检验通常是对回归方程的显著性检验,以及回归系数的显著性检验,还有拟合优度的检验,随机误差项的序列相关检验,异方差性检验,解释变量的多重共线性检验等。 如果一个回归模型没有通过某种统计检验,或者通过了统计检验而没有合理的经济意义,就需要对回归模型进行修改。 (6)回归模型的运用 当一个经济问题的回归模型通过了各种统计检验,且具有合理的经济意义时,就可以运用这个模型来进一步研究经济问题。例如,经济变量的因素分析。应用回归模型对经济变量之间的关系作出了度量,从模型的回归系数可发现经济变量的结构性关系,给出相关评价的一些量化依据。 在回归模型的运用中,应将定性分析和定量分析有机结合。这是因为数理统计方法只是从事物的数量表面去研究问题,不涉及事物的规定性。单纯的表面上的数量关系是否反映事物的本质这本质究竟如何必须依靠专门学科的研究才能下定论。 Lasso 在多元线性回归中,当变量x_1,x_2,…,x_3之间有较强的线性相关性,即解释变量间出现严重的多重共线性。这种情况下,用普通最小二乘法估计模型参数,往往参数估计方差太大,使普通最小二乘的效果变得很不理想。为了解决这一问题,可以采用子集选择、压缩估计或降维法,Lasso即为压缩估计的一种。Lasso可以将一些增加了模型复杂性但与模型无关的

第二章(简单线性回归模型)2-5答案(可编辑修改word版)

一、判断题 2.5 回归模型预测 1. Y ?f 是对个别值Y f 的点估计。(F ) 2.预测区间的宽窄只与样本容量 n 有关。(F ) 3. Y ?f 对个别值Y f 的预测只受随机扰动项的影响。(F ) 4.一般情况下,平均值的预测区间比个别值的预测区间宽。(F ) 5.用回归模型进行预测时,预测普通情况和极端情况的精度是一样的。(F ) 二、单项选择题 1. 某一特定的 X 水平上,总体 Y 分布的离散度越大,即 2 越大,则( A )。 A. 预测区间越宽,精度越低 B .预测区间越宽,预测误差越小 C 预测区间越窄,精度越高 D .预测区间越窄,预测误差越大 2. 在缩小参数估计量的置信区间时,我们通常不采用下面的那一项措施(D )。 A. 增大样本容量 n B. 预测普通情形而非极端情形 C.提高模型的拟合优度 D.提高样本观测值的分散度 三、多项选择题 1. 计量经济预测的条件是(ABC ) A. 模型设定的关系式不变 B .所估计的参数不变 C.解释变量在预测期的取值已作出预测 D .没有对解释变量在预测期的取值进行过预测 E .无条件 2. 对被解释变量的预测可以分为(ABC ) A. 被解释变量平均值的点预测 B.被解释变量平均值的区间预测 C.被解释变量的个别值预测 D.解释变量预测期取值的预测 四、简答题 1. 为什么要对被解释变量的平均值以及个别值进行区间预测? 答:由于抽样波动的存在,用样本估计出的被解释变量的平均值Y ?f 与总体真实平均值 E (Y f X f 之间存在误差,并不总是相等。而用Y ?f 对个别值Y f 进行预测时,除了上述 提到的误差,还受随机扰动项的影响,使得总体真实平均值 E (Y f X f 并不等于个别值 Y f 。 一般而言,个别值的预测区间比平均值的预测区间更宽。 2. 分别写出 E ( Y f X f 和Y f 的置信度为1 -的预测区间。 ? 1 (X - X )2 ? ? 1 (X - X )2 ? 答: E ( Y X : Y ? ± t ? + f ? ; Y : Y ? ± t ? 1 + + f ? 。 f f f n ? 2 x 2 ? i ? f f n ? 2 x 2 ? i ? ∑ ∑

多元线性回归模型习题及答案

、单项选择题 1. 在由n 30的一组样本估计的、包含 3个解释变量的线 性回归模型中,计算得多重决定 系数为0.8500,则调整后的多重决定系数为( D ) A. 0.8603 B. 0.8389 C. 0.8655 D.0.8327 2. 下列样本模型中,哪一个模型通常是无效的( B ) C I A. C i (消费)=500+0.8 打(收入) B. Qd (商品需求)=10+0.8 I i (收入)+0.9 P (价格) 3.用一组有30个观测值的样本估计模型 y t b o b i^t dX 2t U t 后,在0.05的显著性水 平上对b1的显著性作 t 检验,则 b 1 显著地不等于零的条件是其统计量 t 大于等于( C ) A 10.05 (30) B t 0.025(28) C t 0.025 (27 ) D F 0.025 (1,28) 4.模型 ln y t lnb 0 b 1 In x t U t 中,bl 的实际含义是(B ) A. x 关于y 的弹性 B. y 关于x 的弹性 C. x 关于y 的边际倾向 D. y 关于X 的边际倾向 5、 在多元线性回归模型中,若某个解释变量对其余解释变量的判定系数接近于1,则表明 模 型 中 存 在 (C ) A.异方差性 B.序列相关 C.多重共线性 D . 高 拟合 优 度 6. 线性回归模型 y t b ) b 1x 1t b 2x 2t ........ b k x kt u t 中,检验 H °:b t 0(i 0,1,2,...k ) 时,所用的统计量 A. t (n-k+1) B.t (n-k-2) 多元线性回归模型 C. D. Q i (商品供给)=20+0.75 P (价格) (产出量) =0.65 L i (劳动) K i 0.4 (资本) 服从(C )

相关主题