搜档网
当前位置:搜档网 › d2z2

d2z2

d2z2
d2z2

§2.2 统计推断与预测 1. 回归方程的显著性检验

数据11(;,,)i i ip y x x - ?估计?β

,2?σ?回归方程,拟合值?i y

?如何检验? (1) 离差平方和的分解与复相关系数 总离差平方和(Total Sum of Squares):

2

1

()n

i

i S S T y

y ==

-∑, (1

1

n

i i y y n

==

∑)

残差平方和(误差平方和)(Error Sum of Squares):

2

1?()n

i

i i S S E y

y

==

-∑(小好) 回归平方和(Regression Sum of Squares):

2

1

?()n

i

i S S R y

y ==

-∑

因1

1

??()0n

n

i i

i i i y

y

ε===

-=∑∑,故1

1?n

i i y y

n

==∑

(同均值)

三者关系:

11()()T

T T

T

S S T n

n

=-

=-

Y

I 11Y Y

I J Y

(利用二次型)

11??()()T T T

T S S R n n

=-=-Y I J Y Y H I J H Y

(由1

??()0n

T T

i i ε===-=∑1ε

1I H Y ,得T T =1H Y 1Y ) 故

11()()T

T T

T

S S R n

n

=-

=-

Y H I J H Y Y I J Y

再由()T

SSE =-Y I H Y , 得

SST SSR SSE =+

意义:S S R 越大 12,,,p X X X 对Y 作用显著. 定义:

2

1S S R S S E R

S S T

S S T

=

=-

称R 为复相关系数(Y 与?Y 相关系数绝对值的估计值)

(2) 线性回归关系的显著性检验

0121:0p H βββ-==== 1:,.0

i H i s t β??≠

构造检验统计量

/(1)/()

S S R p M S R F S S E n p M S E

-=

=

-

服从

~(1,)F F p n p --

越大, 线回成份越多, 1H 越真.

检验方法: 计算0F ,00((1,))p P F p n p F =--≥, 对给出显著水平α,

若0p α<, 则拒绝0H , 即线性关系显著; 否则无.

均方回归

均方误差

自由度

自由度

2. 回归系数的统计推断

前述为整体性检验, 以下为单个回归系数的检验.

01:0:0k k k k H H ββ=?≠

由前节, 知

()2

1

?~,()

T

N σ

βX

X

设kk c 为1

()

T

-X

X 的主对角线的第k 个元素, 则

2

?~(,)k k kk

N c ββσ 从而

?~(0,1)k k k k

N c ββσ

-, 仍由前节, 知

22

2

?~n p n p

σ

χσ

-- 且?k β与2

独立, 因此(统计上)有 2

2

??~()?

?

()

k k k k k k k k k

c t t n p n p

c n p ββσββσσσ

--=

=

---

由前节性质1(ii)知 ()

1

2

?C ov ()T

σ-=βX

X

, 从而

()

1

2

?T

σ

-X

X

是?C ov ()β

的一个估计, 故知其中的

分量?

k k c σ是?k β的标准差的估计, 记为?()k

s β ?~()?()k k k k

t t n p s βββ-=

- (*)

若0:0k k H β=为真, 则

?~()?()k k k

t t n p s ββ=

-

且较小.

设0k t 为由样本而得的统计值, 则相应的p 值:

00000(||||)2(()||)k

k

k H k k H k p P t t P t n p t =>=->

对给显著性水平α,

若0k p α<,则拒0k β=, 即有显著影响, 否则为无.

利用(*), 可给出k β的置信度为1α-的置信区间

12

??()()k k

t

n p s αββ-

±- 下侧分位数

3. 预测及其统计推断 设010,1(,,)p x x - 是11

,,p X X - 的一组新观测值,

对应值为0y , 令

0010,1(1,,,)T

p x x x -=

一个自然预测

0010120210,1

0??????T p p y x x x ββββ--=++++=x β 是0y 的点估计, 由前节性质2(i), 知

()2

1

?~,()

T

N σ

βX

X

从而

()21

00

00?~,

()

T T T

y

N σ-x

βx X

X x

可推出(由000T

y ε=+x β,()2

0~0,N εσ

)

()001

00

?~0,11()

T T

y

y N σ

--+x X

X x 且与2

独立, 故可推得 ()001

00?~(1()

)

T

T

y

y t n p M S E ---+x X

X x .

对给定的置信水平α, 0y 的置信度为1α-的区间

()

1

00012

?(1()

)T T

y

t n p M S E α--

±-+x X

X x

例2 对01Y X ββε=++, 由观测数据(;)i i y x ,得

011???Y X ββ=+, 求X 的一个新的观测值0x 对应的0y 的预测值和置信区间(1α-).

解(1) 预测值0010???y x ββ=+, (01

??,ββ为二乘估计),

另:

()

21

10002

01

11

()

[1,]

n

i T T

i n

i i x n x x x n x x

n x

n -==??

-??

??=??????--????

∑∑x X

X x

()

()

()

2

02

102

2

1

1

()

1n

i

i n n

i i

i i x

x x x n

n x x

x

x

===--=

=

+

--∑∑∑

置信区间

()

()

2

2

0011

2

1?1()

n

i

i y

t n p M S E x x x x

n α

-

=??

±-++-- ??

?

0x 的取值最好在x 附近.

例 3. 研究科研人员的年工资Y 与他的论文质量

1X 、工作年限2X 、获得资助指标3X 之间的关系.

24位科研人员的调查数据(部分)如下:

设i ε误差~2

(0,)N σ, 建立回归方程; 假定某位人

员的观测值010203(,,)(5.1,20,7.2)x x x =, 预测年工资及置信度为95%的置信区间. 解: 回归模型

011223,3,1~24i i i i y x x x i ββββε=++++=

调用proc reg 过程, 得 (1) 方差分析表

2

?σ=

结果表明Y 与1X 、2X 、3X 线回关系显著. (2) 参数估计如下

由此得回归方程

123?17.847 1.1030.322 1.289Y X X X =+++

基础工资

进一步, 若取0.05α=, 则0.975(20) 2.086t =, 得

各置信区间为

0β: (13.670 9, 22.022 9); 1β: (0.415 6, 1.790 6); 2β: (0.244 1, 0.398 9); 3β: (0.666 2, 1.911 6).

(3) 关于预测

将(5.1,20,7.2)代入回归方程后得0?39.1828y

=; 由MSE =3.072 2, 等计算得

1

00(1()

) 1.8412T

T

M S E -+=x X

X x

置信区间端点为: 0?39.1828 3.8408y

=±.

4. 与回归系数有关的假设检验的一般方法 前述为整体、某个参数的假设检验, 下面介绍一些参数同时为0、彼此相等、特定关系的假设检验的一般方法.

(1) 检验统计量的构造及其零分布

全模型: 关系显著、包含较多回归变量的模型; 如 0112211

p p Y X X X

ββββε--=+++++

约简模型: 将假设参数代入后的模型, 如

假设121,,,0p βββ-= , 则约简模型为0Y βε=+;

假设12ββ=, 则约简模型为

011211

()p p Y X X X

βββε--=+++++

通常方法

1) 0:H 回归系数的某线性约束为真,

2) 用数据分别拟合全模型和约简模型(0H 为真), 3) 记残差平方和分别为()S S E F 和()SSE R , 自由度分别为F f (=F n p -)和R f (=R n p -), 一般总有

()S S E F ()

SSE R ≤

相关主题