§2.2 统计推断与预测 1. 回归方程的显著性检验
数据11(;,,)i i ip y x x - ?估计?β
,2?σ?回归方程,拟合值?i y
?如何检验? (1) 离差平方和的分解与复相关系数 总离差平方和(Total Sum of Squares):
2
1
()n
i
i S S T y
y ==
-∑, (1
1
n
i i y y n
==
∑)
残差平方和(误差平方和)(Error Sum of Squares):
2
1?()n
i
i i S S E y
y
==
-∑(小好) 回归平方和(Regression Sum of Squares):
2
1
?()n
i
i S S R y
y ==
-∑
因1
1
??()0n
n
i i
i i i y
y
ε===
-=∑∑,故1
1?n
i i y y
n
==∑
(同均值)
三者关系:
11()()T
T T
T
S S T n
n
=-
=-
Y
I 11Y Y
I J Y
(利用二次型)
11??()()T T T
T S S R n n
=-=-Y I J Y Y H I J H Y
(由1
??()0n
T T
i i ε===-=∑1ε
1I H Y ,得T T =1H Y 1Y ) 故
11()()T
T T
T
S S R n
n
=-
=-
Y H I J H Y Y I J Y
再由()T
SSE =-Y I H Y , 得
SST SSR SSE =+
意义:S S R 越大 12,,,p X X X 对Y 作用显著. 定义:
2
1S S R S S E R
S S T
S S T
=
=-
称R 为复相关系数(Y 与?Y 相关系数绝对值的估计值)
(2) 线性回归关系的显著性检验
0121:0p H βββ-==== 1:,.0
i H i s t β??≠
构造检验统计量
/(1)/()
S S R p M S R F S S E n p M S E
-=
=
-
服从
~(1,)F F p n p --
越大, 线回成份越多, 1H 越真.
检验方法: 计算0F ,00((1,))p P F p n p F =--≥, 对给出显著水平α,
若0p α<, 则拒绝0H , 即线性关系显著; 否则无.
均方回归
均方误差
自由度
自由度
2. 回归系数的统计推断
前述为整体性检验, 以下为单个回归系数的检验.
01:0:0k k k k H H ββ=?≠
由前节, 知
()2
1
?~,()
T
N σ
-β
βX
X
设kk c 为1
()
T
-X
X 的主对角线的第k 个元素, 则
2
?~(,)k k kk
N c ββσ 从而
?~(0,1)k k k k
N c ββσ
-, 仍由前节, 知
22
2
?~n p n p
σ
χσ
-- 且?k β与2
?σ
独立, 因此(统计上)有 2
2
??~()?
?
()
k k k k k k k k k
c t t n p n p
c n p ββσββσσσ
--=
=
---
由前节性质1(ii)知 ()
1
2
?C ov ()T
σ-=βX
X
, 从而
()
1
2
?T
σ
-X
X
是?C ov ()β
的一个估计, 故知其中的
分量?
k k c σ是?k β的标准差的估计, 记为?()k
s β ?~()?()k k k k
t t n p s βββ-=
- (*)
若0:0k k H β=为真, 则
?~()?()k k k
t t n p s ββ=
-
且较小.
设0k t 为由样本而得的统计值, 则相应的p 值:
00000(||||)2(()||)k
k
k H k k H k p P t t P t n p t =>=->
对给显著性水平α,
若0k p α<,则拒0k β=, 即有显著影响, 否则为无.
利用(*), 可给出k β的置信度为1α-的置信区间
12
??()()k k
t
n p s αββ-
±- 下侧分位数
3. 预测及其统计推断 设010,1(,,)p x x - 是11
,,p X X - 的一组新观测值,
对应值为0y , 令
0010,1(1,,,)T
p x x x -=
一个自然预测
0010120210,1
0??????T p p y x x x ββββ--=++++=x β 是0y 的点估计, 由前节性质2(i), 知
()2
1
?~,()
T
N σ
-β
βX
X
从而
()21
00
00?~,
()
T T T
y
N σ-x
βx X
X x
可推出(由000T
y ε=+x β,()2
0~0,N εσ
)
()001
00
?~0,11()
T T
y
y N σ
--+x X
X x 且与2
?σ
独立, 故可推得 ()001
00?~(1()
)
T
T
y
y t n p M S E ---+x X
X x .
对给定的置信水平α, 0y 的置信度为1α-的区间
()
1
00012
?(1()
)T T
y
t n p M S E α--
±-+x X
X x
例2 对01Y X ββε=++, 由观测数据(;)i i y x ,得
011???Y X ββ=+, 求X 的一个新的观测值0x 对应的0y 的预测值和置信区间(1α-).
解(1) 预测值0010???y x ββ=+, (01
??,ββ为二乘估计),
另:
()
21
10002
01
11
()
[1,]
n
i T T
i n
i i x n x x x n x x
n x
n -==??
-??
??=??????--????
∑∑x X
X x
()
()
()
2
02
102
2
1
1
()
1n
i
i n n
i i
i i x
x x x n
n x x
x
x
===--=
=
+
--∑∑∑
置信区间
()
()
2
2
0011
2
1?1()
n
i
i y
t n p M S E x x x x
n α
-
=??
±-++-- ??
?
∑
0x 的取值最好在x 附近.
例 3. 研究科研人员的年工资Y 与他的论文质量
1X 、工作年限2X 、获得资助指标3X 之间的关系.
24位科研人员的调查数据(部分)如下:
设i ε误差~2
(0,)N σ, 建立回归方程; 假定某位人
员的观测值010203(,,)(5.1,20,7.2)x x x =, 预测年工资及置信度为95%的置信区间. 解: 回归模型
011223,3,1~24i i i i y x x x i ββββε=++++=
调用proc reg 过程, 得 (1) 方差分析表
2
?σ=
结果表明Y 与1X 、2X 、3X 线回关系显著. (2) 参数估计如下
由此得回归方程
123?17.847 1.1030.322 1.289Y X X X =+++
基础工资
进一步, 若取0.05α=, 则0.975(20) 2.086t =, 得
各置信区间为
0β: (13.670 9, 22.022 9); 1β: (0.415 6, 1.790 6); 2β: (0.244 1, 0.398 9); 3β: (0.666 2, 1.911 6).
(3) 关于预测
将(5.1,20,7.2)代入回归方程后得0?39.1828y
=; 由MSE =3.072 2, 等计算得
1
00(1()
) 1.8412T
T
M S E -+=x X
X x
置信区间端点为: 0?39.1828 3.8408y
=±.
4. 与回归系数有关的假设检验的一般方法 前述为整体、某个参数的假设检验, 下面介绍一些参数同时为0、彼此相等、特定关系的假设检验的一般方法.
(1) 检验统计量的构造及其零分布
全模型: 关系显著、包含较多回归变量的模型; 如 0112211
p p Y X X X
ββββε--=+++++
约简模型: 将假设参数代入后的模型, 如
假设121,,,0p βββ-= , 则约简模型为0Y βε=+;
假设12ββ=, 则约简模型为
011211
()p p Y X X X
βββε--=+++++
通常方法
1) 0:H 回归系数的某线性约束为真,
2) 用数据分别拟合全模型和约简模型(0H 为真), 3) 记残差平方和分别为()S S E F 和()SSE R , 自由度分别为F f (=F n p -)和R f (=R n p -), 一般总有
()S S E F ()
SSE R ≤