搜档网
当前位置:搜档网 › 第三章 异方差与自相关广义线性模型

第三章 异方差与自相关广义线性模型

第三章  异方差与自相关广义线性模型
第三章  异方差与自相关广义线性模型

第三章 异方差与自相关广义线性模型

本章继续讨论线性模型

Y =X β+ε, E (ε)=0 (3.0.1)

所不同在于以前的关于误差方差的假定是

Var(ε)=σ2I n (3.0.2)

这一章逐次推广讨论。第一节讨论异方差的存在与检验,尤其是在经济模型资料中的存在与影响,第二节讨论的是

n i d i a g V a r i n ,,1,),,,()(22

21 ==σσσε已知

(3.0.3) 2

2

21222222212121,),,,,,,,,,()(σσσσσσσσε diag Var =未知 (3.0.4) )e x p (),,,()(22

21ασσσεi i n Z diag Var '== ,α未知

(3.0.5)

这些都是误差方差为对角阵的模型。

第三节讨论自相关线性模型。首先讨论的是残差一阶自回归线性模型,它的残差满足

i i i υρεε+=-1

(3.0.6) )(,0)(,)(,0)(22j i E E E j i i i ≠===υυσυυ

(3.0.7)

此时残差εi 的方差虽不为对角阵,但只含一个参数。接着我们介绍自回归条件异方差(ARCH)模型,它的误差假设是

i p i p i i υεαεααε++++=--221102

(3.0.8) )(,0)(,)(,0)(22j i E E E j i i i ≠===υυσυυ

(3.0.9)

因为模型计算中用到了广义矩估计方法(GMM),我们在第四节又介绍了GMM 。

第五节讨论的是

2

2

,0)(σσε>=M V a r 未知,M 已知

(3.0.10)

第六节讨论的是

2

2

,0)(σσε≥=M Var 未知,M 已知

(3.0.11)

所讨论的内容还是各种回归模型、算法及性质。

第一节 异方差的存在与检验

一、异方差的存在与影响

前面介绍的线性回归模型,都是假定随机误差项εi

独立同分布,有相同的方差

(Homoscedasticity)

2)( ,0)(σεε==i i Var E

(3.1.1)

但是实际抽样很难保证这一点。经济对象千差万别,可以按不同标准划分成不同的群体。这些

群体间的差别导致样本方差不一致,于是就有所谓异方差(Heteroscedasticity):

2)( ,0)(i i i Var E σεε==

(3.1.2)

反映在散点图上,如下图可以明显看出样本方差与点 (X i , Y i )有关,随着样本数值增大而增大。

图3.1.1.1

由于样本方差的差异,原来最小二乘估计的一些优良性质不再存在。如在一元线性回归

n i X Y i i i ,,1 ,10 =++=εββ

(3.1.3)

我们知道最小二乘估计

∑∑===-=---==n

i i XX

i n j i

n

i i i

XX

XY Y S X

X X X

Y Y X X

S S 1

1

2

1

1

)()

)((?β (3.1.4)

∑=??

????--=-=n

i i XX i Y S X X X n X Y 110)(1??ββ (3.1.5)

于是

)()()?(2

11i n i XX i Y Var S X X Var ???

? ??-=∑=β

(3.1.6)

)()(1)?(2

10i n i XX i Y Var S X X X n

Var ???? ????????--=∑=β (3.1.7)

现在Var(Y i )不是常量,我们就无法证明0

1?,?ββ是最小方差线性无偏估计。显著性检验也成了问题。原来构造的F 统计量是分子分母都含有未知参数σ2, 可以分别提取公因式再约去,现

在是异方差,按原来方法构造的F 统计量里的未知参数无法直接约去,预测精度也无法保证。差不多原来推导的各种统计方法、统计性质由于基础动摇而都需重新考虑。

因此我们需要将一般线性回归模型推广。 不过在推广之前,首先要解决异方差的检验问题。

二、异方差的检验

异方差的检验一般需要比较大的样本,一般都是作所谓残差分析。

图3.1.2.1

最简单直观的方法是将残差平方

?e

Y

?Y

?

Y

?Y

?

n i Y Y e i

i i ,,1 ,)?(?22 =-= (3.1.8)

与i

Y ?画在一张图上,大致可以看出残差是否发生改变。图3.1.2.1除了第1个图外,其余图像都指示有异方差。

还有一些方法对异方差问题作统计检验。 1. Park 检验

R. E. Park 建议将2i σ看作解释变量X 的函数,并使用函数形式为

i

e X i i υβσσ22=

(3.1.9)

或取对数

i i i X υβσσ++=ln ln ln 22

其中i υ是随机分布项。因为2i σ未知,就用残差项的平方2?i e

代替 i i i X e

υβσ++=ln ln ?ln 22 对上式作回归,并作假设检验。若β=0成立,则认为异方差不成立;若β≠0成立,则认为

异方差成立。

Park 检验要作两次最小二乘,第一次是对原始资料对(X i , Y i ), 获得i i e Y ?,?;第二次是对(2?,i i e

X )。从某种意义上讲,是用第二次最小二乘去否定第一次最小二乘,用第二次假设去否定第一次假设。

类似的还有Glejser 检验,不过使用的回归方程不一样。 2. Breusch Pagan Godfrey (BPG)检验

这里考虑的是多元问题,基本思想差不多。设原始资料满足模型

i m i m i i X X Y εβββ++++= 110

(3.1.10)

先用普通最小二乘获得i i

e Y ?,?,作 ∑∑==-==n i i

i n i i Y Y n e n 1

2122)?(1?1~σ (3.1.11)

注意这里不是∑=---=n

i i i Y Y m n 1

22

)?(11?σ。然后定义变量 22~/?σi i e

p = (3.1.12)

用p i 与X ji 去作回归

i m i m i i X X p υααα++++= 110

(3.1.13)

而获得回归平方和S ES , 定义统计量

∑=-==Θn

i i i ES p p

S 1

2)?(2121 (3.1.14)

可以证明在正态假设下,当样本容量充分大时,Θ有渐近分布:

)(,~2

1∞→Θ-n m χ

(3.1.15)

于是对给定显著性水平,当Θ超过2χ分布的临界值时,就拒绝同方差假设,接受异方差假设。

算例3.1.2 消费-收入异方差资料的BPG 检验

在文献[1]里,收有一组消费(Y )与收入(X )的资料,共60对,要求作异方差检验。

表3.1.2 消费 (Y ),收入 (X ) 资料

Y X Y X Y X 55. 80. 152. 220. 95. 140. 65. 100. 144. 210. 108. 145. 70. 85. 175. 245. 113. 150. 80. 110. 180. 260. 110. 160. 79. 120. 135. 190. 125. 165. 84. 115. 140. 205. 115. 180. 98. 130. 178. 265. 130. 185. 95. 140. 191. 270. 135. 190. 90. 125. 137. 230. 120. 200. 75. 90. 189. 250. 140. 205. 74. 105. 55. 80. 140. 210. 110. 160. 70. 85. 152. 220. 113. 150. 75. 90. 140. 225. 125. 165. 65. 100. 137. 230. 108. 145. 74. 105. 145. 240. 115. 180. 80. 110. 175. 245. 140. 225. 84. 115. 189. 250. 120. 200. 79. 120. 180. 260. 145. 240. 90. 125. 178. 265. 130.

185.

98.

130.

191.

270.

当然在计算机数据文件里它是排成2列,而不是6列。使用我们自编的异方差检验程序,算得原始资料回归方程为

i

i X Y 6378.02903.9?+= (3.1.16)

再将p i 对X i 回归,得方程

i i X p 0101.07426.0?+-=

(3.1.17)

程序算得统计量

2140.5=Θ

(3.1.18)

从程序自带的电子数表上查得)1(2

99.0χ=6.6349,因为5.2140<6.6349,故在0.01的显著性水平,不认为异方差存在,于是有了进一步回归分析的可能。当取显著性水平为0.05时,)1

(295.0χ= 3.8414,于是认为异方差存在,就只打印一般最小二乘回归结果,不能作出基于正态同方差的统计检验。

实际计算执行过程如下,由于F 统计量高达4722,再看拟合效果图 (图3.1.2.2),(I Y i ,)

与(I Y i

,?)确实拟合非常好。很难想象这里面还会有什么问题。下面是计算过程与结果。 ------------------------------------------------------------------------------------------------------------------------- 异方差资料 BPG 检验计算程序, 例 3.1.2. 第一列为 Y , 以后各列为 X 例312.D 数据文件中, n=60, M=1

要显示原始资料吗? 0=不显示, 1=显示 (0)

原始资料回归方程 : Y = b0 + b1*X1 + ... + bm*Xm 回归系数b0,b1,b2, 9.2903 .6378 .0000 残差平方和: 4722.31 回归平方和: 83773.38 误差方差的估计 : .0000 标准差 = 8.8716 请输入卡方检验的置信水平 (0.01)

BPG 检验结果: 显著性水平: .01 统计量 5.2140卡方临界值: 6.6349 方差资料回归方程 : Pi = a0 + a1*X1 + ... + am*Xm 回归系数a0,a1,a2, -.7426 .0101 .0000 残差平方和: 97.82 回归平方和: 20.86 误差方差的估计 : .0000 标准差 = 1.2768

BPG 检验通过, 不认为有异方差, 对原始资料进行一般回归分 析并打印计算结果 现在作线性回归显著性检验, 计算t,F,R 统计量

请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=? (0.01) ----------------------------------------------------- 线 性 回 归 分 析 计 算 结 果

样本总数 60 自变量个数 1 ----------------------------------------------------- 回归方程 Y = b0+b1*X1+...+b1*X1 Y = 9.2903 + .6378 X1 回归系数 b0, b1, b2, ..., b1 9.2903 .6378

-----------------------------------------------------

残差平方和: 4722.31 回归平方和: 83773.38 误差方差的估计 : 78.7051 标准差 = 8.8716 -----------------------------------------------------

线 性 回 归 显 着 性 检 验 显著性水平 : .010 -----------------------------------------------------

回归方程整体显著性F 检验, H0:b0=b1=...=b1=0 F 统计量: 1028.9160 F 临界值F(1, 58) 7.093 全相关系数 R : .9730 -----------------------------------------------------

回归系数逐一显著性t 检验, H0:bi=0, i=1,...,1 t 临界值 t( 58) 2.3924

回归系数b1-b 1的t 值: 7.6158 -----------------------------------------------------

要作回归预测吗? 键入 0=不预测, 1=要预测 (0) 要打印拟合数据吗? 0=不打印, 1=打印 (0) 计算结束。

-------------------------------------------------------------------------------------------------------------------------

圖3.1.2.2

501001502002501

5

9

13

17

21

2529

33

3741

45

49

5357

再看原始资料的散点图 (Y i , X i ) (图3.1.2.3),觉得资料似乎分为两段,前段方差较小,后

段方差较大。

图3.1.2.3

再看残差图[i i Y e

,?2](图3.1.2.4), 确实存在明显的异方差,在Y =140以前,方差较小,在Y=140以后,方差明显增大。

这些图像都由本软件自动生成,很方便。

图3.1.2.4

第二节 协方差为对角阵的广义线性模型

一、协方差为已知对角阵与广义最小二乘

我们先考虑简单的情况,设模型为

???=Φ==+=)

,,,()(,0)(2

2221n diag Var E X Y σσσεεε

β (3.2.1)

如果n i i ,,1,2 =σ已知,也就是Φ已知,则我们定义β的广义最小二乘估计为

Y X X X 111)(?---Φ'Φ'=β

(3.2.2)

广义最小二乘估计 (Generalized Least Square Estimate) 简称为GLS 估计,是A. C. Aitken(1934)

首先提出来的。

在Φ是对角阵的情形,容易找到

),,,(1

1211---=n diag P σσσ

(3.2.3)

使得

1-Φ='P P

(3.2.4)

我们定义变换

εεP PY Y PX X ===*** , ,

(3.2.5)

则原模型成为

?????==+=n

I Var E X Y )(,0)(*

****εεε

β (3.2.6)

**'1**')(?Y X X X -=β

(3.2.7)

这就转化成了普通的最小二乘估计。

这种情况的估计也称为加权最小二乘估计 (Weighted Least Square Estimate, WLS 估计),因为我们实际上是对观测值作了加权处理,权函数是n i i ,,1,1

=-σ。此时我们极小化的函数是

∑=--Φ'-=???

? ??n i i

i X Y X Y 112

)()(ββσε (3.2.8)

我们看到,较小的σi 将使该项变大,从而发挥较大的作用,而较大的σi 表示该项资料不可靠,就使其发挥较小的作用。这一点从

∑∑=--=-'??

? ??'=n

i i i n i i i i Y X X X 1

2

112?σ

σβ

(3.2.9)

也容易看出。

二、仅含两个未知方差量的模型

下面考虑方差未知的情况,很明显这时未知方差不能太多。如果是)

,,(2

21n diag σσ =Φ全部未知,我们就无从下手了。因为一共只有n 组资料,如何去估计n 个方差?

我们就假定只有两个方差量的情况,2221σσ与未知,模型被划分为

???

?

??+???? ??=???? ??212121εεβX X Y Y (3.2.10)

这里n n n i X Y i i i in m m in in =+=????21111;2,1,,,,εβ。)(),(),(2121

21εεε''='''='''='X X X Y Y Y 。 ???

?

????=??????''???? ??=21

2

22121

210

0)()(n n I I E Var σσεεεεε

(3.2.11)

这样模型可以被划分成两个模型,它们必须要有相同的回归系数,但方差则不同。

?????=+==+=2

2

222221

2

11111)(,)(,n n I Var X Y I Var X Y σεεβσεεβ (3.2.12)

我们当然不能想象这两个子模型完全分开,各算各的。

在21σ和2

2σ已知时,由前一段的广义最小二乘方法,有

????

??'+'???

? ??'+'=Φ'Φ'=----22222

1

111

2222

2

111111)(?σσσσβY X Y X X X X X Y X X X (3.2.13)

现在情况是21σ与2

2σ未知,必须先估计它们。这倒不难,方差是分开的,在各自的子模型中

估计就是了:

????

?=''==-'--=-=-2

,1,)(?2

,1),?()?(112i Y X X X i X Y X Y m n m n S i i i i i

i i i i i i i i RS i βββσ (3.2.14)

在有了各自的方差估计后,在 (3.2.13)中以2?i σ

换2i σ就回到β的估计 ??????'+'??????'+'=Φ'Φ'=----222221

111

22222111111????)(??σσσσβY X Y X X X X X Y X X X (3.2.15)

可以证明β

?

?的渐近性质 ))?(,0()??(11--Φ

'?→?-X X N n d ββ (3.2.16)

据此我们可以作出β的区间估计与假设检验。

本段所使用的二步估计法:先估计方差,再估计回归系数,在处理这一类问题中经常用到。

三、乘子异方差模型

本段继续推广异方差模型,考虑未知的方差可能有多个,不过它们被写成一个特殊的函数式:

???='===+'=n

i Z Var E X Y i i i i i

i i ,,1),exp()(,0)(2

ασεεεβ (3.2.17)

这里),,,(21ik i i i Z Z Z Z ='是一个(13k )的已知向量,通常Z i 1=1,而其余的Z i 也是X i 的函数。

),,,(21ik i i Z Z Z =α是一个(k 31)的未知向量。模型的任务是估计α与β。因为这里

方差可被写为

)exp()exp()exp(2212ik k i i Z Z ααασ ?=

(3.2.18)

故称为乘子异方差模型。

当k =2时,取ln x i = Z i 2, ln σ2=α1, p =α2,则

p i i i i x Z Z 22212)exp()exp(σααασ=+='=

(3.2.19)

在一般情况下,

)

exp()exp( )

exp()exp(*

*

2

2222212ασαασαααασi

ik k i ik k i i i Z Z Z Z Z Z =++=+++='= (3.2.20)

这里),,(),,,(2*

2/

*'==k ik i i Z Z Z ααα 。如果采用矩阵记号,在模型 (3.2.1)中,

??????

?????

???=?

????

?

??????'''=Φ)exp()exp()exp( )exp()exp()exp(**'1*

*'2*

*'1222ααασαααn n Z Z Z Z Z Z

(3.2.21)

如果我们能得到估计α?,那么就能得到估计2?i σ,也就能得到估计β?。我们就沿着这条思路

作下去。首先对2i σ取对数得

ασi i Z '=2ln

(3.2.22)

模型的残差向量为

n i X Y i i i ,,1,?? ='-=βε

(3.2.23)

这里

Y X X X i

''=-1)(?β (3.2.24)

这样n i i ,,1,?ln 2 =ε

就计算出来了,结合(3.2.23)得 n i Z Z i i i i i i ,,1,?ln ln ?ln 222 =+'=+-'=υαεσαε

(3.2.25)

这里)/?ln(ln ?ln 2

222i i j i i σεσε

υ=-=。 方程组(3.2.25)可以看作回归模型,2?ln i ε

是通常的观测值,i Z '是设计矩阵里的向量,α是k 31的未知向量,随机误差项里也含有待估参数,暂不作考虑,一起记作

υα+=Z q

(3.2.26)

这里),(,),,(),?ln ,,?(ln 112

2'='==n k n i Z Z Z q υυυεε ,使用最小二乘,就得到α的估计

q Z Z Z ''=-1)(?α

(3.2.27)

这个估计的性质真是说不清楚,因为υαα

Z Z Z ''+=-1)(?,而这里的v 期望不一定为0,并且v 里包含有α。我们可以求助于渐近性质。记

V X X n

Q X X n =Φ'='1

,1 (3.2.28)

假定Q 、V 都非奇,考虑i i εε

-?的均值与方差,我们有 0)()(]?[1='''-=--Y E X X X X E i i i εε

[]

i i i i i i i i X n X X n X

X n X X X n X X X X X X X X X X X X E X X X X E '??

?

??'Φ'?

?

? ??''=''Φ'''='''''=-------1

1

2

112112 )()( )(][)()?(σσεεεε

(3.2.29)

当n →∞时,0])?[(2→-i i E εε

,于是0)?(→-i i εε,即 )(,?∞→→n i i εε

(3.2.30)

因此

)(,)/ln()/?ln(*2222∞→=→=n i i i i i i υσεσε

υ (3.2.31)

如果假定),0(~2i i N σε,则)1(~/222χσεi i ,而)]1(ln[)/ln(222χσε≈i i ,它的期望值可以算出:

2704.1)(*-=i E υ

(3.2.32) 9348.4]))([()(2***=-=i i i E E Var υυυ

(3.2.33) j i Cov j i ≠= ,0),(**υυ

(3.2.34)

现在我们终于松了一口气。从渐近分布来看,模型(3.2.26)里的随机项v i 是无关的,方差是常数,这完全满足普通最小二乘模型的假设。只是*i υ的期望不为0,不过这不要紧,将期望值拨到模型的常数项,也就是α1里去就可以了。对于新的

),,,2704.1(?21*k αααα -=

(3.2.35)

它已是一个很好的LSE 。同时我们还知道,

)9348.4,0()?(1

*∑-?→?-N n d αα

(3.2.36)

这里

Z Z n n '=∑∞→1

lim

(3.2.37)

现在该倒过来总结一下模型的算法。从资料阵n

m i i i X X Y X Y 11},,{)( =,以及{}n

ki i Z Z 1

1,, 我们建立了模型(3.2.17)。算出Y X X X ''=-1)(?β,βε??X Y '-=,q =2

?ln ε后我们得到模型(3.2.26),从它又算出q Z Z Z ''=-1

)(?α,于是估计出)?exp(?2ασi i Z '=,Φ?,最后得到β?

?及σ??。

Y X X X 111?)?(?

?---Φ'Φ'=β

(3.2.38) )/()?

?(?)?

?(??1m n X Y X Y --Φ'-=-ββσ

(3.2.39)

由于存在渐近分布

))?(??,0()??(112--Φ'?→?-X X N n d σββ (3.2.40)

我们可以据此作出关于β

?

?的假设检验。 第三节 自相关线性模型

前面介绍的线性模型

???=Φ==+=)

,,()(,0)(2

21n diag Var E X Y σσεεε

β (3.3.1)

Φ只是对角阵,表示随机观测项Y i , i =1,…,n 是彼此不相关的。在经济分析中,经常遇到的问题是这种不相关假设难以满足。这通常有三种可能:(1)Y i 依赖于自身过去的数值,比如Y i 是年度的经济指针,就与过去的基础有关;(2)X 包含解释变量的当前或滞后的数值,即由于X 的相关性也造成Y 的相关性;(3)随机误差项ε本身相关,它依赖于先前的随机误差值。前面两种情况意味着X 也是随机的,我们放到以后的章节研究。这一节重点研究由于随机误差项ε自身相关形成的自相关模型

一、残差一阶自回归线性模型

随机误差项的结构不同可能形成许多不同的线性模型。最普遍实用的是残差一阶自回归过程的线性模型:

??

?

??≠====+==+'=-j i E E E n

i n i X Y j i i i i i i i i i ,0 ,)( ,0)(,,2,,,1,221υυσυυυρεεεβυ (3.3.2)

我们可以看出,对于原始资料Y i , X i ,它的随机误差项εi 不满足普通最小二乘方法要求的不相关

性。但是退而问其次,关于εi 我们可以建立起一个真正的普通最小二乘模型。

当|ρ|<1时,一阶自回归过程是平稳的,

∑∞

=---------=++++=++=++=+=033

22

12

21211 )(k k

i k

i i i i i i i i i i i i i υρυρυρρυυερρυυρευρυρευε (3.3.3)

于是

0)()(0

==∑∞

=-k k i k i E E υρε

(3.3.4)

∑∑∞

=∞

=-?-===0

2

2

22

2021)()(k k

k k i k

i V a r V a r ευυσρσσρυρε (3.3.5)

2

2121

21)()()(ρ

σρυεερεευ

-?=+=---i i i i i E E E (3.3.6)

2

2

22

2

2

221222121 )())(()()()(ρσρε

ρυεευρερυεεερεευ-=

=++=+=---------i i i i i i i i i i i i E E E E E E (3.3.7)

类似地

,3,2,1 ,1)(2

2

2=-=-s E v s i i ρ

σρεε (3.3.8)

注意它们都有公共因子2εσ,于是我们获得误差协方差阵:

??

??

??

?

???

?

????

?-=??????????????='=Φ------11111 )(32132

212

2

22121222112121 n n n n n n n n n n n n E E ρρρρρρρρρρρρρσεεεεεεεεεεεεεεεεευ

(3.3.9)

如果记矩阵

?????

?

?

???????-=ψ-----11111321212

n n n n n ρρρρρρ

ρρρρ

(3.3.10)

则ψ=Φ2

υσ。于是残差一阶自回归的线性模型也可以写为

???ψ==+=2

)(

,0)(υσεεε

βVar E X Y (3.3.11)

对于普通最小二乘回归模型,这里就用Ψ取代了I n ,对比上一节的异方差线性回归模型,这里就是用Ψ取得了diag(2

2

1,,n σσ )。对比下面要讲的一般协方差正定的广义线性模型,这里的协方差阵就是属于那里的一个特殊情况,不过这里整个Ψ只与一个参数ρ有关,因而是可以估

计出来的。

要解残差一阶自回归线性模型,应该先采用(3.3.2)的形式,再采用(3.3.11)的形式。第一步,在回归方程

n i X Y i i i ,,1 , =+'=εβ

(3.3.12)

中,从原始资料作出β的普通最小二乘估计

Y X X X ''=-1)(?β

(3.3.13)

计算出残差估计

n i Y X Y Y i

i i i i ,,1 ,??? =-'=-=βε (3.3.14)

在关于残差的回归方程

n i i i i ,,2 ,1 =+=-υρεε

(3.3.15)

中,利用i ε

?作回归,得到ρ的估计 ∑∑==-=n

i i

n

i i i 2

22

1

?

?

??εεερ

(3.3.16)

第二步,再回到模型(3.3.11)的形式,计算β的广义最小二乘估计:

Y X X X 111)(?

?---ψ'ψ'=β

(3.3.17)

我们知道当Ψ的阶数较高时,Ψ-1在计算机上往往无法计算,所以应该针对具体问题分析

简化计算。对于(3.3.10)所规定的Ψ,可以从数学上推导出它的逆阵为

???????

??

???????????--++--+--=ψ-1000100000100010001

22

21

ρρρρρρρρρ (3.3.18)

而且可以验证,存在下三角分解,

1-ψ='P P

(3.3.19)

其中下三角阵

???

?

??

?

???

?????

???

??----=100001000001000

1

000012ρρρρ

P

(3.3.20)

这个P 很容易在计算机上构造出来,然后作变换

PX X PY Y ==**,

(3.3.21)

则模型(3.3.11)成为

?????==+=n I Y V a r Y E X Y 2

***

**)(

,0)(υσεβ (3.3.22)

这里不可观测项ε*=P ε。此时模型变得满足普通最小二乘条件,于是得到它的OLS 估计

Y X X X *'1**')(?

?-=β

(3.3.23) )??()??(1?****2

ββ

συX Y X Y p

n -'--=

(3.3.24)

注意Y *与X *的第一项分别是12

1Y ρ-与121X ρ-。这就使自由度没有损失,参数估

计保持其有效性。这里从矩阵分解的角度讲Y 1与X 1的来历显得合理一些。

可能会问,既然有了(3.3.13)的普通最小二乘估计β?,何必还要(3.3.23)的广义最小二乘β

?

??这个问题与岭估计时情形一样。对于现时资料Y i , X i , OLS 拟合效果已经很好。但是它的方差较

大,对未来资料拟合精度将较差。我们作回归的主要目的难道不是为了对未来的预测吗? 关于残差一阶自回归线性模型的检验方法较多,比较重要的是Durbin-Watson 检验,但是这个检验需要单独的统计表,使用并不方便。我们这里介绍的是残差一阶自回归的渐近检验。 在模型(3.3.2)中,主要检验一阶自回归是否成立,即原假设与备择假设为

0:0:10≠?=ρρH H

在合适的假定下,可以导出β

?的渐近分布为正态,ρρ=)?(E ,n Var /)1()?(2ρρ

-=,即

)/)1(,(~?2n N ρρρ

- (3.3.25)

于是可以构造统计量

)1,0(~/)1(?2

N n

Z ρρρ--=

(3.3.26)

当原假设H 0成立时

)1,0(~?N n Z ρ

= (3.3.27)

若取显著性水平为5%,则双边假设检验有拒绝域96.1|?|≥ρ

n 。一般情况下拒绝域为 2/|?|

αρ

U n ≥ (3.3.28)

这个渐近检验一则需要样本容量较大,二则不是最优势检验,但是它无需重新构造统计

数表,比较方便实用。

算例3.3.1 残差一阶自回归线性模型

下表是20组原始资料,欲建立残差一阶自回归线性模型

?

??

??≠===+=+++=j i Cov Var E X X X Y j i i i i

i i i i i i ,0)( ,)(

,0)(2332211υυσυυυρεεεβββ 表中资料的经济意义可以解释为Cobb-Douglas 生产函数,Y i 是产出,X 1是常数1,未列出,

X 2是劳动力,X 3是资本,数值取了对数。

表3.3.1

使用本书软件专门为误差一阶自回归线性模型设计的程序,可以进行模型的计算与检验。首先,程序算出原始资料的回归系数,原始模型为

i i X X Y ε+++=326343.08110.18419.3

然后程序对残差εi 作一阶自回归,

i i i υρεε+=-1

算出5285.0?=ρ

。取渐近检验,统计量为 3634.2?=ρ

n 而三个显著性水平下的临界值为2.326,1.645,1.282,故认为残差一阶自回归非常显著。在建立广义最小二乘模型时,按(3.3.21)作变换,变换后的资料显示在程序运行之中。对于变化后的资料,模型为

*

3

*2*1*7575.06746.10451.4X X X Y i ++= 这个回归方程对资料*Y ,*

X 肯定是合适的,见拟合效果图(图3.3.1.1)。

-------------------------------------------------------------------------------------------------------------------------

残差一阶自回归线性模型计算程序, 例 3.3.1 数据文件第一列为 Y, 以后各列为 X 例331.D 数据文件中, n=20, M=2

要显示原始资料吗? 0=不显示, 1=显示 (0) 打印原始资料的普通最小二乘回归系数

3.8419 1.8110 .6343 残差一阶自回归系数 ρ : .5285

作残差一阶自回归系数显著性的渐近检验

统计量: 2.3634 临界值(0.01): 2.326 (0.05): 1.645 (0.10): 1.282 要显示变换后的资料吗? 0=不显示, 1=显示 (1) 35.7273 .8490 12.3353 14.2115 19.2460 .4715 7.6214 7.9635 17.1320 .4715 7.8345 10.6165 24.4497 .4715 8.9969 11.8150 27.8418 .4715 9.1695 10.6504 23.8783 .4715 9.1221 5.6641 27.7289 .4715 8.8890 11.0078 31.3863 .4715 9.7538 9.6739 17.8708 .4715 9.5940 1.9452 29.1654 .4715 9.6855 16.2632 23.1587 .4715 10.0633 7.1859 22.9489 .4715 10.1938 6.8248 24.8626 .4715 10.1524 7.7350 28.8970 .4715 11.6326 10.9635 36.5220 .4715 10.8529 21.4511

28.2349 .4715 11.5565 9.4415 35.5515 .4715 12.3007 12.0261 27.8141 .4715 12.4235 8.2570 29.7953 .4715 12.1331 12.4450 35.9919 .4715 15.1855 12.9505 对变换后的模型资料作回归, 不取常数项 回归系数 A 4.0451 1.6746 .7575 现在作线性回归显著性检验, 计算t,F,R 统计量

请输入显著性水平a, 通常取a=0.01, 0.05, 0.10, a=? (0.05) ----------------------------------------------------- 线 性 回 归 分 析 计 算 结 果

样本总数 20 自变量个数 3 ----------------------------------------------------- 回归方程 Y = b1*X1+...+b3*X3

Y= 4.0451 X1 + 1.6746 X2 + .7575 X3 回归系数 b1, b2, ..., b3

4.0451 1.6746 .7575 -----------------------------------------------------

残差平方和: 121.94 回归平方和: 488.92 误差方差的估计 : 6.0970 标准差 = 2.4692 -----------------------------------------------------

线 性 回 归 显 着 性 检 验 显著性水平 : .050 -----------------------------------------------------

回归方程整体显著性F 检验, H0:b0=b1=...=b3=0 F 统计量: 22.7207 F 临界值F(3, 17) 3.197 全相关系数 R : .9012 -----------------------------------------------------

回归系数逐一显著性t 检验, H0:bi=0, i=1,...,3 t 临界值 t( 17) 1.7396 回归系数b1-b 3的t 值: .3348 2.8728 2.4046

-----------------------------------------------------

要作回归预测吗? 键入 0=不预测, 1=要预测 (0) 要打印拟合数据吗? 0=不打印, 1=打印 (0) 计算结束。

-------------------------------------------------------------------------------------------------------------------------

我们的目的是要对原始资料建立回归方程,理论分析指出,还是这个方程

327575.06746.10451.4X X Y i ++=

广义线性模型与汽车保险费率厘定

广义线性模型与汽车保险费率厘定 胡三明 西南财经大学保险学院 【摘要】本文回顾了汽车保险费率厘定模型的发展历程,并对广义线性模型从建模、统计分析、模型的选择与诊断等方面进行了比较系统的介绍,最后通过一个汽车保险的实例来介绍其在分类费率厘定过程中具体运用,具有较强的实践意义。 【关键词】广义线性模型分类费率厘定 一、导论 对于传统费率厘定模型,精算师过于依赖简单的单因素分析法和双因素分析法,其中,单因素分析常受到费率因子间相关性的影响而被扭曲,同时也没有考虑到因子间独立性的影响。对此,精算师在六十年代探索出了迭代模型——最小偏差法,使其得到重大的改进,但仍然没有形成完整的统计框架。最小偏差法试图通过迭代的方法来求出一系列方程的最优解,但它无法测试一个特定的变量的影响效果,同时也不能提供可靠的参数估计范围。 广义线性模型(GLM)是传统线性模型以及许多最常见的最小偏差法的延伸,从技术角度看,比标准的迭代模型更有效率,它提供的统计诊断功能,有助于挑选重要的变量并且确认模型的假设条件。如今,广义线性模型在欧盟和许多其他市场,被公认为是对私家车和其他私人业务以及小额的团体业务进行定价的行业标准模型。 广义线性模型的个别特例很早就已出现,早在1919年就曾被Fisher使用过,二十世纪四五十年代,Berkson,Dyke和Patterson等人使用过最著名的Logistic模型,1972年Nelder和Wedderburn在一篇论文中率先使用广义线性模型一词,此后相关研究工作逐渐增加,1983年McCullagh和Nelder出版了系统的论著,并于1989年再版。 二、广义线性模型 (一)、线性模型 一个传统的线性模型具有如下形式: ' i i y xβε =+i 其中 i y是响应变量的第i次观测, i x是协变量,表示第i 次观测数据,未知系数向量β通过对数据i y的最小二乘拟合估计出来。假定εi是均值为零,方差为常数的独立正态随机变量。对于一般的线性 回归模型(LM)' i i y xβε =+i可以分解为三个要素:LM1:随机要素,即Y服从正态分布, () i E y μ=; LM2:系统要素,' i x ηβ =; LM3:连接要素,ημ =; (二)、广义线性模型 尽管传统的线性模型广泛地应用于统计数据分析中,但它却不适合处理如下几类问题: (1) 将数据分布假设为正态分布并不合理; (2) 当数据的均值被限制在一定的范围内时,传 统的线性模型就不适用了,因为线性预测值' i xβ可以取任意值; (3) 假定数据的方差对于所有观测都是一个常数并不现实。 广义线性模型扩展了传统的线性模型,因此它适用于更广范围的数据分析问题。一个广义线性模型包括以下组成部分: GLM1:随机要素,Y服从比正态分布更一般的分布,即指数族分布; GLM2:系统要素同LM2,即保持线性结构;

试验一异方差的检验与修正-时间序列分析

案例三 ARIMA 模型的建立 一、实验目的 了解ARIMA 模型的特点和建模过程,了解AR ,MA 和ARIMA 模型三者之间的区别与联系,掌握如何利用自相关系数和偏自相关系数对ARIMA 模型进行识别,利用最小二乘法等方法对ARIMA 模型进行估计,利用信息准则对估计的ARIMA 模型进行诊断,以及如何利用ARIMA 模型进行预测。掌握在实证研究如何运用Eviews 软件进行ARIMA 模型的识别、诊断、估计和预测。 二、基本概念 所谓ARIMA 模型,是指将非平稳时间序列转化为平稳时间序列,然后将平稳的时间序列建立ARMA 模型。ARIMA 模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA )、自回归过程(AR )、自回归移动平均过程(ARMA )以及ARIMA 过程。 在ARIMA 模型的识别过程中,我们主要用到两个工具:自相关函数ACF ,偏自相关函数PACF 以及它们各自的相关图。对于一个序列{}t X 而言,它的第j 阶自相关系数j ρ为它的j 阶自协方差除以方差,即j ρ=j 0γγ ,它是关于滞后期j 的函数,因此我们也称之为自相关函数,通常记ACF(j )。偏自相关函数PACF(j )度量了消除中间滞后项影响后两滞后变量之间的相关关系。 三、实验内容及要求 1、实验内容: (1)根据时序图的形状,采用相应的方法把非平稳序列平稳化; (2)对经过平稳化后的1950年到2007年中国进出口贸易总额数据运用经典B-J 方法论建立合适的ARIMA (,,p d q )模型,并能够利用此模型进行进出口贸易总额的预测。 2、实验要求: (1)深刻理解非平稳时间序列的概念和ARIMA 模型的建模思想; (2)如何通过观察自相关,偏自相关系数及其图形,利用最小二乘法,以及信息准则建立合适的ARIMA 模型;如何利用ARIMA 模型进行预测; (3)熟练掌握相关Eviews 操作,读懂模型参数估计结果。 四、实验指导 1、模型识别 (1)数据录入 打开Eviews 软件,选择“File”菜单中的“New --Workfile”选项,在“Workfile structure type ”栏选择“Dated –regular frequency ”,在“Date specification ”栏中分别选择“Annual ”(年数据) ,分别在起始年输入1950,终止年输入2007,点击ok ,见图3-1,这样就建立了一个工作文件。点击File/Import ,找到相应的Excel 数据集,导入即可。

计量经济学简答题及答案

计量经济学简答题及答案 1、比较普通最小二乘法、加权最小二乘法和广义最小二乘法的异同。 答:普通最小二乘法的思想是使样本回归函数尽可能好的拟合样本数据,反映在 图上就是是样本点偏离样本回归线的距离总体上最小,即残差平方和最小∑=n i i e 12min 。只有在满足了线性回归模型的古典假设时候,采用OLS 才能保 证参数估计结果的可靠性。 在不满足基本假设时,如出现异方差,就不能采用OLS 。加权最小二乘法是对原 模型加权,对较小残差平方和2i e 赋予较大的权重,对较大2i e 赋予较小的权重,消除异方差,然后在采用OLS 估计其参数。 在出现序列相关时,可以采用广义最小二乘法,这是最具有普遍意义的最小二乘 法。 最小二乘法是加权最小二乘法的特例,普通最小二乘法和加权最小二乘法是广义 最小二乘法的特列。 6、虚拟变量有哪几种基本的引入方式? 它们各适用于什么情况? 答: 在模型中引入虚拟变量的主要方式有加法方式与乘法方式,前者主要适用于 定性因素对截距项产生影响的情况,后者主要适用于定性因素对斜率项产生影响的情况。除此外,还可以加法与乘法组合的方式引入虚拟变量,这时可测度定性因素对截距项与斜率项同时产生影响的情况。 7、联立方程计量经济学模型中结构式方程的结构参数为什么不能直接应用OLS 估计? 答:主要的原因有三:第一,结构方程解释变量中的内生解释变量是随机解释变

量,不能直接用OLS 来估计;第二,在估计联立方程系统中某一个随机方程参数时,需要考虑没有包含在该方程中的变量的数据信息,而单方程的OLS 估计做不到这一点;第三,联立方程计量经济学模型系统中每个随机方程之间往往存在某种相关性,表现于不同方程随机干扰项之间,如果采用单方程方法估计某一个方程,是不可能考虑这种相关性的,造成信息的损失。 2、计量经济模型有哪些应用。 答:①结构分析,即是利用模型对经济变量之间的相互关系做出研究,分析当其 他条件不变时,模型中的解释变量发生一定的变动对被解释变量的影响程度。②经济预测,即是利用建立起来的计量经济模型对被解释变量的未来值做出预测估计或推算。③政策评价,对不同的政策方案可能产生的后果进行评价对比,从中做出选择的过程。④检验和发展经济理论,计量经济模型可用来检验经济理论的正确性,并揭示经济活动所遵循的经济规律。 6、简述建立与应用计量经济模型的主要步骤。 答:一般分为5个步骤:①根据经济理论建立计量经济模型;②样本数据的收集; ③估计参数;④模型的检验;⑤计量经济模型的应用。 7、对计量经济模型的检验应从几个方面入手。 答:①经济意义检验;②统计准则检验;③计量经济学准则检验;④模型预测检 验。 1、在计量经济模型中,为什么会存在随机误差项? 答:①模型中被忽略掉的影响因素造成的误差;②模型关系认定不准确造成的误 差;③变量的测量误差;④随机因素。这些因素都被归并在随机误差项中考虑。因此,随机误差项是计量经济模型中不可缺少的一部分。 2、古典线性回归模型的基本假定是什么? 答:①零均值假定。即在给定x t 的条件下,随机误差项的数学期望(均值)为0, 即t E(u )=0。②同方差假定。误差项t u 的方差与t 无关,为一个常数。③无自相关假定。即不同的误差项相互独立。④解释变量与随机误差项不相关假定。⑤正态性假定,即假定误差项t u 服从均值为0,方差为2 的正态分布。 3、总体回归模型与样本回归模型的区别与联系。 答:主要区别:①描述的对象不同。总体回归模型描述总体中变量y 与x 的相互 关系,而样本回归模型描述所观测的样本中变量y 与x 的相互关系。②建立模型的不同。总体回归模型是依据总体全部观测资料建立的,样本回归模型是依据样本观测资料建立的。③模型性质不同。总体回归模型不是随机模型,样本回归模型是随机模型,它随着样本的改变而改变。 主要联系:样本回归模型是总体回归模型的一个估计式,之所以建立样本回归模

广义线性模型

广义线性模型 一、广义模型的概念以及指数函数族 1.多元线性回归和正态线性模型 2.指数函数族 3.The Tweedie distribution:特殊的指数指数族一员;在0点有很大的 概率并且在非0点有合适的分布;方差与均值的p次幂成正比4.GLM的结构:连接函数、设计矩阵、预估变量、offset变量 每个观测的方差取决于:1.模型的方差方程;2.幅度变量;3.每个变量的权重 二、构建GLM模型 1.单因子分析:无法反映变量之间的关系,GLM可以排除这类关系, 得到相对数的真实值 2.变量、分类因子、交互项目以及线性预测值: (1)权重/暴露 (2)反应:模型视图预测的值一般地,模型的名称与反应/权重的含义相同 (3)categorical factors and naturally ordered value (4)interaction terms:当某种不同变量的特定组合与分别直接乘以不同变量相对数的经验差异很大时要用到 3. 变量估计:通过逆矩阵相关方法求解 三、分析因子的显著性 1. chi-squared、F-statistics、AIC 等统计量

(1)偏离:比较观测值与设定值之间的差距,考虑到权重的影响,并且当方差小时给予误差更大的影响。 (2)偏离度调整 (3)chi-squared 统计量:模型的自由度定义为观测的数量减去变量的数量 Nested models:可以利用chi-squared来检验偏离度的变化 (4) F-statistics (5)AIC:主要用于模型选择的统计量 AIC=-2*log likelihood+2*number of parameters 是在likelihood 与变量数量之间的权衡,AIC数值越小越好 2.模型变量的不确定性 Hat matrix Likelihood的二阶导数与变量的方差反比例相关 Steep curvature表明变量tightly defined, Shallow curvature 表明变量poorly defined 3.其他方法 (1)与预期值相比:每种水平下相对值的变动幅度,同时考虑每个水平下得标准偏差,其值的 (2)Comparison with time:model fit line;variation的大小应该与exposure的大小相反 不同渠道数据收集上的差异可能导致不一致的发生四、测试模型的适当性

广义线性模型

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸, 它是总体均值通过一个非线性连接 函数依赖于线性预测值, 有许多广泛应用的统计模型都属于广义线性模型,其中 包括正态误差的经典性模型, 二元数据的对数和概率单位模型以及多项数据的对 数线性模型, 还有其它许多有用的统计模型,如果选择合适的连接函数和响应概 率分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y ? XT? ??
其中, yi ?Y ? { y1 , y2 ,?, yn } 是因变量的第 i 次观测, xi ? X ? {x1 , x2 ,?, xn } 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 ? 可以通过对 Y 的 最小二乘拟合估计, ? 是均值为零,方差为常数的随机变量。 模型的几个基本假设: ? ? ? ? ? ? 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差 {? i } ~ N (0,? ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型, 是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。 ? 广义线性模型在两个方面对一般线性模型进行了推广: ? 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型 中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。 ? 一般线性模型中,自变量的线性预测值 ? 就是因变量的估计值 ? ,而广 义线性模型中,自变量的线性预测值 ? 是因变量的函数估计值 g ( ? ) 。 ? 广义线性模型包括一下组成部分: ? 线性部分正好是一般线性模型所定义的:
?i ? ?0 ? ?1 x1i ? ?2 x2i ? ? ? ?m xmi
? 连接函数( link function):
?i ? g (?i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的估计值 ? ”与“自变量的线性预测值 ? ”的作用 。在经典的线性模型中,“Y 的估计值”与“自变量的线性预测”是一回事。 ? 广义线性模型建立 通过对数据选定因变量和自变量, 以及选择合适的连接函数和响应概率分布, 既可以建立一个广义线性模型。例如: ? 一般线性模型 因变量:连续变量 分布:正态分布 连接函数: ? ? ? ? Logistic 回归模型 因变量:(0,1) 分布:二项分布 连接函数: ? ? log(
?
1? ? )
? Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

异方差与自相关广义线性模型

第三章 异方差与自相关广义线性模型 本章继续讨论线性模型 Y =X β+ε, E (ε)=0 ( 所不同在于以前的关于误差方差的假定是 Var(ε)=σ2I n ( 这一章逐次推广讨论。第一节讨论异方差的存在与检验,尤其是在经济模型资料中的存在与影响,第二节讨论的是 n i diag Var i n ,,1,),,,()(2 221 已知 ( 2 221222222212121,),,,,,,,,,()( diag Var 未知 ( )ex p(),,,()(2 221 i i n Z diag Var , 未知 ( 这些都是误差方差为对角阵的模型。 第三节讨论自相关线性模型。首先讨论的是残差一阶自回归线性模型,它的残差满足 i i i 1 ( )(,0)(,)(,0)(22j i E E E j i i i ( 此时残差εi 的方差虽不为对角阵,但只含一个参数。接着我们介绍自回归条件异方差(ARCH)模型,它的误差假设是 i p i p i i 221102 ( )(,0)(,)(,0)(22j i E E E j i i i ( 因为模型计算中用到了广义矩估计方法(GMM),我们在第四节又介绍了GMM 。 第五节讨论的是 2 2 ,0)( M Var 未知,M 已知 ( 第六节讨论的是 2 2 ,0)( M Var 未知,M 已知 ( 所讨论的内容还是各种回归模型、算法及性质。 第一节 异方差的存在与检验 一、异方差的存在与影响 前面介绍的线性回归模型,都是假定随机误差项εi 独立同分布,有相同的方差

(Homoscedasticity) 2)( ,0)( i i Var E ( 但是实际抽样很难保证这一点。经济对象千差万别,可以按不同标准划分成不同的群体。这些群体间的差别导致样本方差不一致,于是就有所谓异方差(Heteroscedasticity): 2)( ,0)(i i i Var E ( 反映在散点图上,如下图可以明显看出样本方差与点 (X i , Y i )有关,随着样本数值增大而增大。 图 由于样本方差的差异,原来最小二乘估计的一些优良性质不再存在。如在一元线性回归 n i X Y i i i ,,1 ,10 ( 我们知道最小二乘估计 n i i XX i n j i n i i i XX XY Y S X X X X Y Y X X S S 1 1 2 1 1 )() )((? ( n i i XX i Y S X X X n X Y 11 0)(1 ?? ( 于是 )()()?(2 11i n i XX i Y Var S X X Var ( )()(1)?(2 10i n i XX i Y Var S X X X n Var ( 现在Var(Y i )不是常量,我们就无法证明0 1?,? 是最小方差线性无偏估计。显著性检验也成了问题。原来构造的F 统计量是分子分母都含有未知参数σ2, 可以分别提取公因式再约去,现 在是异方差,按原来方法构造的F 统计量里的未知参数无法直接约去,预测精度也无法保证。差不多原来推导的各种统计方法、统计性质由于基础动摇而都需重新考虑。 因此我们需要将一般线性回归模型推广。 不过在推广之前,首先要解决异方差的检验问题。 二、异方差的检验 异方差的检验一般需要比较大的样本,一般都是作所谓残差分析。 图

计量经济学 第五章 异方差性

第五章 异方差性 用OLS 法得到的估计模型通过统计检验后,还要检验摸型是否满足假定条件。由第二章知,只有模型的5个假定条件都满足时,用OLS 法得到的估计量才具有最佳线性无偏特性。当一个或多个假定条件不成立时,OLS 估计量将丧失上述特性。本节讨论当假定条件不成立时,对参数估计带来的影响以及相应的补救措施。 以下讨论都是在某一个假定条件被违反,而其他假定条件都成立的情况下进行。分为5个步骤。 (1) 回顾假定条件。 (2) 假定条件不成立对模型参数估计带来的影响。 (3) 定性分析假定条件是否成立。 (4) 假定条件是否成立的检验(定量判断)。 (5) 假定条件不成立时的补救措施。 5.1 异方差性的含义与产生的原因 5.1.1 同方差假定 -2 2 46810120 50 100 150 200 X Y 图5.1 同方差情形 图5.2 同方差情形 模型的假定条件⑴ 给出Var(u ) 是一个对角矩阵, Var(u ) = E(u u ' ) = σ 2I = σ 21 010 1?????????? ?? (5.1) 且u 的方差协方差矩阵主对角线上的元素都是常数且相等,即每一误差项的方差都是有限的相同值(同方差假定);且非主对角线上的元素为零(非自相关假定),当这个假定不成立时,Var(u ) 不再是一个纯量对角矩阵。

Var(u ) = σ 2 Ω = σ 211220..00...0......00...TT σσσ???? ???????? ≠σ 2 I (5.2) 当误差向量u 的方差协方差矩阵主对角线上的元素不相等时,称该随机误差系列存在异方差,即误差向量u 中的元素u t 取自不同的分布总体。非主对角线上的元素表示误差项之间的协方差值。比如 Ω 中的 σi j 与σ 2的乘积 ,(i ≠ j )表示与第i 组和第j 组观测值相对应的u i 与 u j 的协方差。若 Ω 非主对角线上的部分或全部元素都不为零,误差项就是自相关的。 本节讨论异方差。下一节讨论自相关问题。以两个变量为例,同方差假定如图5.1和5.2所示。对于每一个x t 值,相应u t 的分布方差都是相同的。 5. 1.2 异方差表现与来源 异方差通常有三种表现形式,(1)递增型,(2)递减型,(3)条件自回归型。递增型异方差见图5.3和5.4。图5.5为递减型异方差。图5.6为条件自回归型异方差。 123456720406080100120140160180200 Y 图5.3 递增型异方差情形 图5.4 递增型异方差 012345670 50 100 150 200X Y -8 -6-4-20246 DJ PY 图5.5 递减型异方差 图5.6 复杂型异方差 产生的原因主要有以下几种: (1) 模型中遗漏了某些解释变量。

条件异方差模型分析解析

第三节 自回归条件异方差(ARCH)模型 金融时间序列数据通常表现出一种所谓的集群波动现象。模型随机误差项中同时含有自相关和异方差。 一、ARCH 模型 (Auto-regressive Conditional Heteroskedastic —自回归条件异方差模型) 对于回归模型 t kt k t t x b x b b y ε++++= 110 (3.3.1) 若2 t ε服从AR (q )过程 t q t q t t νεαε ααε++++=--221102 (3.3.2) 其中t ν独立同分布,并满足0)(=t E ν , 2)(σν=t D 则称(3.3.2)式为ARCH 模型,序列t ε服从q 阶ARCH 过程,记为t ε~ARCH (q )。 (3.3.1)和(3.3.2)称为回归—ARCH 模型。 注:不同时点t ε的方差2)(t t D σε=是不同的。

对于AR (p )模型 t p t p t t y y y εφφ+++=-- 11 (3.3.3) 如果t ε~ARCH (q ),则(3.3.3)与(3.3.2)结合称为AR (p )-ARCH (q )模型。 ARCH (q )模型还可以表示为 *t t h = εt ν (3.3.4) 2 1 022 110j t q j q t q t t h -=--∑+=+++=εααεαεααα (3.3.5) 其中,t ν独立同分布,且0)(=t E ν,1)(=t D ν,00>α 0≥j α)2,1(q j = 且11<∑=q j j α (保证ARCH 平稳)。 有时,(3.3.5)式等号右边还可以包括外生变量,但要注意应保证t h 值是非负的。如: p t p t q t q t t h h h ----++++++=θθεαεαα 1122110 1011<+<∑∑==p j j q i i θα 对于任意时刻t ,条件期望 E (t ε| ,1-t ε)=0)(*=t t E h ν (3.3.6)

广义线性模型

广义线性模型

———————————————————————————————— 作者: ———————————————————————————————— 日期:

广义线性模型
1.概述
广义线性模型是传统的线性模型的延伸,它是总体均值通过一个非线性连接 函数依赖于线性预测值,有许多广泛应用的统计模型都属于广义线性模型,其中包 括正态误差的经典性模型,二元数据的对数和概率单位模型以及多项数据的对数 线性模型,还有其它许多有用的统计模型,如果选择合适的连接函数和响应概率 分布,也可以表示为广义线性模型。
2.线性模型
线性模型也称经典线性模型或一般线性模型,其模型的形式为:
Y XT
其中, yi Y {y1, y2, , yn} 是因变量的第i次观测, xi X {x1, x2, , xn} 是自 变量,它是一个列向量,表示第 i 次观测数据。未知系数向量 可以通过对Y 的最 小二乘拟合估计, 是均值为零,方差为常数的随机变量。
模型的几个基本假设: 因变量是连续随机变量 自变量相互独立 每一个数值型自变量与因变量呈线性关系 每一个数值型自变量与随机误差相互独立 观察个体的随机误差之间相互独立 随机误差{i} ~ N(0, ) 。
然而,实践中常不满足此假设

3.广义线性模型
广义线性模型,是为了克服一般线性模型的缺点出现的,是一般线性模型的 推广。
广义线性模型在两个方面对一般线性模型进行了推广: 一般线性模型中要求因变量是连续的且服从正态分布,在广义线性模型
中,因变量的分布可扩展到非连续的资料,如二项分布、Poisson 分布、 负二项分布等。
一般线性模型中,自变量的线性预测值 就是因变量的估计值 ,而广义
线性模型中,自变量的线性预测值 是因变量的函数估计值 g() 。
广义线性模型包括一下组成部分: 线性部分正好是一般线性模型所定义的:
i 0 1x1i 2 x2i m xmi
连接函数( link function):
i g(i )
连接函数为一单调可微(连续且充分光滑)的函数。连接函数起了关联“Y 的
估计值 ”与“自变量的线性预测值 ”的作用 。在经典的线性模型中,“Y
的估计值”与“自变量的线性预测”是一回事。 广义线性模型建立 通过对数据选定因变量和自变量,以及选择合适的连接函数和响应概率分布,
既可以建立一个广义线性模型。例如: 一般线性模型
因变量:连续变量 分布:正态分布
连接函数:
Logistic回归模型 因变量:(0,1) 分布:二项分布 连接函数: log( )
1 Poisson 回归模型 因变量:计数和个数 分布:Poisson 分布

时间序列分析第一章

1. 什么是时间序列?请收集几个生活中的观察值序列。 按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。例如我把每天的生活费记录下来;零售商把每个月的销售额记下来,重要的是时间间隔和量纲要相同。 2. 时域方法的特点是什么? 时域分析方法具有理论基础扎实、操作步骤规范、分析结果易于解释,是时间序列分析的主流方法等特点。 3、时域方法的发展轨迹是怎样的? 1927年,英国统计学家G. U. Yule 提出AR模型(自回归(autoregressive, AR)模型); 1931年,英国统计学家、天文学家G. T. Walker提出MA模型(移动平均(moving average, MA)模型); 1931年,英国统计学家、天文学家G. T. Walker提出ARMA模型(自回归移动平均(autoregressive moving average, AR MA)模型) 1970年,美国统计学家G.E.P.Box和英国统计学家G.M.Jenkins提出ARIMA模型(求和自回归移动平均(autoregressive integrated moving average, ARIMA)模型,又称(Box—Jenkins 模型))出版了《Time Series Analysis Forecasting and Control》; 美国统计学家,计量经济学家Robert F.Engle在1982年提出了自回归条件异方差(ARCH)模型,用以研究英国通货膨胀率的建模问题; Bollerslov在1985年提出了广义自回归条件异方差(GARCH)模型; Nelson等人指数广义自回归条件异方差(EGARCH)模型,方差无穷广义自回归条件异方差(IEGARCH)模型,依均值广义自回归条件异方差(EGARCH-M)模型。 在非线性场合,Granger和Andersen在1978年提出了双线性模型;Howell Ttong在1978年提出了门限自回归模型(分段线性化构造)等等。 模型分类主要有单变量、同方差场合的线性模型:AR, MA, ARMA, ARIMA;异方差场合的线性模型:ARCH, GARCH, EGARCH, IGARCH, GARCH-M;多变量场合的线性模型:协整(co-integration)理论,Granger, Engle 2003Nobel奖;非线性的时间序列分析:(分段线性化)门限自回归模型。 还有时间序列分析软件SAS(Statistical Analysis System)系统专门模块:SAS/ETS(Econometric & Time Series)。

广义自回归条件异方差模型加速模拟定价理论

第47卷第3期 2019年3月 同济大学学报(自然科学版) JOURNAL OF TONGJI UNIVERSITYCNATURAL SCIENCE) Vol. 47 No. 3 Mar. 2019 文章编号:〇253-374X(2019)03-0435-09DOI: 10.11908/j. issn. 0253-374x. 2019.03.019广义自回归条件异方差模型加速模拟定价理论 马俊美u,3,卓金武4,张建1,陈渌1 (1.上海财经大学数学学院,上海200433; 2.上海市金融信息技术研究重点实验室,上海200433; 3.应用数学福建省髙校重点实验室(莆田学院),福建莆田351100; 4.上海财经大学信息管理与工程学院,上海200433) 摘要:研究了广义自回归条件异方差(GARCH)模型下方差 衍生产品的加速模拟定价理论.基于Black-Scholes模型下的 产品价格解析解以及对两类标的过程的矩分析,提出了一种 GARCH模型下高效控制变量加速技术,并给出最优控制变 量的选取方法.数值计算结果表明,提出的控制变量加速模 拟方法可以有效地减小Monte Carlo模拟误差,提高计算效 率.该算法可以方便地解决GARCH随机波动率模型下其他 复杂产品的计算问题,如亚式期权、篮子期权、上封顶方差互 换、Corridor方差互换以及Gamma方差互换等计算问题. 关键词:GARCH;随机波动率;加速;控制变量;方差衍生产品 中图分类号:F830. 9,0211. 5 文献标志码:A Pricing Accelerated Simulation Theory of Generalized Autoregressive Conditional Heteroskedasticity Model M A Junmei1,2,3,Z H U0 Jinwu4,Z H A N G Jian1,CHENLu1 (1. School of Mathematics, Shanghai University of Finance and Economics, Shanghai 200433, China;2. Shanghai Key Laboratory of Financial Information Technology, Shanghai 200433, China;3. Key Laboratory of Applied Mathematics, Fujian Province University (Putian University), Putian 351100, China;4. School of Information Management and Engineering, Shanghai University of Finance and Economics, Shanghai 200433, China) A b stra ct:The accelerated simulation pricing theory of variance derivatives under generalized auto regressive conditional heteroskedasticity (GARCH) stochastic volatility model was studied. Based on the analytical solution under the Black-Scholes model and their moments analysis of these two kinds of processes, a more efficient acceleration technique of control variate was proposed and the method of selecting optimal control variate was also given. The numerical results show that the proposed accelerated simulation method of control variate effectively reduce the simulation error and improve the computational efficiency. The algorithm can also be used to solve the computational problems of other complex products under GARCH stochastic volatility model, such as Asian option, Basket option, Capped variance swap, Corridor variance swap and Gamma variance swap, etc. K ey w ord s:GARCH; stochastic volatility; accelerate;control variate;variance derivatives 波动率是金融资产最重要的特征之一,特别是 在定价中起决定因素.波动率通常定义为标的资产 投资回报率的标准差,通常用来度量标的资产的风 险或者不确定性.经典的Black-Scholes模型假设波 动率是常数,这与实际金融市场得到的数据不一致. 金融实证研究表明:波动率最显著的一个特点就是 具有“微笑”或者偏斜的曲线[1].此外,除了具有“微 笑”曲线外,人们还发现波动率具有集聚性与时变 性,分布呈尖峰厚尾性,还具有杠杆效应、日历效益 效应等特性[2].针对市场波动率的这些特性,研究者 们提出了一系列随机波动率模型来改进Black-Scholes模型,期望更好地刻画随机波动率特征.估 量波动性的模型在过去的半个世纪里成为计量经济 学和实证金融学中较为活跃的研究领域之一.概括 起来主流的随机波动率模型主要有两类,一类是连 续时间的随机波动率模型(S V模型),一类是离散时 间的随机波动率模型(G ARC H模型).这两类模型 被认为是最集中反映全球金融数据时间序列方差波 动特点的模型,也是研究现代经济计量学的一个重 点.在金融实务操作中,交易都是离散进行的,GARCH模型描述离散时间经济情形,更能反映实 务中股票价格运行的实际情况. 收稿日期:2018-06-07 基金项目:国家自然科学基金(11271243,11226252);上海优秀青年基金(Z Z C D12007);应用数学福建省髙校重点实验室(莆田学院)开放 课题(SX2017〇4) 第一作者:马俊美(1983—),女,讲师,理学博士,主要研究方向为金融数学与计算.E-mail:ma. junmei@mail. shufe. edu. cn

广义线性模型()

广义线性模型 广义线性模型*(Nelder和Wedderburn,1972)除了正态分布,也允许反应分布,以及模型结构中的一定程度的非线性。GLM具有基本结构 g(μi)=X iβ, 其中μi≡E(Yi),g是光滑单调'链接函数',Xi是模型矩阵的第i行,X和β是未知参数的向量。此外,GLM通常会做出Yi是独立的和Yi服从一些指数族分布的假设。 指数族分布包括许多对实际建模有用的分布,如泊松分布,二项分布,伽马分布和正态分布。GLM的综合参考文献是McCullagh和Nelder(1989),而Dobson(2001)提供了一个全面的介绍。 因为广义线性模型是以“线性预测器”Xβ的形式详细说明的,所以线性模型的许多一般想法和概念通过一些修改而继续存在到广义线性模型中。除了必须选择的链接函数和分布之外,基本模型公式与线性模型公式基本相同。当然,如果恒等函数被选择作为链接以及正态分布,那么普通线性模型将作为特例被恢复。 然而,泛化是以某种成本为代价的:现在的模型拟合必须要迭代完成,而且用于推理的分布结果是近似的,并且由大样本限制结果证明是正确的而不是精确的。但在深入探讨这些问题之前,请考虑几个简单的例子。 μi=cexp(bt i), 例1:在疾病流行的早期阶段,新病例的发生率通常会随着时间以指数方式增加。因此,如果μi是第ti天的新病例的预期数量,则该形式的模型为 请注意,“广义”和“一般”线性模型之间存在区别-后一个术语有时用于指除简单直线以外的所有线性模型。 可能是合适的,其中c和b是未知参数。通过使用对数链路,这样的模型可以变成GLM形式 log(μi)=log(c)+bt i=β0+t iβ1 (根据β0=logc和β1=b的定义)。请注意,模型的右侧现在在参数中是线性的。反应变量是每天新病例的数量,因为这是一个计数,所以泊松分布可能是一个合理的可以尝试的分布。因此,针对这种情况的GLM使用泊松反应分布,对数链路和线性预测器β0+tiβ1。 , 例2:狩猎动物捕获猎物的速度yi往往随着猎物密度xi的增加而增加,但最终会趋于平衡,当捕食者捕获尽可能多的猎物时。对于这种情况一个合适的模型可能是

计量经济学作业 浙江万里学院 实验七eviews

实验七(G)ARCH 模型在金融数据中的应用 一、实验目的 理解自回归异方差(ARCH)模型的概念及建立的必要性和适用的场合。 了解(G)ARCH 模型的各种不同类型,如GARCH-M 模型(GARCH in mean ),EGARCH模型(Exponential GARCH ) 和TARCH模型(又称GJR)。掌握对(G)ARCH 模型 的识别、估计及如何运用Eviews 软件在实证研究中实现。 二、基本概念 p 阶自回归条件异方程ARCH(p)模型,其定义由均值方程(7.1)和条件方程方程(7.2)给出: (7.1) 其中,表示t-1 时刻所有可得信息的集合,为条件方差。方程(7.2)表示误差项 的方差由两部分组成:一个常数项和前p 个时刻关于变化量的信息,用前p 个时刻的 残差平方表示(ARCH 项)。 广义自回归条件异方差GARCH(p,q)模型可表示为: (7.3) (7.4) 三、实验内容及要求 1、实验内容: 以上证指数和深证成份指数为研究对象,选取1997 年1 月2日~2002年12月31 日共6 年每个交易日上证指数和深证成份指数的收盘价为样本,完成以下实验步骤: (一)沪深股市收益率的波动性研究 (二)股市收益波动非对称性的研究 (三)沪深股市波动溢出效应的研究 2、实验要求: (1)深刻理解本章的概念; (2)对实验步骤中提出的问题进行思考; (3)熟练掌握实验的操作步骤,并得到有关结果。

四、实验指导 (一)沪深股市收益率的波动性研究 1、描述性统计 (1) 导入数据,建立工作组 (2)生成收益率的数据列 在Eviews 窗口主菜单栏下的命令窗口中键入如下命令:genr rh=log(sh/sh(-1)) ,回 车后即形成沪市收益率的数据序列rh,同样的方法可得深市收益数剧序列rz。 (3)观察收益率的描述性统计量 双击选取“rh”数据序列,在新出现的窗口中点击“View”-“Descriptive Statistics”-“Histogram and Stats”,则可得沪市收益率rh 的描述性统计量,如图7-1 所示:

一异方差的检验与修正-时间序列分析

案例三ARIMA模型的建立 一、实验目的 了解ARIMA模型的特点和建模过程,了解AR,MA和ARIMA模型三者之间的区别与联系,掌握如何利用自相关系数和偏自相关系数对ARIMA模型进行识别,利用最小二乘法等方法对ARIMA模型进行估计,利用信息准则对估计的ARIMA模型进行诊断,以及如何利用ARIMA模型进行预测。掌握在实证研究如何运用Eviews软件进行ARIMA模型的识别、诊断、估计和预测。 二、基本概念 所谓ARIMA模型,是指将非平稳时间序列转化为平稳时间序列,然后将平稳的时间序列建立ARMA模型。ARIMA模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA)、自回归过程(AR)、自回归移动平均过程(ARMA)以及ARIMA过程。 在ARIMA模型的识别过程中,我们主要用到两个工具:自相关函数ACF,偏自相关函数PACF以及它们各自的相关图。对于一个序列{}t X而言,它的第j阶自相关系数jρ为它 γγ,它是关于滞后期j的函数,因此我们也称之为的j阶自协方差除以方差,即jρ=j0 自相关函数,通常记ACF(j)。偏自相关函数PACF(j)度量了消除中间滞后项影响后两滞后变量之间的相关关系。 三、实验内容及要求 1、实验内容: (1)根据时序图的形状,采用相应的方法把非平稳序列平稳化; (2)对经过平稳化后的1950年到2007年中国进出口贸易总额数据运用经典B-J方法论建p d q)模型,并能够利用此模型进行进出口贸易总额的预测。 立合适的ARIMA(,, 2、实验要求: (1)深刻理解非平稳时间序列的概念和ARIMA模型的建模思想; (2)如何通过观察自相关,偏自相关系数及其图形,利用最小二乘法,以及信息准则建立合适的ARIMA模型;如何利用ARIMA模型进行预测; (3)熟练掌握相关Eviews操作,读懂模型参数估计结果。 四、实验指导 1、模型识别 (1)数据录入 打开Eviews软件,选择“File”菜单中的“New--Workfile”选项,在“Workfile structure type”栏选择“Dated –regular frequency”,在“Date specification”栏中分别选择“Annual”(年数据) ,分别在起始年输入1950,终止年输入2007,点击ok,见图3-1,这样就建立了一个工作文件。点击File/Import,找到相应的Excel数据集,导入即可。

(完整word版)时间序列分析基于R——习题答案

第一章习题答案 略 第二章习题答案 2.1 (1)非平稳 (2)0.0173 0.700 0.412 0.148 -0.079 -0.258 -0.376 (3)典型的具有单调趋势的时间序列样本自相关图 2.2 (1)非平稳,时序图如下 (2)-(3)样本自相关系数及自相关图如下:典型的同时具有周期和趋势序列的样本自相关图

2.3 (1)自相关系数为:0.2023 0.013 0.042 -0.043 -0.179 -0.251 -0.094 0.0248 -0.068 -0.072 0.014 0.109 0.217 0.316 0.0070 -0.025 0.075 -0.141 -0.204 -0.245 0.066 0.0062 -0.139 -0.034 0.206 -0.010 0.080 0.118 (2)平稳序列 (3)白噪声序列 2.4 ,序列LB=4.83,LB统计量对应的分位点为0.9634,P值为0.0363。显著性水平=0.05 不能视为纯随机序列。 2.5 (1)时序图与样本自相关图如下

(2) 非平稳 (3)非纯随机 2.6 (1)平稳,非纯随机序列(拟合模型参考:ARMA(1,2)) (2)差分序列平稳,非纯随机 第三章习题答案 3.1 ()0t E x =,2 1 () 1.9610.7 t Var x ==-,220.70.49ρ==,220φ= 3.2 1715φ=,2115 φ= 3.3 ()0t E x =,10.15 () 1.98(10.15)(10.80.15)(10.80.15) t Var x += =--+++ 10.8 0.7010.15 ρ= =+,210.80.150.41ρρ=-=,3210.80.150.22ρρρ=-= 1110.70φρ==,2220.15φφ==-,330φ= 3.4 10c -<<, 1121,1,2 k k k c c k ρρρρ--?=? -??=+≥? 3.5 证明: 该序列的特征方程为:32 --c 0c λλλ+=,解该特征方程得三个特征根: 11λ=,2c λ=3c λ=-

相关主题