搜档网
当前位置:搜档网 › 向量自回归过程时间序列分析

向量自回归过程时间序列分析

向量自回归过程时间序列分析
向量自回归过程时间序列分析

第四章 向量自回归过程的时间序列分析

§1 向量自回归模型

有时我们需要考虑多个时间序列过程的组合。例如,宏观经济系统中,(,,,)t t t t y m p r 它们之间是一个相互联系的整体(IS —LM )。多变量的时间序列将会产生一些单变量不存在的问题。本章主要讨论平稳的自回归形式的多变量随机过程VAR 。

给一般的向量平稳过程,12(,,

,) 0,1,2,t t t mt Y Y Y Y t '==±±。这里t Y 的协差矩阵

定义为:()cov(,)[()()]t t k t t k k Y Y E Y Y μμ--'Γ==--仅依赖于k 。设,

1112

121

22

212

()m m m m mm k

k γγγγγγγγγ?? ? ?

Γ= ?

???,于是得到矩阵序列{()}k Γ。又

()()ij ji k k γγ=-,

()()k k '∴Γ=Γ-。设()k k +∞

=-∞

Ω=

Γ∑,那么,1

(0)[()()]k k k ∞

='Ω=Γ+Γ+Γ∑。 称为t

Y 的长

期协差阵。且t Y 的谱定义为:

01

1

1()(){[()()]}22t i k

i k i k Y k k f k e

k e k e ωωωωπ

π+∞

--=-∞

='=

Γ=Γ+Γ+Γ∑∑。 用1

1?()()(), 0,1,2,T

t t k t k k Y Y Y Y k T -=+'Γ=--=∑作为()k Γ的估计,又M 是一个截断,满

足,M →∞且0M T →。

再用1

????(0)(1)[()()]1M

k k k k M ='Ω=Γ+-Γ+Γ+∑作为Ω的一致估计。 相应于单变量平稳过程,我们同样定义向量的白噪声过程WN 和向量的鞅差分过程MDS 。 并进一步给出由它们的线性过程组成的其他的向量过程:

(1)VAR 过程,1t t t Y Y φε-=+。这里φ是一个m m ?的矩阵,t ε是向量WN 。平稳性要

求φ的特征值的绝对值小于1。

(1)VMA 过程,1t t t Y εθε-=+。这里θ是一个m m ?的矩阵,t ε是向量WN 。可逆性

要求θ的特征值的绝对值小于1。又,(1)VMA 过程总是平稳的。

(,)VARMA p q 过程,1111t t p t p t t q t q Y Y Y φφεθεθε----=++++++,这里i φ和j θ都

是m m ?的矩阵。又平稳性要求1det()0p p I Z Z φφ---=的复根的模大于1,可逆性要

求1det()0q q I Z Z θθ--

-=的复根的模大于1。

()VMA ∞过程,1

t t j t j j Y μεθε∞

-==++∑,~(0,)t WN εΩ,t EY μ=。简单计算可得t

Y 的协差矩阵0

(), 0,1,2,

j k

j j k k θ

θ∞

+=Γ=

Ω=∑。显然,()VMA ∞过程是平稳的。

类似于单变量的AR 过程,平稳的(1)VAR 过程可以表示成一个()VMA ∞过程,即,

10

j t t t t j j Y Y φεφε∞

--==+=∑。更一般的有,平稳的()VAR p 过程:

11t t p t p t Y B Y B Y με--=++

++。改写成向量算子多项式形式,()t t B L Y με=+。那么,

1

1

()()(1)()t t t Y B L B L L μεψμψε--=+=+。设0

()j j j L L ψψ∞

==∑,则由()()B L L I ψ=可

推得,01

,j

j j k

k k I B ψψψ

-===

∑,1,2,j =。且0,k B k p =>。

V AR 过程与VMA 过程在一定条件下可以互换。由于VMA 过程估计涉及到复杂的非线性运算,在可逆性条件成立下,数值估计我们常把它转化成V AR 过程处理。但在理论分析上,用VMA 过程讨论冲击响应则更方便些,我们又将V AR 过程转换成VMA 过程处理。一般不同时讨论(,)VARMA p q 过程。太麻烦。 注:向量随机过程的沃尔德分解定理仍成立。 一个2维的V AR Matlab 程序。(暂略)

§2 格兰杰因果性和冲击响应

多变量时间序列之间能否构成向量过程首先应当检查它们之间是否存在因果关系。 设t t t X Y Z ??

=

???

。定义,t Z 为t X 的格兰杰原因,指的是,如果已知t X 的过去值,t Z 有助于预测t X 。反之,如果t Z 不是t X 的格兰杰原因,则意味着当已知t X 的过去值,t Z 对

预测t X 没有帮助。

所以,将t X 和t Z 写成它们过去的线性表达式:

11()()t t t t X a L X b L Z η--=++ 11()()t t t t Z c L X d L Z ξ--=++

t Z 不是t X 的格兰杰原因意味着()0b L =;t X 不是t Z 的格兰杰原因意味着()0c L =。所以,

当()0b L =且()0c L =,t X 和t Z 就没有必要放在一起作为向量过程。做法是同时做两个F 检验。如果二个检验都不能拒绝0H ,则t Y 作为向量过程意义不大。

注:格兰杰因果关系不是习惯上认识的因果关系。如学历与工资、吸烟与癌症、施肥与产量,等等。格兰杰因果关系指的是多变量时间过程中时间前后的可预测关系,典型例子是,天气预报是天气的格兰杰原因。

多变量之间的相互联系带来的第一个问题是冲击响应的不唯一性。

考虑一个VMA 过程,1

t t j t j

j Y εθε

-==+

∑,~(0,)t WN εΩ。当t Y 是单变量过程时,冲

击响应指的是

t s

s t

Y θε+?=?。含义是t ε在t 时刻一个单位的增加,再经过s 个时间单位后对过程t Y 的影响。但当t Y 是一个向量过程时,冲击响应

t s

s t

Y θε+?=?是一个m m ?的矩阵。它的内涵就多了。矩阵中的元素kl θ表面上看就是t ε的第l 个分量的单位冲击对t s Y +的第k 个分量的影响。然而,元素kl θ不能像单变量那样表达得那么准确。

因为t Y 的()VMA ∞表达可以有多种不同的外在形式,任给可逆矩阵P ,有:

1t t j t j j Y εθε∞-==+∑1

1

110

[][], , t j t j j t j t t j j j j PP P P P P εθεφηηεφθ∞∞

-----===+===∑∑。

所以,如果Ω不是对角矩阵,那么矩阵s θ就不能反映向量t ε在t 时刻一个单位的冲击在经过s 个时间单位后对过程t s Y +的影响。因为s φ与s θ不能区别。

因此,我们应当限制t Y 的表述方式。比如,使t t E ηη'是对角阵。特别限制使t t E I

ηη'=是单位阵。由矩阵的Choleski 分解定理,知,存在下三角矩阵P 使得PP '=Ω。 于是,做

变换,1t t P ηε-=,则,111111()()t t t t t t

E E P P P E P P P I ηηεεεε------''''''===Ω=。我们

把t Y 的满足t t E I ηη'=的()VMA ∞表述称为它的垂直冲击响应形式。

又当t Y 是一个()VAR p 过程,11t t p t p t Y B Y B Y ε--=+++, t t E εε'=Ω。那么,先做

变换1111111111t t p t p t t p t p t P Y P BY P B Y P P BY P B Y εη----------=+

++=+++,则:

t t E I ηη'=。因为1P

I -≠,变换后t Y 不是一个标准的()VAR p 过程。但这是一个结构式的V AR ,由于P 是下三角的,1P -也是下三角的,故这是一个递归形式的V AR 。于是,可把

()VAR p 转化为()VMA ∞的表达:1

[()]()t j t j j Y B L P t ηφη∞

--===∑,且t t E I ηη'=。

给定冲击,1

(1,0,,0)e =,2(0,1,

,0)e =,,(0,0,

,1)m

e =,那么,k

j e φ'就是j φ的第k 列,(k

j e

φ就是j φ的第k 行)它表示的是每个变量对第k 个分量在j 期前一

个单位冲击产生的响应。所以,系统有2

m 个这样的冲击函数。

下面考虑一个垂直响应形式的V AR 过程的方差分解。它有助于分析产生波动的原因主要是由变量的哪些分量因素决定。对,0

t j t j

j Y μφη

-==+

∑,

设t 后h 步的预测为,1(,,

)t h t t j t h j t h t j h

Y proj Y Y Y φη∞

+-+-+===∑,

t 后h 步的预测误差为,1

h t h j t h j

t h t t h t j d Y Y φη

-++-++==-=

∑,

预测h 步后误差的方差矩阵为,1

var()[()()]h j j

t h t t h t t h t j d E d d φφ-+++=''==

∑。

有意义的是这个总方差成分的分解。

现在考虑每一个分量的预测误差,对第i 个分量而言,1

i m =,有:

,,11

,,,,01

10

i k i k h m

m h i t h j k t h j j k t h j i t h t j k k j Y Y φηφη--++-+-+====-==∑∑∑∑,这里,i k j φ是m m ?矩阵j φ中的第

(,)i k 个元素。所以,第i 个分量的预测误差要受到其他分量的影响。又由于t t E I ηη'=,

所以,,1

2

,,10

var()j i k

m h i t h i t h t k j Y Y φ

-++==-=

∑∑。和式

,1

2

j i k

h j φ

-=∑表示第k 个分量的冲击对第i 个分量在

h 步后造成的预测误差的方差,和式

,1

1

2

10

()j i k

m h h i i j j k j j e e φ

φφ--===''=∑∑∑则表示第i 个分量h 步后预

测误差的总方差。因此,比例值

,,1

1

2

2

10

j j i k

i k

h m h j k j φ

φ

--===∑∑∑表示第k 个分量的冲击占对第i 个分量

预测误差的总方差的比例。此分析方法称为方差分解。直观的讲就是,把j φ的第i 行的平方和做分母,每个分量的平方做分子。方差分解解释了系统中每个分量的随机性冲击造成对其他分量的误差占整体波动的相对重要性,在宏观经济的政策分析中非常有用。 举例(暂略)。

§3 ()VAR p 的极大似然估计

不受限制下的极大似然估计

前述的方差分解等的应用是建立在估计的基础上的,本节讨论()VAR p 的估计。 给()VAR p ,11t t p t p t Y B Y B Y με--=++++,~(0,)t Normal εΩ。如果t Y 平稳,如

何估计1,

,p B B 和,μΩ?这里我们介绍常用的条件极大似然估计方法。

设100p Y Y -+===,且有T 个观测1,

,T Y Y 。我们希望利用这些观测来估计

1,,p B B 和,μΩ。

设1(1,,

,)t t t p X Y Y --'=,1(1)(,,,)p m pm B B μ?+∏=,那么,

11, 1,

,t t p t p t t t Y B Y B Y X t T μεε--=++++=∏+=。用联立的OLS 方法,得:

111

?()()T T

t t t t t t Y X X X -==''∏=∑∑, ??t t t Y X ε

=-∏,且11???T t t t T εε='Ω=∑。 由于假定t ε具有正态性,我们证明,估计??,∏

Ω就是极大似然估计。 首先,给定100p Y Y -+=

==之下,对数极大似然函数为:

11

log (,)(2)log 2(2)log (1()()T

t t t t t L data T T Y X Y X π-='∏Ω=-Ω--∏Ω-∏∑

1?(2)log 2(2)log (2)[()]T T T tr π-=-Ω-ΩΩ∏。

其中,

1

1

1

1

()()[()()]T

T

t

t

t t t t t t t t Y X Y X tr Y X Y X --==''-∏Ω

-∏=Ω-∏-∏∑∑,如果∏用?∏

代,那么,1

1

1

???(

)[()]T

t t t T

tr Ttr T

εε--='=Ω=Ω

Ω

∏∑。所以,给定?∏条件下,对数极大似然函数是一个关于Ω的矩阵连续可微函数。

引理:A ,B 正定,且B 给定。则矩阵函数1()log ()f A A tr A B -=--在A B =时取得最大值。

证明:当B I =时,因为A 正定,存在正交阵Q 使1()n QAQ diag λλ'=,且0i λ>。所

以,1

1

1

1

1

1

()log()(

)(log )n

n i i n

i

f A λλλλλλ==--++

=-+

∑。得FOC :2

110i i λλ-

+=

1 1i i n λ?==。又因为矩阵。例如,m=2,,()f A 是加性可和的,且01i λ<<,

2

1

1

i

i

λλ

-

+

↑;1i λ>,21

1

i

i

λλ

-

+

↓。故1i λ=时取得极大值。

当B I ≠时,由B 正定,且正交变换不改变迹和行列式的值,故可设B 为对角阵。重复上述过程,仍可得A B =时取最大值。

由引理,当?()Ω=Ω

∏时,log (,)L data ∏Ω取得极大值。且有: ??log (,())log(2)log ()22

T T L data m πππ∏Ω

=---Ω。再最大化log L ,求∏。等价于求?()Ω∏最小化。因为1

1?()()()T

t t t t t Y X Y X T ='Ω∏=-∏-∏∑,这是OLS 方法。故得?∏=∏

。所以用OLS 方法所求的∏和Ω的估计就是它的条件极大似然估计。

注:条件极大似然估计的做法是,欲故∏和Ω,先任意固定∏,求得在固定∏条件下Ω的最大值。然后,又在给定Ω的最大值的条件下,反过来求∏的最大值。这种方法也可以倒过来做,先任意固定Ω,求得在固定Ω条件下∏的最大值,然后,又在给定∏的最大值的条件下,反过来求Ω的最大值。至于谁先谁后,要看∏和Ω谁受到约束,受到约束参数的先求。这在后面要讲到的结构性V AR 时的估计是非常有用的。

.?∏

和?Ω的极限分布及检验

下面考虑极大似然估计?∏

和?Ω的的极限分布。

记 12m ππππ'?? ?' ?= ? ?'?? 相应的估计,12m ????π

πππ

'?? ?' ?= ? ?'?? (注:对π按行分块。) 那么,第i 个方程能被写成:

Y it i t it πε'=X + 1,2,...,i m =,

得i π'的OLS : 1

it

1

1

?(Y X )(X X )

T T

i t

t

t

t t π

-=='''=∑∑ 1,2,...,i m =。

1

1

1

?(X X )(X )T T

i i t t t it t t ππε-==''∴-=∑∑

由t Y 的平稳性,t t 1t p X (1,Y ,...,Y )--'=,

令t Q EX X t t '=?,且Q 与t 无关,是(p+1)(p+1)?矩阵。

由()

2i ~0 it N εσ i 1,2,...,m = ,即每一分量有不同的方差,和CLT 可得:

()d

21i ?)N 0 Q i i ππσ--??→,i 1,2,...,m =。 由向量大数定律,p 1

1?X X T t t t Q Q T ='=??→∑,T →∞。 故得: 21i i i 1?~N (X X )T

t t t ππσ-=??' ???

∑ 其中22i 11??T T it t σε==∑ 2it it i t ??Y X επ=- i 1,2,...,m = ∴对V AR 模型可进行类似联立方程模型的关于同方程参数i π的t 检验和F 检验。

如果要对不同的i π进行检验,即跨方程的检验。需要知道π的联合分布。由2

t E ε=Ω

可求得i ?π

和j ?π的极限分布,1

i j ij ??lim Tcov(,)=Q T ππσ-→∞

i,j 1,2,...,m =。 如果令1m (,,)πππ'= (π'按列分块)

1v m Vec()=ππππ?? ?'= ? ??? 1m ???Vec()=?v π

πππ?? ?'= ? ???

注:V ec 称为矩阵按列的拉直算子。 那么,向量v π的联合极限分布就是:

)()d 1v v ?N 0 Q ππ--??→Ω?

1Q -Ω?是Kronecker 乘积

11111121m 1111m1m211Q Q Q Q Q Q Q σσσσσσ-------?? ?

Ω?= ? ?

??

所以,对v π的线性约束条件v R r π=,就有相应的Wald 统计量:

-1

d 12v v q ????()R Q R () T R r R r ππχ-??''-Ω?-??→??

其中,q 是R 的秩(或R 的行数)。从而我们可以进行相应的类似多元线性回归的Wald 检验,或部分参数为0约束下的Lagrange 乘子检验。不再详述。

关于方差矩阵?Ω

的极限分布则要麻烦得多。 因为Ω是对称阵,故只需考虑Ω的下三角阵。

定义Ω的对称拉直算子为Vech, 11m122m2mm Vech()=σσσσσ??

? ? ?

?

?Ω ? ? ? ? ? ???

例如,11111221212222 Vech σσσσσσσ???? ?= ? ??? ???

又定义算子D ,D(Vech() )=Vec()ΩΩ。

意思是将向量Vech()Ω恢复到Ω在拉直算子作用下的向量。

所以D 是一个2

(1)n 2n n +?的矩阵。当11122122σσσσ??Ω= ??? , 那么112122Vech()=σσσ??

?Ω ? ?

??

,则11211222D(Vech() )=σσσσ?? ? ?Ω ? ???

。 所以, 1 0 0 0 1 0D 0 1 00 0 1?? ? ?= ? ?

??。 记 ()1

+

D D D D -''= , (故+D 是投影矩阵) []+

D DVech()Vech()∴Ω=Ω。

当m=2,即111121+21122222D σσσσσσσ??

??

? ? ?= ? ? ? ?????

,所以 11

+22

0 0 0 1D 0 00 0 0 1??? =? ???。 注:+

D 称为D 的广义逆,因为+

D D I =。符号慢慢熟悉,关键是知道定义的意思。

有了上述准备,我们有下面关于?Ω

的极限定理。 定理:

)

()d ++?Vech()Vech()N 0 , 2D ()D 'Ω-Ω??→Ω?Ω

即极大似然估计?Ω

记住。(证明略,参见Hamilton 的时间序列分析)。例如,当m=2时,

11121111++

222221

22 0 0 0 0 0 0 11 2D ()D 20 00 0 00 0 0 1 0 0 1σσσσ'

??

??ΩΩ???? Ω?Ω= ??? ΩΩ?? ??????

221121 2111

2

112111222121222

2212122 22 2 222 + 22 22σσσσσσσσσσσσσσσ??? =? ? ??

这个定理的含义是,i j , k , ?≤≤且1i,j,,k m ≤≤,?Ω

中的元素,ij ?σ和k ?σ的渐近协方差是i jk ik j σσσσ+ ,或

++it jt ij t kt k E()()2D ()D d

εεσεεσ'--??→Ω?Ω t →∞。

由于正态变量t ε的三阶矩为零,即it jt kt E()0εεε=对i ,j ,k ?成立,所以,还可以进

一步证明,极大似然估计?π

和?Ω也是渐近独立的。则?π和?Ω有 联合分布:

))

1d ++? 00Q N ,?00 2D ()D Vech()Vech()v v ππ-?-????Ω??????→? ? ???Ω?ΩΩ

-Ω???????

有了这个联合极限分布,我们可以做许多有意义的假设检验。特别是有关误差方面的

检验。例如,1t ε和2t ε是否相关,检验120σ=,或者1t ε和2t ε是否具有同方差,检验22

1122

σσ=等等。具体问题具体分析。

注:当t ε不具有正态性时,上述结论不一定成立。特别是?Ω的极限分布变得很敏感。但对?π

,只要有4+δ的有限矩,则仍具有渐近正态性。故对π的有关参数检验仍然是有效的。

举例(暂略)

.存在条件异方差情况下的极限分布

V AR 模型中,当序列t ε不再是而是鞅差分时,条件异方差问题就会产生。这是一个普

遍存在的问题,不能回避,如前述的ARCH 过程。在条件异方差情形下,虽然得到的条件

似然估计?π

和?Ω仍是π和Ω的一致估计,但?π和?Ω的精度会降低,

和联合分布要有相应的改变。这会影响到假设检验。讨论如下:

记p

x 1

1S X X Q T T t t t ='=??

→∑,因为t X t ε?是一个鞅差分序列(t t 1E(X F )0t ε-?=),

t 1

X T

t ε=?的极限方差就是()t t 11X X T T t t t εε=''?∑的概率极限。 如果在条件同方差的假设下,即t ? ()t t

E

X t

εε'=Ω,那么,

t ? ()()t t t t E X X E E X X X t t t t εεεε??''''?=???()E X X Q t '=Ω?=Ω?。

()p

t t 1

1X X Q T T t t t εε=''∴???→Ω?∑。 又因为

)1111111222v 1

1

m m 1m 11X X X ??X X X ?T ?X X X T T

t t t t t t T

T t t t t v t t

T T

t t t t t t εππππεππππε-==-==-==????' ?

??? ?

-?? ?????-' ???-==???? ? ?-?? ??? ?

'

? ?????

∑∑∑∑∑∑ 1

11

112111m 1

11X X X T

1X X X T 1X X X T T T t t t t t t T

T t t t t t t T

T t t t t t t εεε-==-==-==??

???' ? ????? ?

?

??? ?'

?? ?=???

? ? ?

??? ?

' ?? ????

??

∑∑∑

注意:i i X X t t t t εε=,i 1,2,...,m =,其中i t ε是一个分量,则上式为:

1

x t 11x S 01X T 0S T t ε-

=-??

?? ?=? ? ? ???? ?

?

()1

x t 1I S X

T t t ε-=?=?????。 )?π

π-的极限方差阵就是: ()()()()1

1x

t t x 1

1

1t t x x 1

1plim I S [X X ]I S T 1plim

S X X S T T t t t T

t t t V

εεεε--=--=''???''=?=∑∑

再用残差?t ε

代替t ε)?v v ππ-估计:

()11t t x x 1

1???V S X X S T T t t t εε--=''=?∑ t t ??Y X t επ=-。 特别,在条件同方差假定下,由()p

t t 1

1X X Q T T t t

t εε=''???→Ω?∑, ()()()11-1

x x plim I S Q I S Q --∴?Ω??=Ω?。

)

?Ω-Ω的极限。注意:t E t

εε'Ω=是一个常数矩阵,与t 无关。在一般的异方差条件下,由p

t t 11??T T t εε='??→Ω∑,仍然有:

)

()t t

1

???Vech()Vech()T

t Vech εε='Ω

-Ω=-Ω

(

)t t P

t

P 1

1

(1)(1)T

T

t t Vech o o εεξ

=='=

-Ω+=+

其中,t t t Vech()ξεε'=-Ω,P (1)o 是一个关于t 的无穷小量。

注意:即使t ε是序列不相关的,如2

~WN(0,)t εσ, t ξ也是一个具有条件异方差的相关序

列,如ARCH 过程。

t 1T

t ξ=的极限方差为 : ()t s 1s 1

1lim E T T T

T t ξξ→∞==Λ=∑∑。 由前述,这是关于t ξ的长期方差。为获得Λ的一致估计,令t

t t ????Vech()ξεε'=-Ω,再用Newey-West 的光滑调整的方法:

k t t-k k 1

1???T T t ξξ=+Γ=∑ k 0,1,2,...=

给定一个充分大的J ,得?Λ

估计是: J

j 1j ????(0)1(j)(j)J 1=????'Λ=Γ+-Γ+Γ ???+?

?∑ 且T →∞,J 0T →。 知?Λ

是Λ的一致估计。 特别,当t ξ是序列不相关时,得??(0)Λ=Γ,即此时Λ是t

ξ的短期方差。 在给定X t ,t ε是条件正态的情况下,?π

和?Ω极限分布仍是独立的。从而可得它们的联合分

布为:

d ? V 0N 0,?0Vech()Vech()v v ππ-???

????→? ????ΛΩ-Ω?????。 又当t ε不具有条件正态性的情况下,则t ε和t ξ是相关的,从而联合分布中的方差矩阵没有准对角的形式,我们需要求得它们间的协差矩阵C 。 因为t ε是鞅差分的,故t s s E(F )0εξ?=,当s

)?π

π-

和)

?Vech()Vech()Ω-Ω的协方差矩阵: ()1x

t t 11C~p lim[I S (X )]T T t t εξ-='??∑()1

t t x 1

1p lim S X T T t t εξ-='=?∑

则C 的一致估计是()

1t t x 1

1???C S X T T t t εξ-='=?∑。 所以,在干扰t ε是鞅差分过程的前提下,估计?π

和?Ω的联合分布就得修正为:

d ?V C N 0, ?C Vech()Vech()v v ππ-???

????→? ????'ΛΩ-Ω?????。 这是一般情况下的联合分布。利用该联合分布适应进行各种一般假定下的关于π和Ω的检

验。如格兰杰因果关系检验,如果误差项关于时间不一定是独立不相关的。

将t Y 分成两部分,1t t 2t Y Y Y ??= ???,相应地,定义1t-11t 1t-P Y X Y ?? ?= ? ???2t-12t 2t-P Y X Y ??

?

= ?

?

??

则V AR 过程可以写成:

1t 1t 1t 11232t 242t 2t Y X A A A Y A X εμμε??????

????=++ ?

? ? ????????????

如果矩阵1234A A A A π??

=

??

?中,2A =0,意味着1t Y 不受2t Y 的影响,即2t Y 不是引致1t Y 的格

兰杰原因。由于?π和?Ω的联合分布可求得,我们可适当选择R ,使得R 0π=当且仅当2A =0。

采用Wald 统计量进行检验。

一个更方便的基于回归方式的极大似然比检验方法是:

1.1t Y 对1μ、1t X 和2t X 回归,得残差1t ?ε和11?Ω 2.1t Y 对1μ、1t X 回归,得残差0t ?ε和 11

?(0)Ω 3.极大似然比统计量为:()

21111q ??LR T log (0)log ~χ=Ω-Ω

在02H :A 0=之下,其中q 是2A 中变量的个数。这要在块约束2A =0之下,求π和Ω的极大似然估计,涉及到麻烦的矩阵代数运算。(略)

π和Ω的在更一般的约束限制下的极大似然估计参见Hamiltion 的书(p373-378)。 注:如果3A =0,则意味着1t Y 不是引致2t Y 的格兰杰原因。因此,1t Y 和2t Y 是各自不相关的向量自回归过程。没有必要将他们放在一起作为向量过程t Y 进行V AR 分析。

.联立式方程模型和结构式SV AR

3.4.1.联立式方程模型(SEM )

经济理论建模中,采用联立式是比较方便的。SEM 的形式是:t t t Y BX e Γ=+,其中,

t Y 是m 1?的,Γ是m m ?可逆的,B 是m k ?的。t Y 称为内生变量,t X 称为先决变量,t

e 称为随机干扰,且t Ee =0,t Var(e )=∑,其中() B Γ∑称为结构式参数,是未知的。这里

t Y Γ是系统变量的现时关系的表达,t BX 是系统变量过去关系和与外生变量关系的表达,t

e 既可以是现时的噪声干扰也可以是现时与过去共同产生的关联干扰。

我们知道,SEM 存在内生性问题,故OLS 方法所得估计不是一致和有效的。另外,还有一个系统可识别的问题。因此,当模型是SEM 形式时,我们需要寻求其他有效的估计方法求得模型的结构参数() B Γ∑。

注:建议读本节时参阅伍德里奇联立方程模型这一章。

首先,对SEM ,t t t Y BX e Γ=+,两边乘上任意可逆矩阵F 得t t t F Y FBX Fe Γ=+,

改写成:***

t t t Y B X e Γ=+, 则与原SEM 有共同的简约式:

t t t Y X πε=+ (*-1*-1-1-1B =F FB=B=πΓΓΓ)

此意味着,Γ和*

Γ以及B 与*

B 不可识别,因为F 有2

m 个元素,(当然还有可逆条件的限制)故我们必须对模型加上2

m 个约束条件模型才能唯一确定。我们知道,在截面数据的回归分析中,一般常采用规范化限制,即规定Γ的主对角线元素ii Y 1= i 1...m =和排除性限制,即依据具体问题,限定Γ和B 中的某些元素为零(参见伍德里奇教本P218),并由此可得到在同方程限制下的系统可识别的阶条件和秩条件。跨方程的限制则更复杂。

但在时间序列的分析中,通常不采用引入工具变量的办法,限制条件通常采用对协方差矩阵1

1

--Ω=Γ∑Γ上的约束和加上规范化限制。

3.4.2.结构式V AR (SV AR )

SEM 的一个特殊形式就是结构式V AR 。即模型中的t X 都是t Y 的滞后变量。 SV AR 的形式是:

0t 1t-1P t-P t A Y A Y A Y e τ=++++

其中,0A 是m m ?的可逆矩阵。不失一般性,由规范化限制,令0A 的主对角线元素为1,且0A I ≠。t e 称为结构性干扰项。这里,SV AR 表达的含义是,现时的内生变量t Y ,

()t 1t mt Y Y ,,Y '=的相互作用(通过0A 来表示),与过去的先决变量的相互作用(用

1P A ,

,A 表示)的内在联系。这些联系是建立在经济理论和假设基础之上的,故0,1P A A ,

,A 有直接的经济解释,参数有确定的经济含义。

SV AR 的简约形式是:-1-1

-1-1

t 001t-10P t-P 0t Y A A A Y A A Y A e τ=++

++ 或

t 1t-1P t-P t Y B Y B Y με=++++ 这就是V AR 的形式。

如果令t-1t t-P 1Y X Y ?? ? ?= ? ???

, )(1P B A A τ=,那么,SV AR 能改写成0t t t A Y BX e =+,这

就是SEM 形式。但SEM 与SV AR 还是有实质性区别,在SEM 中,可以引入外生变量即非

系统变量,而在SV AR 中,只包含有先决变量(内生变量的滞后)。且每个内生变量是相互联系的。在识别问题上,在SEM 中,由于有外生变量可以利用,常采用排除限制,而在SV AR 中,没有外生变量可以利用,常采用对结构性干扰的方差矩阵限制和现时变量间的约束限制。另外,SEM 关注的是模型参数的一致估计,而SV AR 关注的则是结构式干扰方差阵的识别和干扰对系统变量的动态响应。 为要讨论干扰对系统的动态影响(冲击响应),需要将SV AR 转变成结构式滑动平均(SVMA )形式。做法是,将上述SV AR 改写成算子形式:

()()t t L Y e ψμ-= ()p 01p L A A L A L ψ=--

-,

那么,求逆,可得MA 形式:t j t-j

j 0

Y C e

μ∞

==+

∑ 令1

2012()+L C C L C L ψ

-=++

由1

()()1L L ψψ

-=,可推得:1

00C A

-=,

j

1

j j-k k 0k 1

C C A A -==∑ j 1,2,

=且k A =0 k p >。

再对简约式t 1t-1P t-P t Y B Y B Y με=++

++写成MA 式t j t-j j 0

Y D με∞

==+∑,则有:

0D I = k B 0= k p >, j

j j-k k k 1

D D B ==∑ j 1,2,

=。

所以,如果简约式V AR 的参数1p B B 可估,那么j D 可估。又如果0A 可通过限制得到,

那么1

j j 0C D A -=(习题)也是可估的。

令结构式干扰t e 的方差为t Var()e Λ=,可以认为Λ是对角的,即每一个结构方程是不相关的,系统中变量现时的关联通过0A 表达,t e 是独立的现时随机性干扰。由于Λ不再是

单位阵,故{}j C 表达的仅是一个标准差的冲击响应,代之以1

2j C ??

Λ????

则是单位的冲击响应。

又定义1

2

j j C φ=Λ和12

t j C η-

=Λ,则前述有关V AR 的方差分解分析就可以用到SV AR

上。

例:汇率问题

系统选择7G 国家:德国、日本、英国、法国、意大利、加拿大和美国,定义如下7个与汇率有关的变量:

1. R :短期利率;

2. M :货币发行;(0M 或1M ) 3. CPI :消费价格指数; 4. IP :生产价格指数; 5. OPW :世界石油价格; 6. FFR :美国联邦准备金率; 7. ($)E :各国与美元的汇率。

Kim 和Rubini (2000)假定0t t e A ε=中,0A 有排除性约束(即含0的个数)关系:

12151721232434350451 a 0 0 a 0 a a 1 a a 0 0 00 0 1 a a 0 00 0 0 1 a 0 00 0 0 0 1 0 00 0 0 0A =65717273747576 a 1 0a a a a a a 1 ?? ? ? ? ? ? ? ? ? ???

这里排除性约束关系超过

m(m-1)

2

个,故系统会出现过度识别的问题。

下面讨论SV AR 的可识别问题。

首先,t e 有对角型方差阵,这意味着有

m(m-1)

2个协方差为零的限制。加上 0A 主对角线上元素为1的规范限制,所以只需确定m(m-1)

2

个其它限制,系统就是可识别的。一

般这m(m-1)2

个限制通过排除性限制放在0A 上。因为0A 表述的是系统变量当前的相关关

系,所以,如果当某一变量对另一变量的响应是延迟的,那么相应的该变量当前的系数就应当为0,可以分析任意两变量间当前的相关关系。完成这样的分析,可以把它们写成结构式干扰和简约式干扰的相互联系:

t 0t e A ε= t Var(e )=Λ

11

t 00Var()A A ε--'∴=Λ=Ω

因为Ω总是一致可估的,所以,对可识别问题而言,我们仍总是可认为Ω是已知的。所以,

当0A 的

m(m-1)

2

个限制被确定,我们可以通过Ω求得0A 和Λ。特别,当0A 是下三角矩阵时,则实际已给出了0A 的m(m-1)

2

个限制,称为递归的SV AR 形式。递归的SV AR 系统

变量的顺序安排是非常重要的。

又当给出的限制多于

m(m-1)

2

个时,系统则是过度可识别的。0A 和Λ有多组解。过度识别会降低估计的有效性。(限制越多,估计的方差越大;没有限制,方差最小) 举例:(暂略)

SV AR 的完全信息极大似然估计(FIMLE )

因为OLS 方法对SV AR 的参数估计不再具有一致性,本节在OLS 方法基础上介绍完全信息似然估计法(FIMLE )。完全信息的含义是希望把限制条件的信息全部用上。

3.5.1.在协方差限制下的FIMLE 给SV AR : t t 1t-1p t-p t A Y A Y A Y e τ=++++ t

e N(0,)Λ

改写成VAR :t 1t-1p t-p t Y B Y B Y με=++

++ 10A μτ-= 1i 0i B A A -= 1

t 0t A e ε-=

再改写成它的简约式:t t t Y X πε=+ 则()1

1t t

0Y ~N X ,A

A π--'Λ

欲估()0,A ,πΛ,()1p ,B ,

,B πμ=

。则对数似然函数是:

()()()()T

10t t t t t 1

T T 1log ,A ,log 2log Y X Y X 222ππππ-='Λ=-Ω--Ω-∑,

其中11

00A A --'Ω=Λ。

因为识别的限制不在π上,即π没有约束,故最优的π仍是OLS ?π

,不依赖于Ω。故

concentrated 似然函数就是:

()()()

10T T T ??log ,A ,log 2log tr ()222

π

ππ-Λ=-Ω-ΩΩ

这里()()T

t t t t t 1

1???Y X Y X T π

π='Ω=--∑。 注意:这里?Ω

不是真正意义上的MLE ,它仅是右边表达式的一个缩写记号。只有在Ω不受到限制时,?Ω

才是MLE 。

将Ω用11

00A A --'Λ代入,得:

()()

1000

0T T ?log A ,const+T log A log tr A A 22-'Λ=-

Λ-ΛΩ 在恰好可识别的条件下,11

00

A A --'Λ包含有m(m+1)2

个自由变化的参数。又由前述引理,1100????A A --'Ω=Λ时取得极大值,所以,存在唯一解0

?A 和?Λ。

又在过度可识别条件下,最大值*

*

0A ,Λ不满足*1**100????A A --'Ω=Λ,记11ML 00

???=A A --'ΩΛ,则在恰好可识别的条件下有ML ?=ΩΩ

记Ω的对数极大似然值为()Ω,那么,可以证明极大似然比统计量:

2ML p ?LR 2()()~χ??=Ω-Ω?

?,其中P 是过度识别的个数,就是超过m(m-1)

2

个限制的个数。大的统计值导致拒绝0H ,意味着存在有问题的限制设定。

当系统过度识别时,我们选择一个标准,寻求0A 和Λ,使得Ω=11

00A A --'Λ与Ω的

“距离”是最近的。称为最小距离估计。

()()(

)111100000??MD A ,Vech A A W Vech A A ----??'''Λ=Ω-ΛΩ-Λ??

?

?

()0MD A ,Λ的极限分布显然依赖于权矩阵W 的选取。如何选?

))

()1100

??A A N 0,G --'Ω-Ω=Ω-Λ??→ 其中,T

t t t 1

1G p lim T ξξ='=∑ ()t t t Vech ξεε'=-Ω

自然,用()

t

t t ????Vech ξεε'=-Ω,t t t ??Y X επ=-代替,

选择-1

??W=G ,即得到0

?A 和?Λ为加权的OLS 。可以证明,()0MD A ,Λ的极大似然估

计是更有效的估计。进一步有,()d

2

0p

MD A ,χΛ??→。其中p 是超过限制的个数。 注:该结论即使对t ε视非正态和条件异方差时仍成立,但LR 统计量在非正态条件下就不再具有卡方分布的性质,但在有限样本时,MLE 仍然具有优势。

3.5.2.无协方差限制下的FIMLE 虽然SV AR 在识别问题上几乎不考虑有关参数矩阵π的限制。但是如果系统可以从引入足够多的外生变量影响t Y 的动态行为,那么就可以讨论有关π的限制问题。这就是传统的FIMLE 。

考虑:0t t t A Y BX ε=+,这里t X 除了有t Y 的滞后项外,还包含有外生变量t Z ,如果

0A 和B 满足阶条件或秩条件,那么简约式是:

-1-1t 0t 0t t t Y A BX A X επε=+=+

同样,对数似然函数是:

()()()()T

10t t t t t 1

T T 1log L A ,B,data log 2log Y X Y X 222πππ-='Ω=-Ω--Ω-∑

不过这次约束不是在Ω上,而是在π上,于是我们先不考虑Ω(concentrate out ),求

10A B π-=的极小。由前所述,这就是对t t t Y X πε=+带约束回归的?π,再由-10???A B π=,当系统恰好可以识别时,可得唯一的0??A ,B 。当系统过度识别,也可将不受限制的?π和受约束的10

???A B π-=进行似然比检验。也可以构造最小距离的加权估计。

3.5.3.一般限制下的FIMLE

除了0A B 或Ω受限制外SV AR 模型依据实际问题不同还存在许多其它类型的限制。

如交叉方程限制(不同的方程拥有相同的参数)、单方程同参数限制。0A B 和∑的相关联限制,既可以是线性关联,也可以是非线性关联等等。在这些一般性的限制条件下,识别问题先放置不讨论,我们讨论一般限制下的FIMLE 。 设θ是满足一般约束条件下的任意可行的结构参数,且SVR 的简约形式的参数是:

()πθ和()θΩ,这里由于约束是给定的,故()πθ和()θΩ是θ的连续函数。

于是,()t t t Y X πθε=+ ()t t E εεθ'=Ω,所以,极大似然函数很容易写成θ的函数

的形式:()()()()()()()()T 1

t t t t t 1

T T 1log 2log Y X Y X 222θπθπθθπθ-='=-Ω--Ω-∑

θ的最小距离估计?θ。

设?π

和?Ω是π和Ω在不受限制情形下的OLS 估计。 记??Vec()v ππ=,v ??s Vec()=Ω以及()Vec()v v ππθπ==,()v v

s s Vec()θ==Ω。在t ε服从正态分布的假定下,有:

()()()0d 0v v ?N 0,?s -s v v ππθθ?-???→????

V C C V ???=??'??

设??

是?的一致估计,那么最小距离估计θ是: ()()()()1v v v v ???min ??s -s s -s v v v v θπ

πθππθθθ-'--????? ? ? ? ?????

又定义,()()00v /G s /v πθθθθ??

'??

?= ?'????

, 则真值0

θ的最小距离估计MD

?θ之间有极限分布:

)

()()

1d 01MD ?N 0,G G θθ--'-??→?

注:在非正态条件的情形下,最小距离估计比ML 更有效。

具体的实践一个SV AR 模型,对本节的体会会更深。

状态空间表示与卡尔曼滤波

一个随机向量过程除了V AR 的表述形式外,还可以写成状态空间模型的表达方式。状态空间表示在随机控制问题中应用更为方便。

设t Z 为状态变量,t Y 为可观测变量,模型假定:

1t t t t Z F Z u +=+ ~(0,)t WN μμΩ t t t t Y H Z v =+ ~(0,)t v WN νΩ

其中t F 和t H 是非随机的,或是先决的,特别t F =F , t H =H 与时间无关,对t ?成立。 适当选择t F 和t H ,我们能得到各种有意义的向量过程。

例1. 把()VAR p 写成状态空间模型:

11t t p t p t Y AY A Y με--=++

++,定义:

111t t t t p Y Z Y Y --+?? ? ? ?= ? ? ??? 111 0 0 0 0 0 0 0 0 0p p m m A A A F I I μ-?? ?

?

?= ? ? ?

?? 1(0,,0

0)t t με+'=;则易验证:

1t t t Z FZ μ+=+,(0,,0,

,0)t t m t Y HZ I Z ==。这里F 和H 都是已知时间不变的常数矩阵。

特别,(1)VAR ,1t t t Y AY ε-=+,就是1t t t Z AZ ε-=+。 及t t Y Z =。

例2.(1)MA 过程,1t t t Y εθε-=+。定义:

1t t t Z εε-??= ???,那么100100t t t Z Z ε-????

=+ ? ?????;于是,(1,)t t Y Z θ=。 也可令,t t t Y Z θε??= ???

,(1,0)t t Y Z =,那么,01100t t t Z Z εθ????=+ ? ?????。

还可令,t t Z θε=,t t t Y Z ε=+,则10t t t Z Z θε-=+。所以表达不唯一。

可以证明任何的(,)ARMR p q 和(,)VARMR p q 都能表示成状态空间模型的形式。(习题)

例3。随机游动加噪声:

t t t Y με=+,1t t t μμη-=+;2~(0,)t WN εεσ ,2

~(0,)t WN ηησ,且t ε与t η独立。 如果20ησ=,则t μμ=就是t Y 的期望。对非零相对于2

εσ较小的2

ησ,我们可以认为t Y 有一

个小小波动的期望,如果2

ησ很大,那么随机游动的成分就占统治地位。把t Y 看成是一个有趋势的随机游动过程更合适。该模型的一个特征是t t Z μ=,这是一个含有不可观测成分的模型。

例4.变化均值和变化斜率的模型:

t t t Y με=+,11t t t t μμβη--=++,1t t t ββξ-=+。如果2

0ησ=且20ξσ=,那么t β就是一个常数,且0t t μμβ=+。显见,β表示了斜率,0μ表示了截距。 所以,2

ξσ非零但很小,

模型就有一个缓慢变化的斜率,写成状态空间表示为:

t t t Z μβ??= ??? ,11101t t t t Z Z ηξ-????=+ ? ?????

, 且(1,0)t t t Y Z ε=+。

例5.参数随时间变化的回归模型

基于贝叶斯向量自回归方法的钢材消费量预测

基于贝叶斯向量自回归方法的钢材消费量预测? □ 湘潭大学数学与计算机科学学院 黄 山 上海期货交易所博士后科研工作站 陈 晔 北京科技大学经济管理学院 汤乐明 摘要:针对我国工业化和城市化进程快速发展、钢材表观消费量持续上升的客观现实,本文构建了包括GDP、城镇固定资产投资、广义货币供应量和钢材表观消费量的贝叶斯向量自回归钢材表观消费量预测模型。实证结果表明,该模型能较好地预测我国月度钢材表观消费量,其短期预测能力优于常用的ARIMA模型。同时,GDP增速的上涨对未来我国钢材表观消费量将产生较大的持久拉动作用;广义货币供应量增速的上涨会对其产生短暂的拉动作用;固定资产投资增速的上涨对其产生的拉动作用将保持半年左右。 关键词:钢材表观消费量贝叶斯向量自回归预测 一、引言 钢铁是国民经济的基础材料,是实现工业化和城市化的战略资源。我国正处在工业化、城市化加快发展的阶段,在未来相当长时期内基础产业与基础设施、制造业、房地产业的发展对钢材的需求将维持较高水平。我国是年产量占全球1/3的最大钢铁生产国,但是产业集中度低、能物耗高、产品结构调整缓慢等问题比较突出,同时,近年来钢铁产能增速高于需求增速造成的产能阶段性过剩,以及产品结构调整相对滞后造成的行业周期性波动显著等情况也比较严重。 钢材消费量预测是一项重要的基础性工作,它既有助于研究我国国民经济和社会发展对钢材的真实需求,为淘汰落后产能、遏制盲目投资等产业政策的制定和调整提供决策依据,又有助于我国钢铁企业根据宏观经济变化情况,提前安排生产、调整产量和产品结构,降低市场需求变化对企业经营的冲击。同时,针对钢材消费量这一行业基础指标的预测,也有助于银行、证券、期货等金融企业研判我国钢铁行业未来发展趋势,为识别钢铁行业的系统性风险提供数据支撑,从 ?基金项目:中国博士后科学基金面上资助第四十四批博士后科学基金(资助号20080440616)。

试验一异方差的检验与修正-时间序列分析

案例三 ARIMA 模型的建立 一、实验目的 了解ARIMA 模型的特点和建模过程,了解AR ,MA 和ARIMA 模型三者之间的区别与联系,掌握如何利用自相关系数和偏自相关系数对ARIMA 模型进行识别,利用最小二乘法等方法对ARIMA 模型进行估计,利用信息准则对估计的ARIMA 模型进行诊断,以及如何利用ARIMA 模型进行预测。掌握在实证研究如何运用Eviews 软件进行ARIMA 模型的识别、诊断、估计和预测。 二、基本概念 所谓ARIMA 模型,是指将非平稳时间序列转化为平稳时间序列,然后将平稳的时间序列建立ARMA 模型。ARIMA 模型根据原序列是否平稳以及回归中所含部分的不同,包括移动平均过程(MA )、自回归过程(AR )、自回归移动平均过程(ARMA )以及ARIMA 过程。 在ARIMA 模型的识别过程中,我们主要用到两个工具:自相关函数ACF ,偏自相关函数PACF 以及它们各自的相关图。对于一个序列{}t X 而言,它的第j 阶自相关系数j ρ为它的j 阶自协方差除以方差,即j ρ=j 0γγ ,它是关于滞后期j 的函数,因此我们也称之为自相关函数,通常记ACF(j )。偏自相关函数PACF(j )度量了消除中间滞后项影响后两滞后变量之间的相关关系。 三、实验内容及要求 1、实验内容: (1)根据时序图的形状,采用相应的方法把非平稳序列平稳化; (2)对经过平稳化后的1950年到2007年中国进出口贸易总额数据运用经典B-J 方法论建立合适的ARIMA (,,p d q )模型,并能够利用此模型进行进出口贸易总额的预测。 2、实验要求: (1)深刻理解非平稳时间序列的概念和ARIMA 模型的建模思想; (2)如何通过观察自相关,偏自相关系数及其图形,利用最小二乘法,以及信息准则建立合适的ARIMA 模型;如何利用ARIMA 模型进行预测; (3)熟练掌握相关Eviews 操作,读懂模型参数估计结果。 四、实验指导 1、模型识别 (1)数据录入 打开Eviews 软件,选择“File”菜单中的“New --Workfile”选项,在“Workfile structure type ”栏选择“Dated –regular frequency ”,在“Date specification ”栏中分别选择“Annual ”(年数据) ,分别在起始年输入1950,终止年输入2007,点击ok ,见图3-1,这样就建立了一个工作文件。点击File/Import ,找到相应的Excel 数据集,导入即可。

【原创】R语言时变参数VAR随机模型数据分析报告论文(代码数据)

咨询QQ:3025393450 有问题百度搜索“”就可以了 欢迎登陆官网:https://www.sodocs.net/doc/e46744588.html,/datablog R语言时变参数VAR随机模型数据分析报告 来源:大数据部落 摘要 时变参数VAR随机模型是一种新的计量经济学方法,用于在具有随机波动率和相关状态转移的时变参数向量自回归(VAR)的大模型空间中执行随机模型规范搜索(SMSS)。这是由于过度拟合的关注以及这些高度参数化模型中通常不精确的推断所致。对于每个VAR系数,这种新方法自动确定它是恒定的还是随时间变化的。此外,它可用于将不受限制的时变参数VAR收缩到固定VAR因此,提供了一种简单的方法(概率地)在时变参数模型中施加平稳性。我们通过局部应用证明了该方法的有效性,我们在非常低的利率期间调查结构性冲击对政府支出对美国税收和国内生产总值(GDP)的动态影响。 引言 向量自回归(VAR)广泛用于宏观经济学中的建模和预测。特别是,VAR已被用于理解宏观经济变量之间的相互作用,通常通过估计脉冲响应函数来表征各种结构性冲击对关键经济变量的影响。 状态空间模型

咨询QQ:3025393450 有问题百度搜索“”就可以了 欢迎登陆官网:https://www.sodocs.net/doc/e46744588.html,/datablog 允许时间序列模型中的时变系数的流行方法是通过状态空间规范。具体而言,假设? 是? 对因变量的观测的×1向量,X 是? ×上解释变量的观测矩阵,β是状 态的×1向量。然后可以将通用状态空间模型编写为(1) (2) 这种一般的状态空间框架涵盖了宏观经济学中广泛使用的各种时变参数(TVP)回归模型,并已成为分析宏观经济数据的标准框架。然而,最近的研究引起了人们的担忧,过度拟合可能是这些高度参数化模型的问题。此外,这些高维模型通常给出不精确的估计,使任何形式的推理更加困难。受这些问题的影响,研究人员可能希望有一个更简约的规范,以减少过度参数化的潜在问题,同时保持状态空间框架的灵活性,允许系数的时间变化。例如,人们可能希望拥有一个具有时不变系数的默认模型,但是当有强有力的时间变化证据时,这些系数中的每一个都可以转换为随时间变化的。通过这种方式,人们可以保持简洁的规范,从而实现更精确的估计,同时最大限度地降低模型错误指定的风险。 结果 我们实施了Gibbs采样器,以获得VECM模型中参数的25,000个后抽取。 BKK采用类似的“标准化”系列的方法,只影响先前的规范,只要在后验计算中适当考虑转换即可。或者,可以使用原始系列并使用训练样本来指定先验,虽然这在操作上更加复杂。值得注意的是,我们在SMSS和TVP-SVECM规范中应用了相同的标准化。 我们的算法实现也使用了三个广义Gibbs步骤算法的稳定性,通过跟踪所有抽样变量的低效率因素和复制模拟运行多次验证。 SMSS产生的IRF与对角线转换协方差的比较,具有完全转换协方差的SMSS和基准TVP-SVECM在2000Q1的支出减少1%之后的20个季度。

时间序列分析——最经典的

【时间简“识”】 说明:本文摘自于经管之家(原人大经济论坛) 作者:胖胖小龟宝。原版请到经管之家(原人大经济论坛) 查看。 1.带你看看时间序列的简史 现在前面的话—— 时间序列作为一门统计学,经济学相结合的学科,在我们论坛,特别是五区计量经济学中是热门讨论话题。本月楼主推出新的系列专题——时间简“识”,旨在对时间序列方面进行知识扫盲(扫盲,仅仅扫盲而已……),同时也想借此吸引一些专业人士能够协助讨论和帮助大家解疑答惑。 在统计学的必修课里,时间序列估计是遭吐槽的重点科目了,其理论性强,虽然应用领域十分广泛,但往往在实际操作中会遇到很多“令人发指”的问题。所以本帖就从基础开始,为大家絮叨絮叨那些关于“时间”的故事! Long long ago,有多long估计大概7000年前吧,古埃及人把尼罗河涨落的情况逐天记录下来,这一记录也就被我们称作所谓的时间序列。记录这个河流涨落有什么意义当时的人们并不是随手一记,而是对这个时间序列进行了长期的观察。结果,他们发现尼罗河的涨落非常有规律。掌握了尼罗河泛滥的规律,这帮助了古埃及对农耕和居所有了规划,使农业迅速发展,从而创建了埃及灿烂的史前文明。

好~~从上面那个故事我们看到了 1、时间序列的定义——按照时间的顺序把随机事件变化发展的过程记录下来就构成了一个时间序列。 2、时间序列分析的定义——对时间序列进行观察、研究,找寻它变化发展的规律,预测它将来的走势就是时间序列分析。 既然有了序列,那怎么拿来分析呢 时间序列分析方法分为描述性时序分析和统计时序分析。 1、描述性时序分析——通过直观的数据比较或绘图观测,寻找序列中蕴含的发展规律,这种分析方法就称为描述性时序分析 描述性时序分析方法具有操作简单、直观有效的特点,它通常是人们进行统计时序分析的第一步。 2、统计时序分析 (1)频域分析方法 原理:假设任何一种无趋势的时间序列都可以分解成若干不同频率的周期波动 发展过程: 1)早期的频域分析方法借助富里埃分析从频率的角度揭示时间序列的规律 2)后来借助了傅里叶变换,用正弦、余弦项之和来逼近某个函数 3)20世纪60年代,引入最大熵谱估计理论,进入现代谱分析阶段 特点:非常有用的动态数据分析方法,但是由于分析方法复杂,结果抽象,有一定的使用局限性 (2)时域分析方法

BVAR模型简介

贝叶斯向量自回归模型(BV AR )简介 一、贝叶斯方法原理简介 §1 贝叶斯方法起源 英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。 §2 贝叶斯定理及其特点 记),(θy p 为一个随机观察向量y 的联合概率密度函数,θ为一个参数向量,它也看成是随机的。根据通常对概率密度的运算有: )()|()()|(),(y y θθθy θy p p p p p == 因而 ) ()|()()|(y θy θy θp p p p = 其中0)(≠y p 。将上式表达如下: (|)()(|)p p p ∝∝?θy θy θ先验概率密度似然函数 其中∝表示成比例,(|)p θy 是在给定样本信息y 后,参数向量θ的后验概率密度,()p θ是参数向量θ的先验概率密度,(|)p y θ看作θ的函数,就是熟知的似然函数。式将所有的先验的、样本的信息融入其中,先验信息通过先验密度进入后验密度,而所有的样本信息通过似然函数进入。 贝叶斯推断的一般模式:先验信息⊕样本信息?后验信息(见图1)

图 1 贝叶斯推断的基本模式 贝叶斯学派认为,先验分布反映了实验前对总体分布的认识,在获得样本信息后,人们对这个认识有了改变,其结果就反映在后验分布中,即后验分布综合了参数先验分布和样本信息。由此可以看出,频率学派统计推断是“从无到有”的过程:在实验前,关于未知参数的情况是一无所知,而试验后则有些了解,但对了解多少并无普遍的表述方法,在实践中有赖于所使用的统计量的针对性。贝叶斯推断则不然,它是一个“从有到有”的过程,且结果清楚自然,符合人们的思维习惯。根据所获得的信息修正以前的看法,不一定从零开始。从本质上说,贝叶斯推断方法概括了一般人的学习过程。 贝叶斯方法只能基于参数的后验分布来分析问题。也就是说,在获得后验分布后,如果把样本、原来的统计模型(包括总体分布和先验分布)都丢掉,一点也不会影响将来的统计推断问题,凡是符合这个准则的推断就是贝叶斯推断。据此,频率学派中的矩估计、显著性统计检验和置信区间估计都不属于贝叶斯推断的范畴,但MLE估计则可视为均匀先验分布下的贝叶斯估计。因此,作为频率学派中一个很重要的极大似然估计,不过是在一种很特殊的先验分布下的贝叶斯估计而已。 §3 先验分布理论 式中() pθ表示的先验概率密度代表了我们对于一个模型中参数的先验信息,是一个事前的自觉的认识(分“基于数据”的先验和“非基于数据”的先验),即在贝叶斯方法中,关于模型参数的先验信息。先验分布是贝叶斯推断理论的基础和出发点,它大体上可以分为扩散先验分布和共轭先验分布两大类。 §扩散先验分布 位置参数的扩散先验分布 如果随机变量Y的分布密度函数为(), f yθθ -∈Θ,则称θ为位置参数。假设θ没有信息可以被利用,现在要确定θ的先验分布。

从大数据到大分析

从大数据到大分析 From Big Data to HPA
Dr. Sunstone Zhang (张磊博士) Principal Consultant, SAS China Sunstone.Zhang@https://www.sodocs.net/doc/e46744588.html,
Copyright ? 2012, SAS Institute Inc. All rights reserved.

?
大数据与高性能分析 电信网络分析与优化 成功案例
议程
? ?
Copyright ? 2012, SAS Institute Inc. All rights reserved.

您是否曾经……
? 分析受到数据量的限制,不能充分利用所有数据? ? 受限于分析能力而无法获得复杂问题的答案? ? 因为时限要求而不得不采用某项简单的建模技术? ? 对模型精度进行妥协,因为没有足够的时间来执行多次迭 代?
Copyright ? 2012, SAS Institute Inc. All rights reserved.

大数据时代已经来临
VOLUME VARIETY
数据量
数据量 多样性 价值
VELOCITY 增长速度 VALUE
现在
未来
Copyright ? 2012, SAS Institute Inc. All rights reserved.

SAS? 高性能 分析 大数据上的大分析
Copyright ? 2012, SAS Institute Inc. All rights reserved.

多元统计分析课后习题解答_第四章知识讲解

第四章判别分析 4.1 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X=和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时, D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空 间R p 的k 个子集,如果它们互不相交,且它们的和集为,则称为的一 个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划 分”,这个“划分”就构成了一个判别规则。 4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X , 要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2 (X ,G 2),则 X ,D 2 (X ,G 1) D 2(X ,G 2) X ,D 2(X ,G 1)> D 2 (X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ?? ?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

第十三章 时间序列回归

第十三章 时间序列回归 本章讨论含有ARMA 项的单方程回归方法,这种方法对于分析时间序列数据(检验序列相关性,估计ARMA 模型,使用分布多重滞后,非平稳时间序列的单位根检验)是很重要的。 §13.1序列相关理论 时间序列回归中的一个普遍现象是:残差和它自己的滞后值有关。这种相关性违背了回归理论的标准假设:干扰项互不相关。与序列相关相联系的主要问题有: 一、一阶自回归模型 最简单且最常用的序列相关模型是一阶自回归AR(1)模型 定义如下:t t t u x y +'=β t t t u u ερ+=-1 参数ρ是一阶序列相关系数,实际上,AR(1)模型是将以前观测值的残差包含到现观测值的回归模型中。 二、高阶自回归模型: 更为一般,带有p 阶自回归的回归,AR(p)误差由下式给出: t t t u x y +'=β t p t p t t t u u u u ερρρ++++=--- 2211 AR(p)的自回归将渐渐衰减至零,同时高于p 阶的偏自相关也是零。 §13.2 检验序列相关 在使用估计方程进行统计推断(如假设检验和预测)之前,一般应检验残差(序列相关的证据),Eviews 提供了几种方法来检验当前序列相关。 1.Dubin-Waston 统计量 D-W 统计量用于检验一阶序列相关。 2.相关图和Q-统计量 计算相关图和Q-统计量的细节见第七章 3.序列相关LM 检验 检验的原假设是:至给定阶数,残差不具有序列相关。 §13.3 估计含AR 项的模型 随机误差项存在序列相关说明模型定义存在严重问题。特别的,应注意使用OLS 得出的过分限制的定义。有时,在回归方程中添加不应被排除的变量会消除序列相关。 1.一阶序列相关 在EViews 中估计一AR(1)模型,选择Quick/Estimate Equation 打开一个方程,用列表法输入方程后,最后将AR(1)项加到列表中。例如:估计一个带有AR(1)误差的简单消费函数 t t t u GDP c c CS ++=21 t t t u u ερ+=-1 应定义方程为: cs c gdp ar(1) 2.高阶序列相关 估计高阶AR 模型稍稍复杂些,为估计AR(k ),应输入模型的定义和所包括的各阶AR 值。如果想估计一个有1-5阶自回归的模型 t t t u GDP c c CS ++=21 t t t t u u u ερρ+++=--5511 应输入: cs c gdp ar(1) ar(2) ar(3) ar(4) ar(5) 3.存在序列相关的非线性模型 EViews 可以估计带有AR 误差项的非线性回归模型。例如: 估计如下的带有附加AR(2)误差的非线性方程 t c t t u GDP c CS ++=21

资料:向量自回归模型__详解

第十四章 向量自回归模型 本章导读:前一章介绍了时间序列回归,其基本知识为本章的学习奠定了基础。这一章将要介绍的是时间序列回归中最常用的向量自回归,它独有的建模优势赢得了人们的广泛喜爱。 14.1 VAR 模型的背景及数学表达式 VAR 模型主要应用于宏观经济学。在VAR 模型产生之初,很多研究者(例如Sims ,1980 和Litterman ,1976;1986)就认为,VAR 在预测方面要强于结构方程模型。VAR 模型产生的原因在于20世纪60年代一大堆的结构方程并不能让人得到理想的结果,而VAR 模型的预测却比结构方程更胜一筹,主要原因在于大型结构方程的方法论存在着更根本的问题,并且结构方程受到最具挑战性的批判来自卢卡斯批判,卢卡斯指出,结构方程组中的“决策规则”参数,在经济政策改变时无法保持稳定,即使这些规则本身也是正确的。因此宏观经济建模的方程组在范式上显然具有根本缺陷。VAR 模型的研究用微观化基础重新表述宏观经济模型的基本方程,与此同时,对经济变量之间的相互关系要求也并不是很高。 我们知道经济理论往往是不能为经济变量之间的动态关系提供一个严格的定义,这使得在解释变量过程中出现一个问题,那就是内生变量究竟是出现在方程的哪边。这个问题使得估计和推理变得复杂和晦涩。为了解决这一问题,向量自回归的方法出现了,它是由sim 于1980年提出来的,自回归模型采用的是多方程联立的形式,它并不以经济理论为基础,在模型的每一个方程中,内生变量对模型的全部内生变量的滞后项进行回归,从而估计全部内生变量的动态关系。 向量自回归通常用来预测相互联系的时间序列系统以及分析随机扰动项对变量系统的动态影响。向量自回归的原理在于把每个内生变量作为系统中所有内生变量滞后值的函数来构造模型,从而避开了结构建模方法中需要对系统每个内生变量关于所有内生变量滞后值的建模问题。一般的VAR(P)模型的数学表达式是。 11011{,}t t p t p t t q t q t y v A y A y B x B x B x t μ----=++???++++???++∈-∞+∞ (14.1) 其中1t t Kt y y y =??????()表示K ×1阶随机向量, 1A 到p A 表示K ×K 阶的参数矩阵, t x 表示M ×1阶外生变量向量, 1B 到q B 是K ×M 阶待估系数矩阵, 并且假定t μ是白噪声序列;即, ()0,t E μ= '(),t t E μμ=∑并且'()0,t s E μμ=)t s ≠(。 在实际应用过程之中,由于滞后期p 和q 足够大,因此它能够完整的反映所构造模型的 全部动态关系信息。但这有一个严重的缺陷在于,如果滞后期越长,那么所要估计的参数就会变得越多,自由度就会减少。因此需要在自由度与滞后期之间找出一种均衡状态。一般的准则就是取许瓦咨准则(SC )和池此信息准则(AIC)两者统计量最小时的滞后期,其统计量见式(14-2)与式(14-3)。 2/2/AIC l n k n =-+ (14.2)

R语言时间序列函数整理_光环大数据培训

https://www.sodocs.net/doc/e46744588.html, R语言时间序列函数整理_光环大数据培训 【包】 library(zoo) #时间格式预处理 library(xts) #同上 library(timeSeires) #同上 library(urca) #进行单位根检验 library(tseries) #arma模型 library(fUnitRoots) #进行单位根检验 library(FinTS) #调用其中的自回归检验函数 library(fGarch) #GARCH模型 library(nlme) #调用其中的gls函数 library(fArma) #进行拟合和检验 【基本函数】 数学函数 abs,sqrt:绝对值,平方根 log, log10, log2 , exp:对数与指数函数 sin,cos,tan,asin,acos,atan,atan2:三角函数 sinh,cosh,tanh,asinh,acosh,atanh:双曲函数 简单统计量 sum, mean, var, sd, min, max, range, median, IQR(四分位间距)等为统计量,sort,order,rank与排序有关,其它还有ave,fivenum,mad,quantile,stem等。

https://www.sodocs.net/doc/e46744588.html, #具体说明见文档1 #转成时间序列类型 x = rnorm(2) charvec = c(“2010-01-01”,”2010-02-01”) zoo(x,as.Date(charvec)) #包zoo xts(x, as.Date(charvec)) #包xts timeSeries(x,as.Date(charvec)) #包timeSeries #规则的时间序列,数据在规定的时间间隔内出现 tm = ts(x,start = c(2010,1), frequency=12 ) #12为按月份,4为按季度,1为按年度 zm = zooreg(x,start = c(2010,1), frequency=12 ) #包zoo xm = as.xts(tm) #包xts sm = as.timeSeries(tm) #包timeSeries #判断是否为规则时间序列 is.regular(x) #排序 zoo()和xts()会强制变换为正序(按照时间名称) timeSeries不会强制排序;其结果可以根据sort函数排序,也可以采用rev()函数进行逆序;参数recordIDs,可以给每个元素(行)标记一个ID,从而可以找回原来的顺序 #预设的时间有重复的时间点时

向量自回归模型(VAR)与向量误差修正模型(vec)

向量自回归模型(VAR )与 向量误差修正模型(VEC ) §7.1 向量自回归模型(VAR(p)) 传统的经济计量学联立方程模型建摸方法, 是以经济理论为基础来描述经济变量之间的结构关系,采 用的是结构方法来建立模型,所建立的就是联立方程结构式模型。这种模型其优点是具有明显的经济理论含义。但是,从计量经济学建摸理论而言,也存在许多弊端而受到质疑。 一是在模型建立之处,首先需要明确哪些是内生变量,哪些是外生变量,尽管可以根据研究问题和目的来确定,但有时也并不容易; 二是所设定的模型,每一结构方程都含有内生多个内生变量,当将某一内生变量作为被解释变量出现在方程左边时,右边将会含有多个其余内生变量,由于它们与扰动项相关, 从而使模型参数估计变得十分复杂,在未估计前,就需要讨论识别性; 三是结构式模型不能很好地反映出变量间的动态联系。 为了解决这一问题,经过一些现代计量经济学家门的研究,就给出了一种非结构性建立经济变量之间关系模型的方法,这就是所谓向量自回归模型(Vector Autoregression Model )。VAR 模型最早是1980年,由C.A.Sims 引入到计量经济学中,它实质上是多元AR 模型在经济计量学中的应用, VAR 模型不是以经济理论为基础描述经济变量之间的结构关系来建立模型的,它是以数据统计性质为基础,把某一经济系统中的每一变量作为所有变量的滞后变量的函数来构造模型的。它是一种处理具有相关关系的多变量的分析和预测、随机扰动对系统的动态冲击的最方便的方法。而且在一定条件下,多元MA 模型、ARMA 模型,也可化为VAR 模型来处理,这为研究具有相关关系的多变量的分析和预测带来很大方便。 7.1.1 VAR 模型的一般形式 1、非限制性VAR 模型(高斯VAR 模型),或简化式非限制性VAR 模型 设12(...)t t t kt y y y y '=为一k 维随机时间序列,p 为滞后阶数,12(...)t t t kt u u u u '=为一k 维随机扰动的时间序列,且有结构关系

现代数据挖掘与传统数据挖掘的比较

现代数据挖掘与传统数据挖掘的比较 1、相关概念及关系 数据挖掘(Data Mining,DM)又称数据库中的知识发现(Knowledge Discover in Database,KDD),是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等。 现代数据挖掘技术是指20世纪80年代末所出现的数据挖掘技术,这些数据挖掘技术大多可以从数据仓库中提取人们所感兴趣的、事先不知的、隐含在数据中的有用的信息和知识,并将这些知识用概念、规则、规律和模式等方式展示给用户,使用户得以解决信息时代中的“数量过量,信息不足”的矛盾。现代数据挖掘技术应该是从数据库中知识发现技术(KDD)研究的起步,知识发现技术是随着数据库开始存储了大量业务数据,并采用机器学习技术分析这些数据、挖掘这些数据背后的知识而发展起来的。随着 KDD 研究的进展,越来越多的研究人员进入 KDD 的研究领域。现代数据挖掘包括知识发现和数据挖掘。 知识发现是用一种简洁的方式从大量数据中抽取信息的一种技术,所抽取的信息是隐含的、未知的,并且具有潜在的应用价值。知识发现可以看成是一种有价值信息的搜寻过程,它不必预先假设或提出问题,仍然能够找到那些非预期的令人关注的信息,这些信息表示了不同研究对象之间的关系和模式。它还能通过全面的信息发现与分析,找到有价值的商业规则。 数据挖掘是 KDD 最核心的部分,是采用机器学习等方法进行知识挖掘的阶段。数据挖掘算法的好坏将直接影响到所发现的知识的质量。一般在科学领域中称为 KDD,而在工程应用领域则称为数据挖掘。 2、 现代数据挖掘与传统数据挖掘的比较 1、从研究内容来看:随着DMKD研究逐步深入,数据挖掘和知识发现的研究已经形成了三根强大的技术支柱,即数据库、人工智能和数理统计。目前,DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。 数据挖掘所发现的知识最常见的有以下4类:①广义知识

向量自回归模型简介

一、Var模型的基本介绍 向量自回归模型(Vector Autoregressive Models,VAR)最早由Sims(1980)提出。他认为,如果模型设定和识别不准确,那么模型就不能准确地反应经济系统的动态特性,也不能很好地进行动态模拟和政策分析。因此,VAR模型通常使用最少的经济理论假设,以时间序列的统计特征为出发点,通常对经济系统进行冲击响应(Impulse-Response)分析来了解经济系统的动态特性和冲击传导机制。由于VAR模型侧重于描述经济的动态特性,因而它不仅可以验证各种经济理论假设,而且在政策模拟上具有优越性。 VAR模型主要用于替代联立方程结构模型,提高经济预测的准确性。用联立方程模型研究宏观经济问题,是当前世界各国经济学者的一种通用做法,它把理论分析和实际统计数据结合起来,利用现行回归或非线性回归分析方法,确定经济变量之间的结构关系,构成一个由若干方程组成的模型系统。联立方程模型适合于经济结构分析,但不适合于预测:联立方程模型的预测结果的精度不高,其主要原因是需要对外生变量本身进行预测。与联立方程模型不同,VAR模型相对简洁明了,特别适合于中短期预测。目前,VAR模型在宏观经济和商业金融预测等领域获得了广泛应用。 二、VAR模型的设定 VAR模型描述在同一样本期间内的n个变量(内生变量)可以作为它们过去值的线性函数。 一个VAR(p)模型可以写成为: 或: 其中:c是n × 1常数向量,A i是n × n矩阵,p是滞后阶数,A(L)是滞后多项式矩阵,L是滞后算子。是n × 1误差向量,满足: 1. —误差项的均值为0 2. Ω—误差项的协方差矩阵为Ω(一个n × 'n正定矩阵) 3.(对于所有不为0的p都满足)—误差项不存在自相关 虽然从模型形式上来看比较简单,但在利用VAR模型进行分析之前,对模型的设定还需要意以下两点: 一是变量的选择。理论上来讲,既然VAR模型把经济作为一个系统来研究,那么模型中

横截面大数据、时间序列大数据、面板大数据

横截面数据、时间序列数据、面板数据 横截面数据:(时间固定) 横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。横截面数据是按照统计单位排列的。因此,横截面数据不要求统计对象及其范围相同,但要求统计的时间相同。也就是说必须是同一时间截面上的数据。 如: 时间序列数据:(横坐标为t,纵坐标为y) 在不同时间点上收集到的数据,这类数据反映某一事物、现象等随时间的变化状态或程度。 如: 面板数据:(横坐标为t,斜坐标为y,纵坐标为z) 是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排

在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。 举例: 如:城市名:北京、上海、重庆、天津的GDP分别为10、11、9、8(单位亿元)。这就是截面数据,在一个时间点处切开,看各个城市的不同就是截面数据。 如:2000、2001、2002、2003、2004各年的北京市GDP分别为8、9、10、11、12(单位亿元)。这就是时间序列,选一个城市,看各个样本时间点的不同就是时间序列。 如:2000、2001、2002、2003、2004各年中国所有直辖市的GDP分别为: 北京市分别为8、9、10、11、12; 上海市分别为9、10、11、12、13; 天津市分别为5、6、7、8、9; 重庆市分别为7、8、9、10、11(单位亿元)。 这就是面板数据。 关于面板数据的统计分析

启动Stata11.0,Stata界面有4个组成部分,Review(在左上角)、Variables (左下角)、输出窗口(在右上角)、Command(右下角)。首先定义变量,可以输入命令,也可以通过点击Data----Create new Variable or change variable。 特别注意,这里要定义的变量除了因素1、因素2、……因素6、盈余管理影响程度等,还要定义年份和公司名称两个变量,这两个变量的数据类型(Type)最好设置为int(整型),公司名称不要使用中文名称或者字母等,用数字代替。定义好变量之后可以输入数据了。数据可以直接导入(File-Import),也可以手工录入或者复制粘贴(Data-Data Edit(Browse)),手工录入数据和在excel中的操作一样。 以上面说的为例,定义变量 year、 company、 factor1、 factor2、 factor3、factor4、 factor5、 factor6、 DA。

Stata时间序列笔记

文档结尾是FAQ和var建模的15点注意事项 【梳理概念】 向量自回归(VAR, Vector Auto regression)常用于预测相互联系的时间序列系统以及分析随机扰动对变量系统的动态影响。 V AR模型: V AR方法通过把系统中每一个内生变量,作为系统中所有内生变量的滞后值的函数来构造模型,从而回避了结构化模型的要求。 V AR模型对于相互联系的时间序列变量系统是有效的预测模型,同时,向量自回归模型也被频繁地用于分析不同类型的随机误差项对系统变量的动态影响。如果变量之间不仅存在滞后影响,而不存在同期影响关系,则适合建立V AR模型,因为V AR模型实际上是把当期关系隐含到了随机扰动项之中。 协整: Engle和Granger(1987a)指出两个或多个非平稳时间序列的线性组合可能是平稳的。假如这样一种平稳的或的线性组合存在,这些非平稳(有单位根)时间序列之间被认为是具有协整关系的。这种平稳的线性组合被称为协整方程且可被解释为变量之间的长期均衡关系。 * 第六讲时间序列分析 *---- 目录----- * *-- 简介 * 6.1 时间序列数据的处理 *-- 平稳时间序列模型 * 6.2 ARIMA 模型 * 6.3 V AR 模型 *-- 非平稳时间序列模型——近些年得到重视,发展很快 * 6.4 非平稳时间序列简介 * 6.5 单位根检验——检验非平稳 * 6.6 协整分析——非平稳序列的分析 *-- 自回归条件异方差模型 * 6.7 GARCH 模型——金融序列不同时点上序列的差异

反映动态关系的时间数据顺序不可颠倒 cd d:\stata10\ado\personal\Net_Course\B6_TimeS *======================= * 时间序列数据的处理help time *======================= * 声明时间序列:tsset 命令 use gnp96.dta, clear list in 1/20 gen Lgnp = L.gnp(此时没办法生成之后一阶的变量,因为没有设定时间变量) tsset date(设定date为时间变量,timeseries) list in 1/20 gen Lgnp = L.gnp96 滞后一期,所以会产生1个缺失值 ●检查是否有断点——肉眼看不方便,用命令检查 use gnp96.dta, clear tsset date tsreport, report drop in 10/10 ——去掉断点成连续的,才能继续进行 list in 1/12 tsreport, report tsreport, report list/*列出存在断点的样本信息*/ ●填充缺漏值——接着上一步,看看stata如何填充缺漏值。一般用前面的数据的平均值或 预测等 Tsfill(以缺漏值的形式)

BVAR模型简介

贝叶斯向量自回归模型(BV AR)简介 一、贝叶斯方法原理简介 §1 贝叶斯方法起源 英国学者T.贝叶斯1763年在《论有关机遇问题的求解》中提出一种归纳推理的理论,后被一些统计学者发展为一种系统的统计推断方法,称为贝叶斯方法。采用这种方法作统计推断所得的全部结果,构成贝叶斯统计的内容。认为贝叶斯方法是唯一合理的统计推断方法的统计学者,组成数理统计学中的贝叶斯学派,其形成可追溯到 20世纪 30 年代。到50~60年代,已发展为一个有影响的学派。时至今日,其影响日益扩大。 §2 贝叶斯定理及其特点 记) p为一个随机观察向量y的联合概率密度函数,θ为一个参数 y (θ , 向量,它也看成是随机的。根据通常对概率密度的运算有: θ y θ θ θ y p p = p= p p y ( | ) ) ( ) (y ( , ) ( ) | 因而

) ()|()()|(y θy θy θp p p p = 其中0)(≠y p 。将上式表达如下: (|)()(|)p p p ∝∝?θy θy θ先验概率密度似然函数 其中∝表示成比例,(|)p θy 是在给定样本信息y 后,参数向量θ的后验概率密度,()p θ是参数向量θ的先验概率密度,(|)p y θ看作θ的函数,就是熟知的似然函数。式将所有的先验的、样本的信息融入其中,先验信息通过先验密度进入后验密度,而所有的样本信息通过似然函数进入。 贝叶斯推断的一般模式:先验信息⊕样本信息?后验信息(见图1) 图 1 贝叶斯推断的基本模式 贝叶斯学派认为,先验分布反映了实验前对总体分布的认识,在获得样本信息后,人们对这个认识有了改变,其结果就反映在后验分布中,即后验分布综合了参数先验分布和样本信息。由此可以看出,频率学派统计推断是“从无到有”的过程:在实验前,关于未知参数的情况是一无所知,而试验后则有些了解,但对了解多少并无普遍的表

应用宏观经济学方法新进展

应用宏观经济学方法新进展 --贝叶斯分析框架 摘要: 本文回顾了应用宏观经济学的主要分析方法和最新进展。现有校准、向量自回归、一般矩方法和极大似然估计等方法都存在诸多缺点,而贝叶斯分析框架的引入能有效地应对这些问题。贝叶斯分析方法能很好地将微观文献和宏观研究相结合,将经济理论、数据和政策分析融为一体,而且很适合进行模型比较和政策分析。基于我国转轨经济和宏观数据的特点,贝叶斯方法将在我国宏观经济建模和预测,中央银行制定和执行货币政策中发挥重要作用。 关键词:应用宏观经济学;贝叶斯分析;中国经济 中图分类号:F015 文献标识码:A 文章编号: 一、引言 宏观经济学在上世纪30年代“凯恩斯革命”中成为独立的研究领域。应用宏观经济学(或宏观计量经济学)一直是宏观经济学中最为活跃的研究领域之一,各种新思路、新方法层出不穷。“凯恩斯革命”之后的几十年中,由凯恩斯理论导出的结构方程方法成为宏观经济学实证研究的主要方向。但是70年代由于受到卢卡斯批判(Lucas critique)和宏观经济模型商业应用的冲击,考尔斯委员会(Cowles commission)结构性联立方程组模型逐渐失去其在应用宏观经济学中的统治地位。80年代以后,由于Kydland and Prescott(1982)和Long and Plosser(1983)的开创性工作,第一代动态随机一般均衡(DSGE)模型以(Kydland and Prescott为代表的RBC模型)成为宏观经济学的主流理论方法,许多实证宏观计量方法也围绕如何估计和评价DSGE模型展开。 在实证宏观计量方法方面,经济学家提出了许多正式和非正式的数量方法,如向量自回归(VAR)方法、校准(calibration)方法、一般矩估计方法(GMM)及完全信息极大似然估计(MLE)方法等等。为了减轻“经济理论施加的难以置信的限制”,Sims(1980)提出较少运用经济理论而以数据为中心的VAR方法,该方法自提出以来得到了广泛的运用,并成为宏观经济建模的基本分析工具。DSGE模型是一个数据生成过程的多元随机表示系统,这使我们很容易将其近似表示为VAR模型。但是,简单的DSGE模型对数据施加了很强的限制和约束条件,因而存在严重的模型误设定(mis-specificaiton)问题,这使得由DSGE模型所导出的VAR模型常常被实际数据所拒绝(An and Schorfheide,2007)。正是由于模型误设

大数据分析的流程浅析

数据采集,就是使用某种技术或手段,将数据收集起来并存储在某种设备上,这种设备可以是磁盘或磁带。区别于普通的数据分析,大数据分析的数据采集在数据收集和存储技术上都是不同的。具体情况如下: 1.大数据收集过程 在收集阶段,大数据分析在时空两个方面都有显著的不同。在时间维度上,为了获取更多的数据,大数据收集的时间频度大一些,有时也叫数据采集的深度。在空间维度上,为了获取更准确的数据,数据采集点设置得会更密一些。 以收集一个面积为100平方米的葡萄园的平均温度为例。小数据时代,由于成本的原因,葡萄园主只能在葡萄园的中央设置一个温度计用来计算温度,而且每一小时观测一次,这样一天就只有24个数据。而在大数据时代,在空间维度上,可以设置100个温度计,即每个1平方米一个温度计;在时间维度上,每隔1分钟就观测一次,这样一天就有144000个数据,是原来的6000倍。 有了大量的数据,我们就可以更准确地知道葡萄园的平均温度,如果加上时间刻度的话,还可以得出一个时间序列的曲线,结果看起来使人很神往。 2.大数据的存储技术 通过增加数据采集的深度和广度,数据量越来越大,数据存储问题就凸现。原来1TB的数据,可以使用一块硬盘就可以实现数据的存储,而现在变成了6000TB,也就是需要6000块硬盘来存放数据,而且这个数据是每天都是增加的。这个时候计算机技术中的分布式计算开始发挥优势,它可以将6000台甚至更多的计算机组合在一起,让它们的硬盘组合成一块巨大的硬盘,这样人们就不用再害怕大数据了,大数据再大,增加计算机就可以了。实现分布式计算的软件有很多,名气最大的,目前市场上应用最广的,就是hadoop技术了,更精确地说应该是叫hadoop框架。 hadoop框架由多种功能性软件组成,其自身只是搭建一个和操作系统打交道的平台。其中最核心的软件有两个,一个是hdfs分布式文件系统,另一个是mapreduce分布式计算。hdfs分布式文件系统完成的功能就是将6000台计算机组合在一起,使它们的硬盘组合成一块巨大的硬盘,至于数据如何在硬盘上存放和读取,这件事由hadoop和hdfs共同完成,不用我们操心,这就如我们在使用一台计算机时只管往硬盘上存放数据,而数据存放在硬盘上的哪个磁道,我们是不用关心的。 mapredce分布式计算则就实现让6000台计算机一起协同工作起来,hadoop 在设计mapredce时,最基本的思想就是让分析师不用操心程序设计问题,这些问题需要和最底层的程序打交道的,且只有优秀的程序员才能解决的,而是让大数据分析师专注于业务流程进行简单的mapredce程序编写,也就是说大数据分

相关主题