搜档网
当前位置:搜档网 › 北航数理统计大作业1-线性回归分析

北航数理统计大作业1-线性回归分析

应用数理统计作业一

学号:

姓名:

电话:

二〇一四年十二月

国内生产总值的多元线性回归模型

摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程。然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子。再次进行主成份线性回归分析,找出最优回归方程。所得结论与我国当前形势相印证。

关键词:多元线性回归,逐步回归法,多重共线性诊断,主成份分析

目录

0符号说明 (1)

1 介绍 (2)

2 统计分析步骤 (3)

2.1 数据的采集和整理 (3)

2.2采用多重逐步回归分析 (6)

2.3进行共线性诊断 (14)

2.4进行主成分分析确定所需主成份 (19)

2.5进行主成分逐步回归分析 (22)

3 结论 (25)

参考文献 (26)

致谢 (27)

0符号说明

变量符号国内生产总值Y

交通运输增加量X1 住宿和餐饮业增加值X2房地产业X3

人口X4国民总收入X5

工业生产总值X6

建筑业生产总值X7

1 介绍

文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程。

国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。

它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2% ,基本符合预期。2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7.6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。

中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况.

上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。1985年开始,中国建立GDP核算制度,1992年,正式取消国民收入核算,GDP成为国民经济核算的核心指标。

2003年国家统计局宣布中国将改进GDP核算与数据发布制度,取消容易引起误解的预计数,建立定期修正和调整GDP数据的机制,在发布GDP数据的同时发布相关的重要数据,必要时还将公布核算方法。这是中国提高GDP数据的准确性和透明度,向国际通行办法迈进的重要一步。

2014年将全力推进重点改革创新积极稳妥的推进国家统一核算地区生产总值,深化固定资产投资统计,加快改进能耗统计进一步完善社会消费品零售统计,同时将精心组织实施第三次全国经济普查认真做好普查登记。尽快制定经济核算图,指定全国统一的核算办法,为2015年正式实施全国统一的核算GDP来打下一个基础。此举将有效消除近10年来各省GDP总和与国家统计局核算的全国GDP 存在较大出入的情况。

2005年12月20日,中国国家统计局根据一项重大的经济统计计划所获得的数据重新发布了中国2004年国内生产总值为15.98万亿元人民币,比预期增加预期16.8%。此统计过程世界银行向中国政府提供了咨询。根据这项统计,中

国农业的比例占13.1%,工业比例占46.2%,服务业比例上升到40.7%。造成中国2004年经济数据大幅度增长的原因是由于本次第一次全国经济普查(全国经济普查)中发现漏报的第三产业经济总值高达2.4万亿元人民币。

国民生产总值是指一个国家(地区)所有常住机构单位在一定时期内(年或季)收入初次分配的最终成果(简称GNP)。一个国家常住机构单位从事生产活动所创造的增加值(国内生产总值)在初次分配过程中主要分配给这个国家的常住机构单位,但也有一部分以劳动者报酬和财产收入等形式分配给该国的非常住机构单位。同时,国外生产单位所创造的增加值也有一部分以劳动者报酬和财产收入等形式分配给该国的常住机构单位。从而产生了国民生产总值概念,它等于国内生产总值加上来自国外的劳动报酬和财产收入减去支付给国外的劳动者报酬和财产收入。

国内生产总值是反映一国(地区)全部生产活动最终成果的重要指标,是一个国家(地区)领土范围内,包括本国居民、外国居民在内的常住单位在报告期内所产和提供最终使用的产品和服务的价值。

2 统计分析步骤

2.1 数据的采集和整理

本文在进行统计时,查阅《中国统计年鉴》中收录的1978年至2012年连续35年的国内生产总值为因变量,考虑一些与国内生产总值关系密切并且直观上有线性关系的因素,经过深思熟虑我初步选取了这35年的交通运输增加量、住宿和餐饮业增加值、房地产业、人口、国民总收入、工业生产总值、建筑业生产总值等因素为自变量,分析它们之间“最优”回归方程。

表2-错误!未找到引用源。1978-2012年国内生产总值及其影响因素统计表

年度

通运输

增加值

宿和餐

饮业增

加值

地产业

民总收

内生产

总值

业生产

总值

筑业生

产总值

191010109636361613

78 0.0 0.0 0.0 259 45.2 45.2 07.0 8.2 1979 108.3 111.1 104.1 97542 4062.6 4062.6 1769.7 143.8 1980 112.9 115.5 112.3 98705 4545.6 4545.6 1996.5 195.5 1981 115.0 135.6 108.4 100072

4889.5 4891.6 2048.4 207.1 1982 128.1 178.5 118.2 101654

5330.5 5323.4 2162.3 220.7 1983 140.2 213.1 124.3 103008

5985.6 5962.7 2375.6 270.6 1984 161.1 230.3 158.7 104357

7243.8 7208.1 2789.0 316.7 1985 183.3 244.8 198.4 105851

9040.7 9016.0 3448.7 417.9 1986 208.8 283.1 249.7 107507

10274.4

10275.2

3967.0 525.7 1987 228.9 310.5 322.9 109300

12050.6

12058.6

4585.8 665.8 1988 257.5 388.5 363.8 111026

15036.8

15042.8

5777.2 810.0 1989 268.3 426.9 421.8 112704

17000.9

16992.3

6484.0 794.0 1990 290.7 441.8 448.2 114333

18718.3

18667.8

6858.0 859.4 1991 321.4 477.9 501.7 115823

21826.2

21781.5

8087.1 1015.1 19

35

60

67

11

26

26

10

14

92 3.7 7.0 5.9 7171

937.3

923.5

284.5

15.0 1993 398.1 657.0 748.6 118517

35260.0

35333.9

14188.0

2266.5 1994 432.0 835.3 838.2 119850

48108.5

48197.9

19480.7

2964.7 1995 479.4 920.8 942.5 121121

59810.5

60793.7

24950.6

3728.8 1996 532.4 983.8 980.5 122389

70142.5

71176.6

29447.6

4387.4 1997 581.3 1091.4 1021.0 123626

78060.9

78973.0

32921.4

4621.6 1998 642.9 1212.2 1099.4 124761

83024.3

84402.3

34018.4

4985.8 1999 721.2 1305.7 1164.7 125786

88479.2

89677.1

35861.5

5172.1 2000 783.0 1427.7 1247.5 126743

98000.5

99214.6

40033.6

5522.3 2001 852.0 1536.8 1384.6 127627

108068.2

109655.2

43580.6

5931.7 2002 912.7 1723.4 1521.8 128453

119095.7

120332.7

47431.3

6465.5 2003 968.6 1936.4 1671.0 129227

134977.0

135822.8

54945.5

7490.8 2004 1108.9 2175.3 1769.6 129988

159453.6

159878.3

65210.0

8694.3 2005 1233.1 2442.0 1986.1 130756

183617.4

184937.4

77230.8

10367.3

20

13

27

22

13

21

21

91

12

06 56.0 48.9 93.5 1448

5904.4

6314.4

310.9

408.6

2007 1516.0 3013.3 2852.1 132129

266422.0

265810.3

110534.9

15296.5

2008 1627.1 3302.6 2879.5 132802

316030.3

314045.4

130260.2

18743.2

2009 1695.0 3483.5 3204.4 133450

340320.0

340902.8

135239.9

22398.8

2010 1861.0 3832.1 3428.3 134091

399759.5

401512.8

160722.2

26661.0

2011 2044.7 4084.8 3658.5 134735

468562.4

473104.0

188470.2

31942.7

2012

2187.3

4410.4

3799.0

135404

516282.1

518942.1

199670.7

35491.3

2.2采用多重逐步回归分析

解:拟合国民生产总值与这7个因素的线性回归曲线,,我们不知道他们对于国明生产总值有无影响,那就使用逐步法由软件来选择判断。

运用spss 软件中的回归-线性里的一系列功能,输出下列一系列图进行逐步线性回归分析。

图1

由图一可见,有两观察点学生化残差的绝对值大于2,怀疑其为异常点。不考虑该异常点重新拟合回归模型。

将自变量76543,21,,,,,,x x x x x x x 错误!未找到引用源。作为待筛选量,使用专业统计分析软件IBM SPSS Statistics 20进行逐步回归计算,1.0,05.0==out in αα错误!未找到引用源。。有两个变量没有达到选入标准,最终没有进入。其分析结果如表2-1至2-6所示。

表2-1

输入/移去的变量a

模型

输入的变量

移去的变量

方法

1

国民总收入

. 步进(准则: F-to-enter

的概率 <= .050,F-to-remove 的概率 >= .100)。

2

建筑业生产总值

. 步进(准则: F-to-enter

的概率 <= .050,F-to-remove 的概率 >= .100)。

3 交通运输增加值.

步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。

4 房地产业.

步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。

5 工业生产总值.

步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。

a. 因变量: 国内生产总值

表2-2模型的筛选过程

表2-2

模型汇总f

模型R R

整 R

标准

估计的误

更改统计量Durbin-Wa

tson

R

方更

F 更改d

f1

d

f2

Si

g. F 更

1

1 .000a

1

.000

1

.000

916.

7542

1

.000

816165

.166

1

3

3

.0

00

2

1 .000b

1

.000

1

.000

829.

3019

.

000

8.327 1

3

2

.0

07

3

1 .000c

1

.000

1

.000

640.

4842

.

000

22.649 1

3

1

.0

00

4

1 .000d

1

.000

1

.000

583.

2619

.

000

7.381 1

3

.0

11

5

1 .000e

1

.000

1

.000

530.

7914

.

000

7.224 1

2

9

.0

12

1.585

a. 预测变量: (常量), 国民总收入。

b. 预测变量: (常量), 国民总收入, 建筑业生产总值。

c. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值。

d. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业。

e. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业, 工业生产总值。

f. 因变量: 国内生产总值

表2-3拟合的模型的决定系数的改变情况

表2-4

Anova a

模型平方和df 均方 F Sig.

1

685936455784

.277

1

685936455784

.277

816165.16

6

.000b 残

27734463.527 33 840438.289

685964190247

.804

34

2

685942182514

.796

2

342971091257

.398

498691.75

1

.000c 残

22007733.008 32 687741.656

685964190247

.804

34

3

685951473427

.523

3

228650491142

.508

557385.02

8

.000d 残

12716820.281 31 410220.009

685964190247

.804

34

4

685953984413

.896

4

171488496103

.474

504089.61

5

.000e 残

10205833.908 30 340194.464

685964190247

.804

34

5

685956019801

.895

5

137191203960

.379

486943.42

5

.000f 残

8170445.909 29 281739.514

685964190247

.804

34

a. 因变量: 国内生产总值

b. 预测变量: (常量), 国民总收入。

c. 预测变量: (常量), 国民总收入, 建筑业生产总值。

d. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值。

e. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业。

f. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业, 工业生产总值。

表2-4对拟合后的模型的方差分析检验结果

表2-5

已排除的变量a

模型Bet

a In t Sig

.

相关

共线性统计量

VIF 最

小容差

1

交通运输增加

-.0

03b

-.5

92

.55

8

-.1

04

.03

9

25.7

83

.03

9 住宿和餐饮业

增加值

-.0

06b

-1.

008

.32

1

-.1

75

.03

7

27.0

71

.03

7

房地产业

06b050 2 82 9 31 9

人口

.00

1b .56

3

.57

7

.09

9

.39

2.56

7

.39

工业生产总值

-.0

53b -1.

639

.11

1

-.2

78

.00

1

891.

649

.00

1

建筑业生产总值.03

4b

2.8

86

.00

7

.45

4

.00

7

137.

035

.00

7

2

交通运输增加

.03

7c

4.7

59

.00

.65

.01

103.

072

.00

1 住宿和餐饮业

增加值

.03

2c

3.3

91

.00

2

.52

.00

9

116.

929

.00

1 房地产业

.01

4c

1.7

56

.08

9

.30

1

.01

6

63.8

06

.00

2 人口

.00

6c

3.2

90

.00

3

.50

9

.25

5

3.92

6

.00

4 工业生产总值

.02

7c

.59

.55

9

.10

5

.00

2032

.426

.00

3

住宿和餐饮业

增加值

-.0

43d

-1.

893

.06

8

-.3

27

.00

1

936.

554

.00

1 房地产业

-.0

25d

-2.

717

.01

1

-.4

44

.00

6

166.

228

.00

1 人口

-.0

04d

-1.

114

.27

4

-.1

99

.05

3

18.8

05

.00

0 工业生产总值

.05

0d

1.4

49

.15

8

.25

6

.00

2069

.675

.00

4

住宿和餐饮业增加值-.0

24e

-1.

003

.32

4

-.1

83

.00

1

1110

.820

.00

1

人口

01e55 8 29 5 85 0

工业生产总值

.08

2e 2.6

88

.01

2

.44

7

.00

2255

.478

.00

5

住宿和餐饮业

增加值

-.0

37f

-1.

755

.09

-.3

15

.00

1

1160

.669

.00

0 人口

.00

1f

.16

3

.87

2

.03

1

.04

4

22.6

41

.00

a. 因变量: 国内生产总值

b. 模型中的预测变量: (常量), 国民总收入。

c. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值。

d. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值。

e. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业。

f. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业, 工业生产总值。

表2-5多重线性回归拟合模型过程中未进入模型的变量的检验情况最终的“最优”方程为:

表2-6给出了残差、预测值等一些指标。

表2-6

残差统计量a

极小值极大值均值标准偏差N

预测值

3281.01

3 519062.0

63

113583.5

45

142039.35

04

35

标准预测值-.777 2.855 .000 1.000 35 预测值的标准误差120.372 465.069 203.681 83.742 35

调整的预测值

3234.35

4 519458.5

31

113577.3

84

142023.19

89

35

残差

-905.08

02

1083.440

8 .0000

490.2114

35

标准 残差 -1.705 2.041 .000 .924 35 Student 化 残差

-2.324 2.976 .005

1.112

35

已删除的残差

-1681.1

749

2303.471

7 6.1611

737.4337

35

Student 化 已删除的

残差

-2.531

3.509

.017

1.188

35

Mahal 。 距离 .777 25.130 4.857 5.441 35 Cook 的距离 .000 1.662 .112 .313 35 居中杠杆值

.023

.739

.143

.160

35

a. 因变量: 国内生产总值

图2所示为残差的直方图。可见,残差分布比较均匀,近似正态分布 ,反应了变量服从正态分布。

图2

如图3所示为残差的正态P-P 图,可见残差分布是否正态,可见散点大部分呈

直线趋势,可认为应变量服从正态分布。

图3

2.3进行共线性诊断

表2-7即为共线性诊断表格

表2-7

共线性诊断a

模型维

数特征值条

件索引

方差比例

(

常量)

国民

总收入

建筑业

生产总值

交通运

输增加值

地产业

工业

生产总值

1 1 1.630

1.0

00

.1

9

.19 2 .370

2.0

98

.8

1

.81

2 1 2.501

1.0

00 .0

5

.00 .00

2 .497

2.2

44 .7

1

.00 .00

3 .002

33.

209 .2

4

1.00 1.00

3 1 3.483

1.0

00

.0

1

.00 .00 .00 2 .498

2.6

45

.1

7

.00 .00 .00 3 .019

13.

682

.3

.00 .02 .14 4 .000

98.

503

.5

2

1.00 .98 .86

4 1 4.470

1.0

00

.0

.00 .00 .00

.0

0 2 .501

2.9

87

.1

6

.00 .00 .00

.0

0 3 .028

12.

687

.2

4

.00 .02 .01

.0

3 4 .001

54.

628

.0

4

.02 .02 .43

.9

2 5 .000

114

.037

.5

5

.97 .96 .55

.0

5

5 1 5.437

1.0

00

.0

.00 .00 .00

.0

.00

2 .532

3.1

97

.1

6

.00 .00 .00

.0

.00 3 .028

13.

894

.2

5

.00 .01 .01

.0

3

.00

4 .002

57.

550 .0

.00 .06 .21

.7

4

.02

5 .001

79.

829 .4

6

.00 .20 .49

.1

3

.13

6

7.435E

-005

270

.418

.1

3

.99 .73 .29

.1

.85

a. 因变量: 国内生产总值

表2-8

系数a

模型非标准化系数标准

系数

t Sig. 共线性统计量

B 标准

误差

试用

容差VIF

1

(常量)

92.63

4

199.

484

.464 .645

国民总收

1.004 .001

1.00

903.

419

.000

1.00

1.00

2

(常量)

364.5

62

203.

578

1.79

1

.083

国民总收

.970 .012 .966

82.4

38

.000 .007

137.

035 建筑业生

产总值

.511 .177 .034

2.88

6

.007 .007

137.

035

3

(常量)

-978.

569

323.

067

-3.0

29

.005

国民总收

.859 .025 .855

34.2

00

.000 .001

1045

.895 建筑业生

产总值

1.637 .273 .108

5.99

.000 .002

547.

817

交通运输增加值8.571

1.80

1

.037

4.75

9

.000 .010

103.

072

4

(常量)

-1215

.852

306.

893

-3.9

62

.000

国民总收

.854 .023 .851

37.2

33

.000 .001

1052

.186 建筑业生

产总值

1.710 .250 .113

6.83

3

.000 .002

554.

292 交通运输

增加值

14.21

6

2.64

7

.062

5.37

.000 .004

268.

526 房地产业

-3.08

6

1.13

6

-.02

5

-2.7

17

.011 .006

166.

228

5

(常量)

-1281

.840

280.

362

-4.5

72

.000

国民总收

.739 .048 .736

15.5

49

.000 .000

5457

.817 建筑业生

产总值

2.167 .284 .144

7.62

4

.000 .001

863.

184 交通运输

增加值

16.30

6

2.53

1

.071

6.44

2

.000 .003

296.

497 房地产业

-3.91

9

1.07

9

-.03

1

-3.6

31

.001 .006

181.

151 工业生产

总值

.205 .076 .082

2.68

8

.012 .000

2255

.478

a. 因变量: 国内生产总值

表2-8对模型中各个系数检验结果

特征值:实际上是对自变量进行主成份分析,如果特征根为0,则提示有严重的共线性。表2-7,2-8是进行主成份分析后的特征根、条件指数、容差以及VIF 值,由表可看出第4个模型的第5个因子特征根为0,且VIF值除了模型一的国民

相关主题