应用数理统计作业一
学号:
姓名:
电话:
二〇一四年十二月
国内生产总值的多元线性回归模型
摘要:本文首先选取了选取我国自1978至2012年间的国内生产总值为因变量,并选取了7个主要影响因素,进一步利用统计软件SPSS对以上数据进行了多元逐步线性回归。从而找到了能反映国内生产总值与各因素之间关系的“最优”回归方程。然后利用多重线性的诊断找出存在共线性的自变量,剔除缺失值较多的因子。再次进行主成份线性回归分析,找出最优回归方程。所得结论与我国当前形势相印证。
关键词:多元线性回归,逐步回归法,多重共线性诊断,主成份分析
目录
0符号说明 (1)
1 介绍 (2)
2 统计分析步骤 (3)
2.1 数据的采集和整理 (3)
2.2采用多重逐步回归分析 (6)
2.3进行共线性诊断 (14)
2.4进行主成分分析确定所需主成份 (19)
2.5进行主成分逐步回归分析 (22)
3 结论 (25)
参考文献 (26)
致谢 (27)
0符号说明
变量符号国内生产总值Y
交通运输增加量X1 住宿和餐饮业增加值X2房地产业X3
人口X4国民总收入X5
工业生产总值X6
建筑业生产总值X7
1 介绍
文中主要应用逐步回归的主成份分析方法,对数据进行分析处理,最终得出能够反映各个因素对国内生产总值影响的最“优”模型及线性回归方程。
国内生产总值是指在一定时期内(一个季度或一年),一个国家或地区的经济中所生产出的全部最终产品和劳务的价值,常被公认为衡量国家经济状况的最佳指标。
它不但可反映一个国家的经济表现,还可以反映一国的国力与财富。2012年1月,国家统计局公布2011年重要经济数据,其中GDP增长9.2% ,基本符合预期。2012年10月18日,统计显示,2012年前三季度国内生产总值353480亿元,同比增长7.7%;其中,一季度增长8.1%,二季度增长7.6%,三季度增长7.4%,三季度增幅创下2009年二季度以来14个季度新低。
中国的GDP核算历史不长,上世纪90年代之前通常用“社会总产值”来衡量经济发展情况.
上世纪80年代初中国开始研究联合国国民经济核算体系的国内生产总值(GDP)指标。1985年开始,中国建立GDP核算制度,1992年,正式取消国民收入核算,GDP成为国民经济核算的核心指标。
2003年国家统计局宣布中国将改进GDP核算与数据发布制度,取消容易引起误解的预计数,建立定期修正和调整GDP数据的机制,在发布GDP数据的同时发布相关的重要数据,必要时还将公布核算方法。这是中国提高GDP数据的准确性和透明度,向国际通行办法迈进的重要一步。
2014年将全力推进重点改革创新积极稳妥的推进国家统一核算地区生产总值,深化固定资产投资统计,加快改进能耗统计进一步完善社会消费品零售统计,同时将精心组织实施第三次全国经济普查认真做好普查登记。尽快制定经济核算图,指定全国统一的核算办法,为2015年正式实施全国统一的核算GDP来打下一个基础。此举将有效消除近10年来各省GDP总和与国家统计局核算的全国GDP 存在较大出入的情况。
2005年12月20日,中国国家统计局根据一项重大的经济统计计划所获得的数据重新发布了中国2004年国内生产总值为15.98万亿元人民币,比预期增加预期16.8%。此统计过程世界银行向中国政府提供了咨询。根据这项统计,中
国农业的比例占13.1%,工业比例占46.2%,服务业比例上升到40.7%。造成中国2004年经济数据大幅度增长的原因是由于本次第一次全国经济普查(全国经济普查)中发现漏报的第三产业经济总值高达2.4万亿元人民币。
国民生产总值是指一个国家(地区)所有常住机构单位在一定时期内(年或季)收入初次分配的最终成果(简称GNP)。一个国家常住机构单位从事生产活动所创造的增加值(国内生产总值)在初次分配过程中主要分配给这个国家的常住机构单位,但也有一部分以劳动者报酬和财产收入等形式分配给该国的非常住机构单位。同时,国外生产单位所创造的增加值也有一部分以劳动者报酬和财产收入等形式分配给该国的常住机构单位。从而产生了国民生产总值概念,它等于国内生产总值加上来自国外的劳动报酬和财产收入减去支付给国外的劳动者报酬和财产收入。
国内生产总值是反映一国(地区)全部生产活动最终成果的重要指标,是一个国家(地区)领土范围内,包括本国居民、外国居民在内的常住单位在报告期内所产和提供最终使用的产品和服务的价值。
2 统计分析步骤
2.1 数据的采集和整理
本文在进行统计时,查阅《中国统计年鉴》中收录的1978年至2012年连续35年的国内生产总值为因变量,考虑一些与国内生产总值关系密切并且直观上有线性关系的因素,经过深思熟虑我初步选取了这35年的交通运输增加量、住宿和餐饮业增加值、房地产业、人口、国民总收入、工业生产总值、建筑业生产总值等因素为自变量,分析它们之间“最优”回归方程。
表2-错误!未找到引用源。1978-2012年国内生产总值及其影响因素统计表
年度
交
通运输
增加值
住
宿和餐
饮业增
加值
房
地产业
人
口
国
民总收
入
国
内生产
总值
工
业生产
总值
建
筑业生
产总值
191010109636361613
78 0.0 0.0 0.0 259 45.2 45.2 07.0 8.2 1979 108.3 111.1 104.1 97542 4062.6 4062.6 1769.7 143.8 1980 112.9 115.5 112.3 98705 4545.6 4545.6 1996.5 195.5 1981 115.0 135.6 108.4 100072
4889.5 4891.6 2048.4 207.1 1982 128.1 178.5 118.2 101654
5330.5 5323.4 2162.3 220.7 1983 140.2 213.1 124.3 103008
5985.6 5962.7 2375.6 270.6 1984 161.1 230.3 158.7 104357
7243.8 7208.1 2789.0 316.7 1985 183.3 244.8 198.4 105851
9040.7 9016.0 3448.7 417.9 1986 208.8 283.1 249.7 107507
10274.4
10275.2
3967.0 525.7 1987 228.9 310.5 322.9 109300
12050.6
12058.6
4585.8 665.8 1988 257.5 388.5 363.8 111026
15036.8
15042.8
5777.2 810.0 1989 268.3 426.9 421.8 112704
17000.9
16992.3
6484.0 794.0 1990 290.7 441.8 448.2 114333
18718.3
18667.8
6858.0 859.4 1991 321.4 477.9 501.7 115823
21826.2
21781.5
8087.1 1015.1 19
35
60
67
11
26
26
10
14
92 3.7 7.0 5.9 7171
937.3
923.5
284.5
15.0 1993 398.1 657.0 748.6 118517
35260.0
35333.9
14188.0
2266.5 1994 432.0 835.3 838.2 119850
48108.5
48197.9
19480.7
2964.7 1995 479.4 920.8 942.5 121121
59810.5
60793.7
24950.6
3728.8 1996 532.4 983.8 980.5 122389
70142.5
71176.6
29447.6
4387.4 1997 581.3 1091.4 1021.0 123626
78060.9
78973.0
32921.4
4621.6 1998 642.9 1212.2 1099.4 124761
83024.3
84402.3
34018.4
4985.8 1999 721.2 1305.7 1164.7 125786
88479.2
89677.1
35861.5
5172.1 2000 783.0 1427.7 1247.5 126743
98000.5
99214.6
40033.6
5522.3 2001 852.0 1536.8 1384.6 127627
108068.2
109655.2
43580.6
5931.7 2002 912.7 1723.4 1521.8 128453
119095.7
120332.7
47431.3
6465.5 2003 968.6 1936.4 1671.0 129227
134977.0
135822.8
54945.5
7490.8 2004 1108.9 2175.3 1769.6 129988
159453.6
159878.3
65210.0
8694.3 2005 1233.1 2442.0 1986.1 130756
183617.4
184937.4
77230.8
10367.3
20
13
27
22
13
21
21
91
12
06 56.0 48.9 93.5 1448
5904.4
6314.4
310.9
408.6
2007 1516.0 3013.3 2852.1 132129
266422.0
265810.3
110534.9
15296.5
2008 1627.1 3302.6 2879.5 132802
316030.3
314045.4
130260.2
18743.2
2009 1695.0 3483.5 3204.4 133450
340320.0
340902.8
135239.9
22398.8
2010 1861.0 3832.1 3428.3 134091
399759.5
401512.8
160722.2
26661.0
2011 2044.7 4084.8 3658.5 134735
468562.4
473104.0
188470.2
31942.7
2012
2187.3
4410.4
3799.0
135404
516282.1
518942.1
199670.7
35491.3
2.2采用多重逐步回归分析
解:拟合国民生产总值与这7个因素的线性回归曲线,,我们不知道他们对于国明生产总值有无影响,那就使用逐步法由软件来选择判断。
运用spss 软件中的回归-线性里的一系列功能,输出下列一系列图进行逐步线性回归分析。
图1
由图一可见,有两观察点学生化残差的绝对值大于2,怀疑其为异常点。不考虑该异常点重新拟合回归模型。
将自变量76543,21,,,,,,x x x x x x x 错误!未找到引用源。作为待筛选量,使用专业统计分析软件IBM SPSS Statistics 20进行逐步回归计算,1.0,05.0==out in αα错误!未找到引用源。。有两个变量没有达到选入标准,最终没有进入。其分析结果如表2-1至2-6所示。
表2-1
输入/移去的变量a
模型
输入的变量
移去的变量
方法
1
国民总收入
. 步进(准则: F-to-enter
的概率 <= .050,F-to-remove 的概率 >= .100)。
2
建筑业生产总值
. 步进(准则: F-to-enter
的概率 <= .050,F-to-remove 的概率 >= .100)。
3 交通运输增加值.
步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
4 房地产业.
步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
5 工业生产总值.
步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。
a. 因变量: 国内生产总值
表2-2模型的筛选过程
表2-2
模型汇总f
模型R R
方
调
整 R
方
标准
估计的误
差
更改统计量Durbin-Wa
tson
R
方更
改
F 更改d
f1
d
f2
Si
g. F 更
改
1
1 .000a
1
.000
1
.000
916.
7542
1
.000
816165
.166
1
3
3
.0
00
2
1 .000b
1
.000
1
.000
829.
3019
.
000
8.327 1
3
2
.0
07
3
1 .000c
1
.000
1
.000
640.
4842
.
000
22.649 1
3
1
.0
00
4
1 .000d
1
.000
1
.000
583.
2619
.
000
7.381 1
3
.0
11
5
1 .000e
1
.000
1
.000
530.
7914
.
000
7.224 1
2
9
.0
12
1.585
a. 预测变量: (常量), 国民总收入。
b. 预测变量: (常量), 国民总收入, 建筑业生产总值。
c. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值。
d. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业。
e. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业, 工业生产总值。
f. 因变量: 国内生产总值
表2-3拟合的模型的决定系数的改变情况
表2-4
Anova a
模型平方和df 均方 F Sig.
1
回
归
685936455784
.277
1
685936455784
.277
816165.16
6
.000b 残
差
27734463.527 33 840438.289
总
计
685964190247
.804
34
2
回
归
685942182514
.796
2
342971091257
.398
498691.75
1
.000c 残
差
22007733.008 32 687741.656
总
计
685964190247
.804
34
3
回
归
685951473427
.523
3
228650491142
.508
557385.02
8
.000d 残
差
12716820.281 31 410220.009
总
计
685964190247
.804
34
4
回
归
685953984413
.896
4
171488496103
.474
504089.61
5
.000e 残
差
10205833.908 30 340194.464
总
计
685964190247
.804
34
5
回
归
685956019801
.895
5
137191203960
.379
486943.42
5
.000f 残
差
8170445.909 29 281739.514
总
计
685964190247
.804
34
a. 因变量: 国内生产总值
b. 预测变量: (常量), 国民总收入。
c. 预测变量: (常量), 国民总收入, 建筑业生产总值。
d. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值。
e. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业。
f. 预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业, 工业生产总值。
表2-4对拟合后的模型的方差分析检验结果
表2-5
已排除的变量a
模型Bet
a In t Sig
.
偏
相关
共线性统计量
容
差
VIF 最
小容差
1
交通运输增加
值
-.0
03b
-.5
92
.55
8
-.1
04
.03
9
25.7
83
.03
9 住宿和餐饮业
增加值
-.0
06b
-1.
008
.32
1
-.1
75
.03
7
27.0
71
.03
7
房地产业
06b050 2 82 9 31 9
人口
.00
1b .56
3
.57
7
.09
9
.39
2.56
7
.39
工业生产总值
-.0
53b -1.
639
.11
1
-.2
78
.00
1
891.
649
.00
1
建筑业生产总值.03
4b
2.8
86
.00
7
.45
4
.00
7
137.
035
.00
7
2
交通运输增加
值
.03
7c
4.7
59
.00
.65
.01
103.
072
.00
1 住宿和餐饮业
增加值
.03
2c
3.3
91
.00
2
.52
.00
9
116.
929
.00
1 房地产业
.01
4c
1.7
56
.08
9
.30
1
.01
6
63.8
06
.00
2 人口
.00
6c
3.2
90
.00
3
.50
9
.25
5
3.92
6
.00
4 工业生产总值
.02
7c
.59
.55
9
.10
5
.00
2032
.426
.00
3
住宿和餐饮业
增加值
-.0
43d
-1.
893
.06
8
-.3
27
.00
1
936.
554
.00
1 房地产业
-.0
25d
-2.
717
.01
1
-.4
44
.00
6
166.
228
.00
1 人口
-.0
04d
-1.
114
.27
4
-.1
99
.05
3
18.8
05
.00
0 工业生产总值
.05
0d
1.4
49
.15
8
.25
6
.00
2069
.675
.00
4
住宿和餐饮业增加值-.0
24e
-1.
003
.32
4
-.1
83
.00
1
1110
.820
.00
1
人口
01e55 8 29 5 85 0
工业生产总值
.08
2e 2.6
88
.01
2
.44
7
.00
2255
.478
.00
5
住宿和餐饮业
增加值
-.0
37f
-1.
755
.09
-.3
15
.00
1
1160
.669
.00
0 人口
.00
1f
.16
3
.87
2
.03
1
.04
4
22.6
41
.00
a. 因变量: 国内生产总值
b. 模型中的预测变量: (常量), 国民总收入。
c. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值。
d. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值。
e. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业。
f. 模型中的预测变量: (常量), 国民总收入, 建筑业生产总值, 交通运输增加值, 房地产业, 工业生产总值。
表2-5多重线性回归拟合模型过程中未进入模型的变量的检验情况最终的“最优”方程为:
表2-6给出了残差、预测值等一些指标。
表2-6
残差统计量a
极小值极大值均值标准偏差N
预测值
3281.01
3 519062.0
63
113583.5
45
142039.35
04
35
标准预测值-.777 2.855 .000 1.000 35 预测值的标准误差120.372 465.069 203.681 83.742 35
调整的预测值
3234.35
4 519458.5
31
113577.3
84
142023.19
89
35
残差
-905.08
02
1083.440
8 .0000
490.2114
35
标准 残差 -1.705 2.041 .000 .924 35 Student 化 残差
-2.324 2.976 .005
1.112
35
已删除的残差
-1681.1
749
2303.471
7 6.1611
737.4337
35
Student 化 已删除的
残差
-2.531
3.509
.017
1.188
35
Mahal 。 距离 .777 25.130 4.857 5.441 35 Cook 的距离 .000 1.662 .112 .313 35 居中杠杆值
.023
.739
.143
.160
35
a. 因变量: 国内生产总值
图2所示为残差的直方图。可见,残差分布比较均匀,近似正态分布 ,反应了变量服从正态分布。
图2
如图3所示为残差的正态P-P 图,可见残差分布是否正态,可见散点大部分呈
直线趋势,可认为应变量服从正态分布。
图3
2.3进行共线性诊断
表2-7即为共线性诊断表格
表2-7
共线性诊断a
模型维
数特征值条
件索引
方差比例
(
常量)
国民
总收入
建筑业
生产总值
交通运
输增加值
房
地产业
工业
生产总值
1 1 1.630
1.0
00
.1
9
.19 2 .370
2.0
98
.8
1
.81
2 1 2.501
1.0
00 .0
5
.00 .00
2 .497
2.2
44 .7
1
.00 .00
3 .002
33.
209 .2
4
1.00 1.00
3 1 3.483
1.0
00
.0
1
.00 .00 .00 2 .498
2.6
45
.1
7
.00 .00 .00 3 .019
13.
682
.3
.00 .02 .14 4 .000
98.
503
.5
2
1.00 .98 .86
4 1 4.470
1.0
00
.0
.00 .00 .00
.0
0 2 .501
2.9
87
.1
6
.00 .00 .00
.0
0 3 .028
12.
687
.2
4
.00 .02 .01
.0
3 4 .001
54.
628
.0
4
.02 .02 .43
.9
2 5 .000
114
.037
.5
5
.97 .96 .55
.0
5
5 1 5.437
1.0
00
.0
.00 .00 .00
.0
.00
2 .532
3.1
97
.1
6
.00 .00 .00
.0
.00 3 .028
13.
894
.2
5
.00 .01 .01
.0
3
.00
4 .002
57.
550 .0
.00 .06 .21
.7
4
.02
5 .001
79.
829 .4
6
.00 .20 .49
.1
3
.13
6
7.435E
-005
270
.418
.1
3
.99 .73 .29
.1
.85
a. 因变量: 国内生产总值
表2-8
系数a
模型非标准化系数标准
系数
t Sig. 共线性统计量
B 标准
误差
试用
版
容差VIF
1
(常量)
92.63
4
199.
484
.464 .645
国民总收
入
1.004 .001
1.00
903.
419
.000
1.00
1.00
2
(常量)
364.5
62
203.
578
1.79
1
.083
国民总收
入
.970 .012 .966
82.4
38
.000 .007
137.
035 建筑业生
产总值
.511 .177 .034
2.88
6
.007 .007
137.
035
3
(常量)
-978.
569
323.
067
-3.0
29
.005
国民总收
入
.859 .025 .855
34.2
00
.000 .001
1045
.895 建筑业生
产总值
1.637 .273 .108
5.99
.000 .002
547.
817
交通运输增加值8.571
1.80
1
.037
4.75
9
.000 .010
103.
072
4
(常量)
-1215
.852
306.
893
-3.9
62
.000
国民总收
入
.854 .023 .851
37.2
33
.000 .001
1052
.186 建筑业生
产总值
1.710 .250 .113
6.83
3
.000 .002
554.
292 交通运输
增加值
14.21
6
2.64
7
.062
5.37
.000 .004
268.
526 房地产业
-3.08
6
1.13
6
-.02
5
-2.7
17
.011 .006
166.
228
5
(常量)
-1281
.840
280.
362
-4.5
72
.000
国民总收
入
.739 .048 .736
15.5
49
.000 .000
5457
.817 建筑业生
产总值
2.167 .284 .144
7.62
4
.000 .001
863.
184 交通运输
增加值
16.30
6
2.53
1
.071
6.44
2
.000 .003
296.
497 房地产业
-3.91
9
1.07
9
-.03
1
-3.6
31
.001 .006
181.
151 工业生产
总值
.205 .076 .082
2.68
8
.012 .000
2255
.478
a. 因变量: 国内生产总值
表2-8对模型中各个系数检验结果
特征值:实际上是对自变量进行主成份分析,如果特征根为0,则提示有严重的共线性。表2-7,2-8是进行主成份分析后的特征根、条件指数、容差以及VIF 值,由表可看出第4个模型的第5个因子特征根为0,且VIF值除了模型一的国民