搜档网
当前位置:搜档网 › 应用统计学因子分析与主成分分析案例解析+SPSS操作分析

应用统计学因子分析与主成分分析案例解析+SPSS操作分析

因子分析与主成分分析

学号:2010209583 姓名:钱志雷专业:信息管理与信息系统班级:四班一、问题概述

现希望对30个省市自治区经济发展基本情况的八项指标进行分析。具体采用的指标只有:GDP、居民消费水平、固定资产投资、职工平均工资、货物周转量、居民消费价格指数、商品零售价格指数、工业总产值。这是一个综合分析问题,八项指标较多,用主成分分析法进行综合。

二、数据

由于样本数比较多,这里不再给出,可参见factor1.sav文件

三、数据处理与分析

1.因子分析

打开数据后,在SPSS中进行因子分析的步骤如下:

选择“分析---降维---因子分析”,在弹出的对话框里

(1)描述---系数、KMO与Bartlett的球形度检验

(2)抽取---碎石图、未旋转的因子解

(3)旋转---最大方差法、旋转解、载荷图

(4)得分---保存为变量、显示因子得分系数矩阵

(5)选项---按大小排序

点击确定得到如下各图:

图3-1

图3-2

KMO 和 Bartlett 的检验

取样足够度的 Kaiser-Meyer-Olkin 度量。.620

Bartlett 的球形度检验近似卡方231.285 df 28 Sig. .000 相关矩阵

GDP 居民消

费水平

固定资

产投资

职工平

均工资

货物周

转量

居民消

费价格

指数

商品价

格指数

工业总

产值

相关GDP 1.000 .267 .951 .187 .617 -.273 -.264 .874 居民消费水平.267 1.000 .426 .716 -.151 -.235 -.593 .363 固定资产投资.951 .426 1.000 .396 .431 -.280 -.359 .792 职工平均工资.187 .716 .396 1.000 -.357 -.145 -.543 .099 货物周转量.617 -.151 .431 -.357 1.000 -.253 .022 .659 居民消费价格指数-.273 -.235 -.280 -.145 -.253 1.000 .763 -.125 商品价格指数-.264 -.593 -.359 -.543 .022 .763 1.000 -.192 工业总产值.874 .363 .792 .099 .659 -.125 -.192 1.000

(2)因子模型中各统计量的意义

A)因子载荷:因子载荷为第i个变量在第j个因子上的载荷,实际上就

是与的相关系数,表示变量依赖因子的程度,反应了第i个变量对于第j

个因子的重要性。

B)变量的变量共同度:k个公因子对第i个变量方差的贡献,也称为公

因子方差比,记为,公式为:

=(j=1,2,….,k)

表示全部公因子对变量的总方差所做出的贡献,也即是变量的信息能够被k 个公因子所描述的程度。

C)公因子的方差贡献率:在因子载荷矩阵A中,各列元素的平方和记为,表示第j个公因子对于X所提供方差的总和,它是衡量公因子相对重要性

的指标。方差贡献率越大,表明公因子对X的贡献越大。

(3)基本分析结果

A)KMO和球形Bartlett检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,Bartlett球形检验是判断相关矩阵是否是单位阵,参见图3-2。

由Bartlett检验可以看出,应拒绝个变量独立的假设,即变量间具有较强的相关性,但是KMO的统计量为0.620,小于0.7,说明个变量间信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。

B)变量共同度Communalities是表示各变量中所含原始信息能被提取的公因子所表示的程度,由图3-3所示的变量共同度可知:几乎所有变量的共同度都在80%以上,因此提取出的这几个公因子对各变量的解释能力是较强的。

C)碎石图用于显示各因子的重要程度,横轴为因子序号,纵轴表示特征根大小,从中可以非常直观的了解到哪些是最主要的因子,参见图3-5。本例中可见前三个因子的散点位于陡坡之上,而后五个因子散点成了平台,且特征根均小于1,因此至多考虑前三个公因子即可。

D)图3-4给出的是各成分的方差贡献率和累计贡献率,以及进行因子旋转后的方差贡献率和累计贡献率,前者将在主成分分析中进行说明。

E)图3-6为因子载荷矩阵,在前面已经直接按列的方向将其解释为个成分的系数,实际上严格讲因子载荷矩阵应该是各因子在各变量上的载荷,即是各因子对各变量的影响度。表示如下:

ZX1=0.884F1+0.385F2+0.120F3+

ZX2=0.606F1-0.596F2-0.277F3+

.

.

ZX8=0.822F1+0.429F2-0.210F3+

在表达式中各变量已经不是原始变量,而是标准化变量。表示特殊因子,是除了这3个公因子之外影响该变量的其他因素。原来设计了8个指标来表示经济发展水平,但是经过因子分析后,只需要三个因子即可描述影响地区经济发展状况。

F)为了使因子载荷矩阵中系数更加显著,可以对初始因子载荷矩阵进行转换,使因子和原始变量间的关系进行重新分配,相关系数向0-1分化,从而更加容易解释。图3-9是进行因子旋转的空间示意图,值得注意的是旋转前后各变量散点的相对位置保持不变,即旋转并不改变因子分析的整体结果,只是影响各因子在各变量上的载荷分布,并影响各因子的贡献率。本例中采用的是方差最大正交旋转法进行因子旋转,输出的结果参见图3-4.,由图可知,只有前三个特征根

大于1,因此SPSS只提取了前三个公因子。在旋转后三个公因子的方差累计贡献率均发生了变化,但仍然会保持从大到小的顺序,而且前三个因子的方差贡献率仍为89.55%,和旋转前完全相同,因此选前三个因子已足够描述经济发展的水平。

G

由图可以看出,第一公因子在、、、有较大的载荷,主要从GDP、

固定资产投资、货物周转量和工业总产值反映经济发展状况,可以命名为总量因子。第二公因子在、上有较大载荷,从居民消费水平和职工平均工资方面反映经济发展水平,因此命名为消费因子。第三公因子在和上有较大载荷,表现为居民消费价格指数和水平价格指数方面,因此命名为价格因子。与未旋转前相比较,旋转后各公因子的意义显然更加明确合理。

H)因子得分:前面得到了因子结构表达式,可以将各变量表示为公因子的线性形式,但是更多的时候需要将公因子表达为各变量的线性形式。公因子的得分系数函数不能通过矩阵变换的方法由因子载荷阵得到,只能采用估计的方法求得,本例采用的是回归法。因子得分系数矩阵如图3-10所示,据此可以直接写出各公因子的得分表达式:

F1=0.306ZX1+0.025ZX2+0.270ZX3-0.025ZX4+0.248ZX5+0.070ZX6+0.077Z X7+0.317ZX8

F2=0.011ZX1+0.387ZX2+0.129ZX3+0.451ZX4-0.319ZX5+0.180ZX6-0.098Z X7+0.026ZX8

F3=0.047ZX1+0.040ZX2+0.075ZX3+0.096ZX4-0.139ZX5+0.653ZX6+0.462ZX7+ 0.123ZX8解释的总方差

SPSS已经给出三个公因子的得分,保存在fac_1~fac_3中,按各因子对应的方差贡献率为权数计算如下综合统计量:

F=F1+F2+F3

=0.730F1+0.141F2+0.129F3

在SPSS中用程序计算综合因子得分:

Comp score=0.73* fac1_1+0.141* fac2_1+0.129* fac3_1

2.主成分分析

A)由图3-1(各变量相关系数矩阵)可以看出,许多变量之间直接的相关性比

较强,的确存在信息上的重叠。

B)由图3-4(具体不再阐述)可知,只有前三个特征根大于1,因此SPSS只

提取了前三个主成分,前三个主成分的方差贡献率达到89.55%,因此选前三个主成分已足够描述经济发展的水平。

C)图3-6输出为主成分系数矩阵,从而得到各主成分的表达式,在表达式中

各变量已经不是原始变量,而是标准化变量。

F1=0.884ZX1+0.606ZX2+0.911ZX3+0.465ZX4+0.486ZX5-0.51ZX6-0.621Z

X7+0.822ZX8

F2=0.385ZX1-0.596ZX2+0.163ZX3-0.725ZX4+0.737ZX5+0.257ZX6-0.596

ZX7+0.429ZX8

F3=0.120ZX1+0.277ZX2+0.213ZX3+0.362ZX4-0.279ZX5+0.794X6-0.433Z

X7+0.210ZX8

因为各自变量已经过标准化,因此以上三个主成分的均数均为0。

可以证明,各主成分的方差应当为前述特征根,但这里计算的数值方差均

为特征根的平方,即各主成分的原始数值还应该除以一个特征根的平方根才行,但是因为不会对分析结果产生影响,因此在这里不再给出详细计算过程及结果。

在第一主成分中,X1,X2,X3,X8的系数较大,可以看成是反映GDP、固定资产投资、居民消费水平和工业总产值的综合指标。在第二主成分中,X4H和X5的系数较大,可以看成是反映职工平均工资和货物周转量方面的综合指标。在第三主成分中,X6系数最大,可以看成是反映居民消费价格指数方面的综合指标。主成分分析本质上是一种矩阵变换过程。

四、附录

相关主题