搜档网
当前位置:搜档网 › SPSS聚类分析和判别分析论文

SPSS聚类分析和判别分析论文

SPSS聚类分析和判别分析论文
SPSS聚类分析和判别分析论文

基于聚类分析的我国城镇居民消费结构实证分析

摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍

存在较大差别。文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平

方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和

比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国

各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。

关键词:消费结构;聚类分析;判别分析;政策建议;

一、引言

近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台

住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济

政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变

化,结构不合理现象也得到了一定程度的调整。但是,由于各地区的经济发展不平衡及

原有经济基础的差异,使各地区的消费结构仍存在着明显差别。为了进一步改善消费结

构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区

城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握

各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和

谐增长提供决策依据。

二、消费结构的数据分析

消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替

代、制约的关系。就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费

支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需

求结构,体现一国或各地区的经济发展水平和居民生活状况。

(一)数据来源

为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示),

对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、

居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和

服务八项指标,分别用来反映较高、中等、较低居民消费结构。

表1 各地区城镇居民家庭平均每人全年消费支出 (2013年)

(二)聚类分析

本文使用spss21.0软件作为统计分析工具,采用欧氏距离平方法对全国31个省、直辖市、自治区进行系统聚类分析,得到聚类分析群集成员(表2)、冰柱图(图1)及树状图(图2)。

表2 聚类分析结果

图2

从表2、图1和图2可以看到,我国各类地区城镇居民消费结构的相似性效果较好,且不同类型地区的消费结构有着各自的特点。

第一类为北京、上海、浙江和广东,居民消费水平较高的地区。第一类中的北京、上海、浙江、广东等地区的医疗保健支出、交通和通讯支出、娱乐教育文化服务支出、居住支出等方面都远远高出全国平均水平,综合来看,第一类地区经济较发达,各方面

的消费能力都较高。在此类中,北京的娱乐教育文化服务支出在全国个省份中名列前茅,北京的科研机构多,藏书量大,高等院校多,娱乐设施先进齐全,这些都是导致北京该项支出比例高的原因,不愧为我国教育文化交流的中心。纵观全国,各地区娱乐教育文化服务比重近年来呈现逐渐上升的趋势,这说明国家及各地区对教育的重视程度均有显着提高,并已逐步落实到行为中,初见成效,这也有利于我国进一步推进科教兴国战略。第二类为天津、辽宁、江苏等,作为第二类的城市天津和江苏有很多相似之处:第一,二者分别都靠近第一类城市北京和上海,他们可以看作是北京和上海的外延;第二,二者分别处于京津唐和沪宁杭地区,经济发达;第三,二者是沿海城市,交通发达,为对外贸易提供极大的便利。第三类为其他省,市,自治区,经济落后地区,他们大多是欠发达的内陆城市,无论是经济、政治还是文化发展水平都有限,居民人均收入水平不高,致使人们消费能力及消费欲望相比较其他类而言属最低水平。第四类为安徽、湖北、湖南、四川等地区,作为第四类。这些地区有着一定的资源和地理优势,但较之一二两类又明显不足,经济水平相对较弱,旅游等行业缺少明显优势,居民消费水平偏低。

(三)指标分析

为了进一步分析各类指标特征,对各类指标的均值、方差、标准差、偏差、峰度进行分析,分析结果如表3。

指标特征第一类第二类第三类第四类

X1

均值6002.25 4527.86 3372.56 4189.27 方差885684.25 292314.143 27703.278 71682.818 标准差941.108 540.661 166.443 267.736 偏度 1.457 0.103 -0.212 -0.003 峰度 2.085 0.216 0.479 -1.049

X2 均值1517 1440.14 1253 1046.82

从表3可以看出,第一类地区的均值是最大的,其城镇居民消费水平最高,处于领先地位。同时,第一类地区的方差和标准差相对较高,说明其组内地区差距较大;第三类地区均值最小,其城镇居民消费水平最高,属于经济不发达。第三类地区方差和标准差相对较低,偏度和峰度也相对较小,组内各地区居民消费结构差距较小,各指标相对集中,且异常值较少,特征更加明显。

(四)判别分析

我们已对2013年全国各地区城镇居民家庭平均每人全年消费支出进行聚类分析,将全国31个省、市、自治区2013年各地区城镇居民消费结构分为四类,考察的变量有城镇居民食品、衣着、居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和服务。现从结果中选取四组样品(数据表4所示),另选4个地区作为待判样品作判别分析,输出判别分析函数系数表(表5)和分析结果(表6)。表4 各地区城镇居民家庭平均每人全年消费支出 (2013年)

对样本进行判别分析,得到判别分析结果如表5所示。

表5 判别分析函数系数表

将待判样品数据代入四个函数中,每个样品对应的四个函数值进行比较,其中函数

值最大的那个是第几个函数,则判该样品为第几类。计算后发现,浙江对应的四个函数中第一个大,所以被划分为第一类。江苏对应的四个函数中,第二个大,所以被划分为第二类。吉林对应的四个函数中第三个大,所以被划分为第三类。安徽对应的四个函数中,第四个大,所以被划分为第四类。

表6 判别分析结果 347.882-0.338X8-0.098X7+0.066X6+0.116X5+0.090X4+0.078X3-0.151X2+0.115X1=Y3786.675-0.460X8-0.188X7+0.112X6+0.232X5+0.151X4+0.155X3-0.170X2+0.162X1=Y21342.696-0.532X8-0.296X7+0.143X6+0.318X5+0.186X4+0.236X3-0.205X2+0.197X1=Y1

有判别分析结果可知,浙江仍为第一类,属于沪宁杭地区,经济发达;它靠近第一类城市上海,他们可以看作是上海的外延;而且是沿海城市,交通发达,为对外贸易提供极大的便利。江苏地理位置优越,交通便利,服务业和工业发达,综合经济实力在全国一直处于前列,其消费能力相对较高,所以其居民消费结构被列入第二类,是合理的。吉林属于内陆城市,没有入海港,对外贸易不发达。其水路和陆路运输没有绝对优势,经济发展不高,居民消费属偏下水平,归属于第三类。安徽虽未内陆城市但是其地理位置较好,旅游发达,居民消费能力比第三类地区略高一些。

四、促进我国消费结构合理化的政策建议

根据以上分析可以看出,经济发展较好的地区居民的消费水平较高,消费结构也越合理。而且,居民收入水平是影响居民消费需求最直接、最根本的因素,并最终决定着居民的消费层次和消费结构。但是,典型地区西藏又可见,除收入水平外,还有很多因素影响居民消费结构,如:价格水平、消费习惯、消费环境、消费心理预期等等,因而,政府也要继续出台切实有效的政策措施,增加居民消费积极性,并引导居民消费结构向更健康、合理的方向演进,以期全面提高我国各地区城镇居民的生活质量。鉴于此,提出以下几点建议:

1. 提高居民收入水平,增强扩大消费的基础。收入是影响居民消费需求最直接、最根本的因素,并最终决定着居民的消费层次和消费结构。因此,在国家经济增长的同时,进一步提高城镇居民的收入水平,以提高消费者对国家经济走势的良好预期。同时,国家还需采取措施改善经济发展不平衡的现象,尽可能地缩小不同地区间的收入差距,真正发挥大国经济的内部拉动作用,使经济发展走上需求投资拉动的良性发展的道路。

2. 刺激消费需求,培育新的消费热点。当前,我国消费需求相对不足。这些年来,政府一直花大力气刺激我国的消费需求,取得了积极的成果。假日旅游消费、通讯及电子产品的消费、住房消费、居民汽车消费等极大的拉动了居民的消费需求。一方面,我们应该进一步巩固已有成果,另一方面还须培育新的消费热点,如医疗保健、保险等。北京、上海等经济发达地区往往住房紧张,因此,大力发展这些地区的房地产事业是进一步提高居民消费水平的有效手段;经济发展相对落后的地区,交通和通讯条件是制约其发展的瓶颈,应在交通和通讯方面入手,不断加强城市化建设,以促进城镇居民生活水平地提高。

3. 引导文化消费,丰富精神文化生活。引导人们自觉提高文化消费,特别是智力性、发展性消费的比重,加大消费中的文化含量和科技含量,提高消费层次和质量,这本身就是人力资本投资。精神文化领域的扩大,高层次的精神文化消费活动就会增多,消费者的人力资本积累也就提高了,进而提高了整个社会的资本存量,从供给方面带动经济的进一步发展。

4. 加快中西部发展,缩小地区差异。中西部地区由于地理位

置和历史原因,大多数经济基础差,发展相对滞后,因而必须加快这些地区的发展。政府应从资金、政策上相对倾斜扶持,为其发展创造一个良好的外部投资环境,吸引各方参与西部大开发;各地区也应积极探索发展新思路,借鉴经济发达地区的成功经验,利用自身的资源优势和后发优势,抓住西部大开发的机遇实现跨越式发展,尽可能缩小地区差距。

五、结语

本文应用聚类分析和判别的分析方法,对2013年我国31 个省、直辖市及自治区的城镇居民消费结构进行统计分析,分析结果我国的实际情况基本相符,不同类型地区的居民消费结构的相似程度也不同,且有着各自的特点。在此基础上本文对评价结果进行了比较分析,并提出了促进城镇居民消费结构合理化的政策建议,为我国各地区因地制宜地制定消费政策提供了科学合理的决策借鉴。

参考文献

[1]丁咏梅,周晓阳.我国城镇居民消费结构的统计分析.市场研究,2004,(1):15-18.

[2]何晓群.多元统计分析.北京:中国人民大学出版社,2004:54-76.

[3]余建英,何旭宏. 数据统计分析与SPSS 应用.北京:人民邮电出版社,2003:256-263.

[4]李泓欣,丁孟春.我国居民消费结构存在的问题及对策.工业技术经济,2003,(5):54-55.

[5]方征. 我国城镇居民消费结构现状及对内需影响之分析.特区经济,2005,(11):19-21.

[6]吴恒. 北京居民消费结构升级对优化产业结构的影响分析.首都经济贸易大学,2008.

完整word版,SPSS聚类分析实验报告.docx

SPSS 聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练 SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T 检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用 K-Mean法把 31 省分成 3 类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从 Word文档复制到 Excel ,并进一步导入到 SPSS数据文件中。 分析:由于本实验中要对 31 个个案进行分类,数量比较大,用系统聚类法当然也 可以得出结果,但是相比之下在数据量较大时, K 均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出 =各变量之和如图所示: 2.对变量食品支出和居住支出进行配对样本 T 检验,如图所示:

得出结论: 3.对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

初始聚类中心 聚类 123 食品支出7776.983052.575790.72衣着支出1794.061205.891281.25居住支出2166.221245.001606.27家庭设备及服务支出1800.19612.59972.24医疗保健支出1005.54774.89617.36交通和通信支出4076.461340.902196.88文化与娱乐服务支出3363.251229.681786.00其它商品和服务支出1217.70331.14499.30总消费支出23200.409792.6614750.02 迭代历史记录a 聚类中心内的更改 迭代123 11250.5921698.8651216.114 2416.86470.786173.731 3138.955 2.94924.819 446.318.123 3.546 5849.114319.1791362.411 6805.00415.199606.915 7161.001.72475.864 832.200.0349.483 9 6.440.002 1.185 10 1.2887.815E-5.148

SPSS软件聚类分析过程的图文解释及结果的全面分析

SPSS聚类分析过程 聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化) 2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数) SPSS软件聚类步骤 1. 数据预处理(标准化) →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可: 标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|x ij*|<1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。);Range 0 to 1(极差正规化变换/ 规格化变换); 2. 构造关系矩阵 在SPSS中如何选择测度(相似性统计量): →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数; 3. 选择聚类方法 SPSS中如何选择系统聚类法 常用系统聚类方法 a)Between-groups linkage 组间平均距离连接法 方法简述:合并两类的结果使所有的两两项对之间的平均距离最小。(项对的两成员分属不同类)特点:非最大距离,也非最小距离 b)Within-groups linkage 组内平均连接法 方法简述:两类合并为一类后,合并后的类中所有项之间的平均距离最小 C)Nearest neighbor 最近邻法(最短距离法) 方法简述:用两类之间最远点的距离代表两类之间的距离,也称之为完全连接法

SPSS软件聚类分析过程的图文解释及结果的全面分析

SPSS软件聚类分析过程的图文解释及结果的全面分析

SPSS聚类分析过程 聚类的主要过程一般可分为如下四个步骤: 1.数据预处理(标准化) 2.构造关系矩阵(亲疏关系的描述) 3.聚类(根据不同方法进行分类) 4.确定最佳分类(类别数) SPSS软件聚类步骤 1. 数据预处理(标准化) →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择 从Transform Values框中点击向下箭头,此为标准化方法,将出现如下可选项,从中选一即可:

标准化方法解释:None:不进行标准化,这是系统默认值;Z Scores:标准化变换;Range –1 to 1:极差标准化变换(作用:变换后的数据均值为0,极差为1,且|x ij*|<1,消去了量纲的影响;在以后的分析计算中可以减少误差的产生。);Range 0 to 1(极差正规化变换 / 规格化变换); 2. 构造关系矩阵 在SPSS中如何选择测度(相似性统计量): →Analyze →Classify →Hierachical Cluster Analysis →Method 然后从对话框中进行如下选择

常用测度(选项说明):Euclidean distance:欧氏距离(二阶Minkowski距离),用途:聚类分析中用得最广泛的距离;Squared Eucidean distance:平方欧氏距离;Cosine:夹角余弦(相似性测度;Pearson correlation:皮尔逊相关系数; 3. 选择聚类方法 SPSS中如何选择系统聚类法 常用系统聚类方法 a)Between-groups linkage 组间平均距离连接法 方法简述:合并两类的结果使所有的两两项对之

SPSS聚类分析和判别分析论文

基于聚类分析的我国城镇居民消费结构实证分析 摘要:近年来,我国城镇居民的整体消费水平逐渐提高,但各地区间的消费结构仍 存在较大差别。文章选用8个城镇居民消费结构统计指标,采用欧式距离平方和离差平 方和法,对我国31个省、直辖市及自治区的2013年城镇居民消费结构进行聚类分析和 比较研究。这不仅从总体上掌握了我国消费结构类型的地区分布,而且系统分析了我国 各地区消费结构的特点及产生原因,为国家制定消费政策提供了决策依据。 关键词:消费结构;聚类分析;判别分析;政策建议; 一、引言 近年来,随着我国经济的快速发展,城镇居民的收入不断增加,并且在国家连续出台 住房、教育、医疗等各项改革措施和实施“刺激消费、扩大内需、拉动经济增长”经济 政策的影响下,我国各地区城镇居民的消费支出也强劲增长,消费结构发生了巨大的变 化,结构不合理现象也得到了一定程度的调整。但是,由于各地区的经济发展不平衡及 原有经济基础的差异,使各地区的消费结构仍存在着明显差别。为了进一步改善消费结 构,正确引导消费,提高我国城市居民的消费水平和生活质量,有必要考察我国各地区 城镇居民的消费结构之间的异同并进行比较研究,以期发现特点和规律,从宏观上把握 各地区城镇居民的消费现状和不同地区消费水平的差异,为提高我国各地区消费水平和 谐增长提供决策依据。 二、消费结构的数据分析 消费结构指居民在生活消费过程中,不同类型消费的比例及其相互之间的配合、替 代、制约的关系。就其数量关系来看,消费结构是指在消费过程中不同商品或劳务消费 支出占居民总消费支出的比重,反映了一定社会经济条件下人们对各类商品及劳务的需 求结构,体现一国或各地区的经济发展水平和居民生活状况。 (一)数据来源 为了更加深入地了解我国城镇居民消费结构,先利用2013年全国数据(如表1所示), 对全国31个省、直辖市、自治区进行聚类分析。分析采用选用了城镇居民食品、衣着、 居住、家庭用品及服务设备、医疗保健、交通和通信、教育文化娱乐服务、其它商品和 服务八项指标,分别用来反映较高、中等、较低居民消费结构。 表1 各地区城镇居民家庭平均每人全年消费支出 (2013年)

SPSS教程-聚类分析-附实例操作

各地区各行业工资水平的分析(2009年数据) 小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍 1.研究背景及意义 1.1 研究背景 工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的水平。 1.2 研究意义 1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。 2. 将平均工资水平划分为3类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供宏观上的方向指引。 2.数据来源与描述 2.1 数据来源——《中国劳动统计年鉴─2010》 (URL:https://www.sodocs.net/doc/3818923886.html,/Navi/YearBook.aspx?id=N2011010069&floor=1###) 主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司 出版社:中国统计出版社 简介:《中国劳动统计年鉴─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。本刊收集了2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。 2.2 数据描述 本数据集记录了全国31个省市(港、澳、台除外)的工资状况,各省市分别记录了其23个主要行业的平均工资水平,这23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地产业、农林牧渔业等等,具体数据格式参见图-0。

图-0 3.分析方法及原理 3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高 描述统计分析方法主要是从基本统计量(诸如均值、方差、标准差、极大/小值、偏度、峰度等)的计算和描述开始的,并辅助于SPSS提供的图形功能,能够把握数据的基本特征和整体的分布特征。 在本案例中,通过比较不同行业(诸如企业、事业、机关、建筑业、制造业……)工资的均值、极大/小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。 3.2 通过聚类分析方法,判断哪些地区平均工资水平较高 聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间具有相似性,不同类间个体特征的差异性较大。 在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是K-均值法(快速聚类法)。 3.2.1系统聚类法 系统聚类法的基本原理:首先将一定数量的样本或指标各自看成一类,然后根据样本(或指标)的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。 系统聚类分为Q型聚类和R型聚类两种:Q型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;R型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。 在本例中进行的是Q型聚类。 类与类之间距离的计算方法主要有以下几种: (1)最短距离法(Nearest Neighbor),是指两类之间每个个体距离的最小值; (2)最长距离法(Farthest Neighbor),是指两类之间每个个体距离的最大值; (3)组间联接法(Between-groups Linkage),是指两类之间个体之间距离的平均值;

聚类分析的SPSS实现

§7.5聚类分析的SPSS实现 一、系统聚类法的SPSS实现 例7.5.1利用全国30个省市自治区经济发展基本情况的八项指标数据(见数据集wyzb6_5.),用系统聚类法对这30个省市自治区作一初步的分类,并说明各类地区经济发展的特点。 操作 分析(Analyze)?分类(Classify)?系统聚类(Hierarchical Cluster)打开系统聚类分析(Hierarchical Cluster Analysis)对话框 1.变量(V ariable(s))列表框设置分析变量。 2.标志个案(Label Cases by)框设置分析对象的标志变量。3.分群(Cluster)单选择框设置聚类分析的类型。 4.输出(Display)复选择框设置聚类分析的输出结果,统计量和图都是默认选项。 5.统计量(Statistics)按钮设置输出的统计量。 合并进程表(Agglomeration schedule)默认选项,输出聚类分析的凝聚状态表; 相似性矩阵(Proximitymatrix)为复选项,输出各样品的距离矩阵。 聚类成员(Cluster Menbership)选择框: 无(None)选项:不显示类的样品构成; 单一方案(Single solution)选项:选择此项,并输入一个确定的分类数n,并输出聚成n个类时各个类的样品构成 情况。 方案范围(Range of solutions):选择此项,并输入两个数n1,n2,将显示指定聚成n1类到n2类时各个类的样品构成 情况。

6.Plots按钮设置输出图形:树状图冰状图 7.Method按钮设置聚类分析的具体方法。 聚类方法: 组间连接:类间平均法 组内连接:类内平均法 最近临元素:最短距离法 最远临元素:最长距离法 质心聚类法:重心法 中位数聚类法:中位数法 Ward法:离差平方和法 度量方法选择框:选择计算样品距离的方法转换值选择框:选择原始数据标准化的方法Z得分,最常用的方法

SPSS聚类分析实验报告

SPSS聚类分析实验报告 一.实验目的: 1、理解聚类分析的相关理论与应用 2、熟悉运用聚类分析对经济、社会问题进行分析、 3、熟练SPSS软件相关操作 4、熟悉实验报告的书写 二.实验要求: 1、生成新变量总消费支出=各变量之和 2、对变量食品支出和居住支出进行配对样本T检验,并说明检验结果 3、对各省的总消费支出做出条形图(用EXCEL做图也行) 4、利用K-Mean法把31省分成3类 5、对聚类分析结果进行解释说明 6、完成实验报告 三.实验方法与步骤 准备工作:把实验所用数据从Word文档复制到Excel,并进一步导入到SPSS数据文件中。 分析:由于本实验中要对31个个案进行分类,数量比较大,用系统聚类法当然也可以得出结果,但是相比之下在数据量较大时,K均值聚类法更快速高效,而且准确性更高。 四、实验结果与数据处理: 1.用系统聚类法对所有个案进行聚类:

生成新变量总消费支出=各变量之和如图所示: 2. 对变量食品支出和居住支出进行配对样本T检验,如图所示:

得出结论: 3. 对各省的总消费支出做出条形图,如图所示: 4.对聚类分析结果进行解释说明: K均值分析将这样的城市分为三类: 第一类北京、上海、广东 第二类除第一类第三类以外的 第三类天津、福建、内蒙古、辽宁、山东 第一类经济发展水平高,各项支出占总支出比重高,人民生活水平高。第二类城市位于中西部地区,经济落后,人民消费水平低。第三类城市位于中东部地区,经济发展较好。

迭代历史记录a 迭代 聚类中心内的更改 1 2 3 1 1250.592 1698.865 1216.114 2 416.864 70.786 173.731 3 138.955 2.949 24.819 4 46.318 .123 3.546 5 849.114 319.179 1362.411 6 805.004 15.199 606.915 7 161.001 .724 75.864 8 32.200 .034 9.483 9 6.440 .002 1.185 10 1.288 7.815E-5 .148 初始聚类中心 聚类 1 2 3 食品支出 7776.98 3052.57 5790.72 衣着支出 1794.06 1205.89 1281.25 居住支出 2166.22 1245.00 1606.27 家庭设备及服务支出 1800.19 612.59 972.24 医疗保健支出 1005.54 774.89 617.36 交通和通信支出 4076.46 1340.90 2196.88 文化与娱乐服务支出 3363.25 1229.68 1786.00 其它商品和服务支出 1217.70 331.14 499.30 总消费支出 23200.40 9792.66 14750.02

相关主题