聚类分析
引言
俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。
研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。
聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。
聚类分析给人们提供了丰富多彩的分类方法,大致可归为:
⑴系统聚类法:首先,将n 个样品看成n 类,然后将性质最接近的两类合并成一个新类,得到1 n 类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。
⑵动态聚类法(调优法):首先对n 个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。
⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、
三类,一直分割到所需的K类为止。这种方法适用于有序样品的分类问题,故称为有序样品聚类法.
⑷模糊聚类法:该方法多用于定性变量的分类.利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据和多态数据具有明显的分类效果.
⑸图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的方法.
⑹聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来作预报的方法很多,如回归分析或判别分析.但对一些异常数据,如气象中的灾害性天气的预报,使用回归分析或判别分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。本书主要介绍⑴~⑷
聚类分析不仅可以对样品进行分类,也可以对变量进行分类。对样品的分类称为Q型聚类分析,对变量进行分类称为R型聚类分析。
聚类分析的历史还很短,它的方法很粗糙,理论上还不完善,但由于能解决许多实际问题,所以很受人们重视,同回归分析、判别分析一起被称为多元分析的三大实用分析方法。
聚类统计量
在对样品(或变量)进行分类时,样品(或变量)之间的相似性是如何度量的呢?这一节中,我们介绍三种相似性度量—距离、匹配系数和相似系数。距离和匹配系数常用来度量样品之间的相似性,相似系数常用来变量之间的相似性。样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。通常变量按取值的不同可以分为:
1.定量变量:变量用连续的量来表示,例如长度、重量、速度、人口等,又称为间隔尺度变量。
2.定性变量:并不是数量上有变化,而只是性质上有差异。定性变量还可以再分为:
⑴有序尺度变量:变量不是用明确的数量表示,而是用等级表示,例如某产品分为一
等品、二等品、三等品等,文化程度分为文盲、小学、中学、大学等。
⑵名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,例
如性别分为男、女,职业分为工人、教师、干部、农民等。
下面我们主要讨论具有定量变量的样品聚类分析,描述样品间的亲疏程度最常用的是距离。
9.2.1距离
1. 数据矩阵
设ij x 为第i 个样品的第j 个指标,数据矩阵如下表 表9.1 数据矩阵
在上表中,每个样品有p 个变量,故每个样品都可以看成是p
R 中的一个点,n 个样品就是p
R 中的n 个点。在p
R 中需定义某种距离,第i 个样品与第j 个样品之间的距离记为ij d ,在聚类过程中,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。所定义的距离ij d 一般应满足如下四个条件:
⑴0≥ij d ,对一切j i ,;且0),(=j i x x d 当且仅当j i x x = ⑵ji ij d d =,对一切j i ,; ⑶kj ik ij d d d +≤,对一切k j i ,, 2.定量变量的常用的距离
对于定量变量,常用的距离有以下几种: ⑴闵科夫斯基(Minkowski )距离 q
p
k q jk ik
ij x x
q d 1
1
][
)(∑=-=
这里q 为某一自然数。闵科夫斯基距离有以下三种特殊形式:
1) 当1=q 时,∑=-=
p
k jk ik
ij x x
d 1
)1(称为绝对值距离,常被形象地称为“城市街区”距离;
2) 当2=q 时,2
11
2
][
)2(∑=-=p
k jk ik
ij x x
d ,称为欧氏距离,这是聚类分析中最常用的距离;
3)当∞=q 时,jk ik p
k ij x x d -=∞≤≤1m ax )(,称为切比雪夫距离。
)(q d ij 在实际中用得很多,但是有一些缺点,一方面距离的大小与各指标的观测单位有关,另一方面它没
有考虑指标间的相关性。
当各指标的测量值相差悬殊时,应先对数据标准化,然后用标准化后的数据计算距离;最常用的标准化处理是:
令 j
j
ij ij
s x x x -=
*
其中∑==n i ij j x n x 11为第j 个变量的样本均值,∑=--=n
i j ij j x x n s 1
2)(11为第j 个变量的样本方差。 ⑵兰氏(Lance 和Williams )距离
当0>ij x (;,,2,1n i = p j ,,2,1 =)时,第i 个样品与第j 个样品间的兰氏距离为
∑
=+-=p
k jk
ik jk ik ij x x x x L d 1
)(
这个距离与各变量的单位无关,但没有考虑指标间的相关性。 ⑶马氏距离(Mahalanobis )距离 第i 个样品与第j 个样品间的马氏距离为 )()'()(1j i j i ij x x S x x M d --=
-
其中)',,,(21ip i i i x x x x =,),,(21jp j j j x x x x =,S 为样品协方差矩阵。
使用马氏距离的好处是考虑到了各变量之间的相关性,并且与各变量的单位无关;但马氏距离有一个很大的缺陷,就是S 难确定。由于聚类是一个动态过程,故S 随聚类过程而变化,那么同样的两个样品之间的距离可能也会随之而变化,这不符和聚类的基本要求。因此,在实际聚类分析中,马氏距离不是理想的距离。
⑷斜交空间距离
第i 个样品与第j 个样品间的斜交空间距离定义为
∑∑==*
--=p k p
l kl jl il jk ik
ij r x x x x
p
d 12
11
2
]))((1[
其中kl r 是变量k x 与变量l x 间的相关系数。当p 个变量互不相关时,p
d d ij ij
)2(=*,即斜交空间距离退化为欧氏
距离(除相差一个常数倍外)。
以上几种距离的定义均要求样品的变量是定量变量,如果使用的是定性变量,则有相应的定义距离的方法。 3.定性变量的距离
下例只是对名义尺度变量的一种距离定义。
例9.1.1 某高校举办一个培训班,从学员的资料中得到这样6个变量:性别(1x )取值为男和女;外语语种(2x )取值为英、日和俄;专业(3x )取值为统计、会计和金融;职业(4x )取值为教师和非教师;居住处(5x )取值为校内和校外;学历(6x )取值为本科和本科以下。
现有两名学员:
=1x (男,英,统计,非教师,校外,本科)ˊ =2x (女,英,金融,教师,校外,本科以下)ˊ
这两名学员的第二个变量都取值“英”,称为配合的,第一个变量一个取值为“男”,另一个取值为“女”,称为不配合的。一般地,若记配合的变量数为1m ,不配合的变量数为2m ,则它们之间的距离可定义为
2
12
12m m m d +=
按此定义本例中1x 与2x 之间的距离为
3
2。 当样品的变量为定性变量时,通常采用匹配系数作为聚类统计量。
9.2.2.匹配系数
定义9.2.1 第i 个样品与第j 个样品的匹配系数定义为
∑==
p
k k
ij Z
S 1
,其中
jk
ik jk
ik k x x x x Z ≠=??
?=当当,
0,1
显然匹配系数越大,说明两样品越相似。
例9.2.1 对购买家具的顾客作聚类分析。有以下三个变量: 1x :喜欢的式样,老式记为1,新式记为2;
2x :喜欢的图案,素式记为1,格子式记为2,花式记为3;
3x :喜欢的颜色,蓝色记为1,黄色记为2,红色记为3,绿色记为4。 下面列出
表9.2 四位顾客(样品)的观测值
解 各样品为名义尺度变量,其取值仅代表不同状况、类别,无大小次序关系,故采用匹配系数作为聚类统计量,由定义得
311111=++=S ,100112=++=S ,101013=++=S ,000014=++=S
322=S ,023=S ,101024=++=S 333=S ,234=S ,344=S
注:⑴对j i ,?,ij S 为非负整数;
⑵ij S 越大,表明样品越相似;按ij S 由大到小,可将样品逐步聚类。
⑶上述匹配系数的计算没有考虑到各个变量取值个数的多寡而一视同仁。在上例中, 式样1x 只取两个值1和2,图案2x 取三个值(1,2,3),颜色3x 取四个值(1,2,3,4). 故 {}1}1{}1{321=>=>=x P x P x P 即 }{}{}{332211j i j i j i x x P x x P x x P =>=>=
这样,ij S 的大小主要由1x 控制,而2x 与3x 的作用不适当地被削弱了。为了解决 这一问题,引进对指标加权的匹配系数: ∑==
p
k k k
ij x v
S 1
其中k v 是指标k x 的权数,等于k x 可能取值的个数。 对上例,求得各加权匹配系数为:
911=S ,204031212=?+?+?=S ,3013013=+?+=S ,014=S , 922=S ,023=S ,3013024=+?+=S , 933=S ,614031234=?+?+?=S ,944=S .
聚类分析方法不仅用来对样品进行分类,而且可用来对变量进行分类。在对变量进行分类时,常常采用相似系数来度量变量之间的相似性。
9.2.3相似系数
设ij c 表示i x 与j x 的相似系数,它一般应满足如下三个条件: ⑴1≤ij c ,对一切j i ,;
⑵1±=ij c ,当且仅当存在常数a 和b ,使得b ax x j i +=; ⑶ji ij c c =,对一切j i ,. 最常用的相似系数有以下两种: 1. 夹角余弦
变量i x 与j x 的夹角余弦定义为
2
11
2
1
21]
[)1(∑∑∑===?=
n
k kj n k ki n
k kj
ki
ij x x x x
c
它是n R 中变量i x 的观测向量'
21),,,(ni i i x x x 与变量j x 的观测向量'21),,,(nj j j x x x 之间夹角ij θ的余弦
函数,即ij ij c θcos )1(=.
2. 相关系数
变量i x 与j x 的相关系数为
∑∑∑===-?---=
n k n
k j kj i ki n
k j kj i ki
ij x x x x x x x x
c 1
2
1
1
22
1
]}
)([])({[)
)(()2(
其中∑==
n
k ki
i x
x 1
,∑==
n
k kj
j x
x 1
注:⑴)2(ij c 实际上是将数据标准化后的交角余弦。
⑵变量之间的这种相似性度量,在一些应用中要看相似系数的大小,而在另一些应用中要看相似系数绝对值的大小。相似系数(或其绝对值)越大,认为变量之间相似程度就越高;反之,则越低。 ⑶聚类时,比较相似的变量倾向于归为一类,不太相似的变量归属不同的类。 ⑷变量之间常借助于相似系数来定义距离,如令 2
2
1ij ij c d -=
⑸一般来说,同一批数据采用不同的相似性度量,会得到不同的分析结果。在进行聚类分析时,应根据实际情况选取合适的相似性度量,如在经济变量分析中,常用相关系数来描述变量间的相似程度。
系统聚类法
基本思想
首先将n 个样品各自作为一类,并规定样品之间的距离和类与类之间的距离,然后将
距离最近的两类合并成一个新类,计算新类与其它类的距离;重复进行两个最近类的合并,每次减少一类,直至所有的样品合并成一类。
系统聚类的方法
设ij d 表示样品i 与样品j 之间的距离, ,,21G G 表示类,KL D 表示K G 与L G 的距离。 ⑴最短距离法 1)最短距离 定义
},min{L K ij KL G j G i d D ∈∈=
即类与类之间的距离KL D 为两类最近样品间的距离。 由METHOD=SIN 指示SAS 执行
2)最短距离法 步骤如下:
①规定样品之间的距离,计算n 个样品的距离矩阵)0(D ,它是一个对称矩阵。
②选择)0(D 中的最小元素,设为KL D ,则将K G 与L G 合并成一个新类,记为M G ,即},{L K M G G G =;在)0(D 中划去K G 与L G 所对应的两行与两列。
③加入由新类M G 与剩下的未聚合的各类之间的距离所组成的一行和一列,计算新类M G 与任一类J G 之间距离的递推公式为
},min{J M ij MJ G j G i d D ∈∈=
}},min{},,min{min{J L ij J M ij G j G i d G j G i d ∈∈∈∈= },min{LJ KJ D D =
其余行列上的距离值不变,这样就得到了新的距离矩阵,记作)1(D 。
④对)1(D 重复上述对)0(D 的两步得)2(D ,如此下去直至所有元素合并成一类为止。
如果某一步)(m D 中的最小元素不止一个,则称此现象为结,对应这些最小元素的类可以任选一对合并或同时合并。
⑵最长距离法 1)最长距离 定义
},max{L K ij KL G j G i d D ∈∈=
即类与类之间的距离KL D 为两类最远样品间的距离. 由METHOD=COM 指示SAS 执行。
2)最长距离法
最长距离法与最短距离法的步骤类似,当某类K G 与L G 合并成一个新类M G ,M G 与任一类J G 的距离为
=MJ D },ma x{
LJ KJ D D = ⑶中间距离法
最短距离法与最长距离法均取极端值,而对有些问题,比如要反映工资、收入、生活 水平、价格等总体水平,取其中间值更能反映实际。
当某类K G 与L G 合并成一个新类M G ,计算M G 与任一类J G 的距离,其递推公式为 2
222
121KL
LJ KJ MJ D D D D β++= 其中L K J ,,04
1
≠≤≤-
β 常取4
1
-
=β,这时MJ D 正好是以KJ D 、LJ D 、KL D 为边的三角形中KL D 边上的中线. ⑷ 类平均法
类平均法有两种定义:
一种定义方法是把类与类之间的距离定义为所有样品对之间的平均距离,即定义K G 和L G 之间的距离为 ∑∈∈=L
K G j G i ij
L
K KL d
n n D ,1
其中K n 和L n 分别为类K G 和L G 的样品个数,ij d 为 K G 中样品i 与L G 中样品j 之间的距离. 用METHOD=A VE 指示SAS 执行
当某类K G 与L G 合并成一个新类M G ,计算M G 与任一类J G 的距离,其递推公式为 ∑∈∈=j
M G j G i ij
J
M MJ d
n n D ,1
)(1
,,∑∑∈∈∈∈+=
J L J K G j G i ij G j G i ij J M d d n n LJ M
L KJ M K D n n
D n n +=
另一种定义方法是定义类与类之间的平方距离为样品对之间平方距离的平均值,即 2
22
LJ M
L KJ M K MJ D n n D n n D +=
在上面的递推公式中,KJ D 没有被反映出来,为此可可将该公式进一步推广为
2
222
))(
1(KL LJ M
L KJ M K MJ D D n n D n n D ββ++-= 其中1<β,称这种系统聚类法为可变类平均法。 用METHOD=FLE 指示SAS 执行
⑸重心法
类与类之间的距离定义为它们的重心之间的欧氏距离.设K G 和L G 的重心分别为
K x 和L x ,则K G 与L G 之间的平方距离为
)()'(2
2L K L K x x
KL x x x x d D L
K
--==
这种系统聚类法称为重心法,
它的递推公式为 2
2222
KL M
L K LJ M L KJ M K MJ D n n n D n n D n n D -+=
重心法在处理异常值方面比其他系统聚类法更稳健,但是在别的方面一般不如类平均法或离差平方和法的效果好。
由METHOD=CEN 指标SAS 执行.
⑹密度估计法(density method)
这种方法包括两步,第一步定义一种新的距离*d ;第二步基于*d ,采用最短距离法.由METHOD=DEN 指示SAS 执行。
*d 的估计有:
1)k 最近邻估计法:令)(x r k 表示点x 到第k 个最近观测值的距离,其中k 由k =选项指定,考虑以x 为中心,以)(x r k 为半径的闭球,在点x 的密度估计)(x f 为球内观测数被球体积除所得的商,*d 定义为
??
???∞≤+=其他
))
x (r ),x (r (max )x ,x (d ))
x (f 1)x (f 1(
21)x ,x (*d j k i k j i j i j i .
2) 一致核估计法:令r 为选择项R =确定的值,考虑一个中心在x ,半径为r 的闭球,在x 点的密度)(x f 的估计值为球内观测数被球体积去除所得的商,*d 定义为
???
??∞
≤+=其他
r
)x ,x (d ))
x (f 1)x (f 1(21)x ,x (*d j i j i j i
3)Wong 混合法. ⑺离差平方和法
类中各样品到类重心的平方欧氏距离之和称为(类内)离差平方和法. 设类K G 和L G 合并成新类M G ,则K G 、L G 和M G 的离差平方和法分别是 )()'(K i G i K i
K x x x x
W K
--=∑∈ )()'(L i G i L i
L x x x x
W L
--=∑∈ )()'(M i G i M i
M x x x x
W M
--=
∑∈
它们反映了各自类内样品的分散程度.如果K G 和L G 这两类相距较近,则合并后所增加的离差平方和法
L K M W W W --应较小;否则,应较大.
所以我们定义K G 和L G 之间的平方距离
L K M KL W W W D --=2
这种系统聚类法称为离差平方和法或Ward 方法.
离差平方和法类间距离与两类的样品数有较大关系,两个大的类倾向于有较大的距离,
因而不易合并,这往往符合我们对聚类的实际要求.离差平方和法在许多场合下优于重心法,是比较好的一种系统聚类法,但它对异常值很敏感.
由METHOD=W ARD指示SAS执行.
系统聚类的SAS程序
系统聚类可用CLUSTER过程实施,用前述十一种方法对数据集中的观测进行系统聚类,其输入数据可以是数值型的坐标值,也可以是距离值。还可用TREE 过程画谱系图,PRC TREE CLUSTER过程主要包括以下几个语句:PROC CLUSTER语句、V AR语句、ID语句。
⑴PROC CLUSTER语句一般形式是:PROC CLUSTER选择项1选择项2……。PROC CLUSTER语句中的选择项可以是以下几种:
1)数据集选项DATA一…,用以指明过程分析的数据集;
2)OUTTREE=命名一个输出数据集,该数据集供TREE过程用来画谱系图
3)聚类方法选项METHOD=可以是前面的十一种方法中的任一种.
⑵V AR语句一般形式是:V AR变量1 变量2……;V AR语句用来列出聚类分析中所使
用的变量
⑶ID语句一般形式是:ID变量;ID语句用的变量用以区分聚类过程打印输出和
OUTTREE数据集中的观测
TREE过程只有一条语句:PROC TREE DATA=数据集;它根据数据集华谱系图。
proc tree data=tree1;
⑷COPY语句一般形式是:COPY变量。COPY语句用来把列出的变量从输入数据集复制到OUTTREE数据集中。
例9.3.2 对于北京地区1 9 5 1~1 9 6 1年11年的冬季1 2月、1月和2月三个月的气温(数据见)进行聚类分析。共采用五种聚类方法:类平均法、重心法、密度估计法、最小距离法和Ward法。
(1)类平均法可采用以下SAS程序.’
data temperat;
input year Dec Jan Feb;
cards;
1951 1.0 -2.7 -4.3
1952 -5.3 -5.9 -3.5
1953 -2.0 -3.4 -0.8
1954 -5.7 -4.7 -1.1
1955 -0.9 -3.8 -3.1
1956 -5.7 -5.3 -5.9
1957 -2.1 -5.0 -1.6
1958 0.6 -4.3 -0.2
1959 -1.7 -5.7 2.0
1960 -3.6 -3.6 1.3
1961 -3.0 -3.1 -0.8
;
proc cluster data=temperat method=average;
var Dec Jan Feb;
id year;
run;
该程序第一步建立名为temperat的数据集,此数据集包括1 9 51-1 9 6 1年的资料。紧接着的proc cluster 语句调用cluster过程用来对数据集temperat进行聚类,method=average表示采用类平均法,outtree=tree1指示电脑将聚类结果存入tree1数据集。语句var Dec Jan Feb表明对Dec,Jan,Feb三个月的平均温度进行聚类分析。id year;表明用年区分聚类的观测.
类平均法的输出如下
Average Linkage Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 6.72019 1.90639 0.54468
2 0.54468
2 4.81380 4.00998 0.390167 0.93485
3 0.80382 . 0.065151 1.00000
Root-Mean-Square Total-Sample Standard Deviation = 2.027956
Root-Mean-Square Distance Between Observations = 4.967458
Number Frequency Normalized
of of New RMS
Clusters ------Clusters Joined------ Cluster Distance Tie
10 1953 1961 2 0.210174
9 CL10 1957 3 0.409358
8 1951 1955 2 0.503678
7 1952 1956 2 0.504482
6 CL9 1960 4 0.577050
5 1958 1959 2 0.699969
4 CL6 1954
5 0.712379
3 CL
4 CL
5 7 0.834187
2 CL8 CL
3 9 1.046039
1 CL
2 CL7 11 1.254241
上表(表头Cluster History)给出了用类平均法聚类的结过程,每行指出新聚类的年份.
各行为:
1)分成十类
{53 61}成一类,其余各自成一类
2)分成九类
{53 61 57}成一类,其余各自成一类
3)分成八类
{53 61 57},{51 55}各为一类,其余各自成一类
4)分成七类
{53 61 57},{51 55},{52 56}各为一类,其余各自成一类
5)分成六类
{53 61 57 60},{51 55},{52 56}各为一类,其余各自成一类
6)分成五类
{53 57 60 61},{51 55},{52 56},{58 59},{54}.
7)分成四类
{53 54 57 60 61},{51 55},{52 56},{58 59}.
8)分成三类
{53 54 57 58 59 60 61},{51 55},{52 56}.
9)分成二类
{51 53 54 55 57 58 59 60 61},{52 56}.
分成四类的结果很有意义,我们看到若用类平均法分成四类为{53 54 57 60 61},{51 55},{52 56},{58 59}.
第一类都是在1 2月、1月温度较低,在2月份转暖.第二类是1 9 5 1年和1 9 5 5年,都是1 2月份暖而1月、2月变冷型.第三类1 9 5 2年和1 9 5 6年,1 2月、1月、2月相对都较冷,平均气温变化不大.第四类1 9 5 8年1 9 5 9年则1月份平均气温最低而1 2月、2月相对高
(2)使用重心法,可采用程序
proc cluster data=temperat method=centroid;
var Dec Jan Feb;
id year;
run;
得到的输出是
Centroid Hierarchical Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 6.72019 1.90639 0.54468
2 0.54468
2 4.81380 4.00998 0.390167 0.93485
3 0.80382 . 0.065151 1.00000
Root-Mean-Square Total-Sample Standard Deviation = 2.027956 Root-Mean-Square Distance Between Observations = 4.967458
Number Frequency Normalized
of of New Centroid
Clusters ------Clusters Joined------ Cluster Distance Tie
10 1953 1961 2 0.210174
9 CL10 1957 3 0.395640
8 1951 1955 2 0.503678
7 1952 1956 2 0.504482
6 CL9 1960 4 0.539296
5 CL
6 1954 5 0.649108
4 1958 1959 2 0.699969
3 CL5 CL
4 7 0.661098
2 CL8 CL
3 9 0.899558
1 CL
2 CL7 11 1.087754
上表(表头Cluster History)给出了用类平均法聚类的过程,每行指出新聚类的年份.各行为:
1)分成十类
{53 61}成一类,其余各自成一类、
2)分成九类
{53 61 57}成一类,其余各自成一类
3)分成八类
{53 61 57},{51 55}各为一类,其余各自成一类
4)分成七类
{53 61 57},{51 55},{52 56}各为一类,其余各自成一类
5)分成六类
{53 61 57 60},{51 55},{52 56}各为一类,其余各自成一类
6)分成五类
{53 61 57 60 54},{51 55},{52 56}各为一类,其余各自成一类
7)分成四类
{53 61 57 60 54},{51 55},{52 56},{58,59}各为一类
8)分成三类
{53 61 57 60 54 58 59},{51 55},{52 56} 各为一类,
9)分成二类
{53 61 57 60 54 58 59 51 55},{52 56} 各为一类
10)分成一类:
所有年份为一类
⑶使用密度法可用程序
proc cluster data=temperat method=density k=3;
var Dec Jan Feb;
id year;
run;
得到的输出是
Density Linkage Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 6.72019 1.90639 0.54468
2 0.54468
2 4.81380 4.00998 0.390167 0.93485
3 0.80382 . 0.065151 1.00000
K = 3
Root-Mean-Square Total-Sample Standard Deviation = 2.027956 Normalized
Maximum Density
Number Frequency Normalized in Each Cluster
of of New Fusion
Clusters ------Clusters Joined------ Cluster Density Lesser Greater Tie
10 1953 1961 2 67.6663 51.1331 100.0000
9 CL10 1957 3 67.1343 50.5280 100.0000
8 CL9 1960 4 47.3132 30.9871 100.0000
7 CL8 1955 5 42.5310 36.7194 100.0000
6 CL
7 195
8 6 31.8196 18.919
9 100.0000
5 CL
6 1954
7 27.0097 18.351
8 100.0000
4 CL
5 1952 8 22.4193 28.8032 100.0000
3 CL
4 1959 9 18.981
5 13.6810 100.0000
2 CL
3 1951 10 11.2800 6.6635 100.0000
1 CL
2 1956 11 8.6379 5.0808 100.0000
One modal cluster has been formed.
上表(表头Cluster History)给出了用类平均法聚类的结过程,每行指出新聚类的年份.
各行为:
1)分成十类
{53 61}成一类,其余各自成一类、
2)分成九类
{53 61 57}成一类,其余各自成一类
3)分成八类
{53 61 57 60}为一类,其余各自成一类
4)分成七类
{53 61 57 60 55}为一类,其余各自成一类
5)分成六类
{53 61 57 60 55 58}为一类,其余各自成一类
6)分成五类
{53 61 57 60 55 58 54}为一类,其余各自成一类
7)分成四类
{53 61 57 60 55 58 54 52}为一类,其余各自成一类
8)分成三类
{53 61 57 60 55 58 54 52 59}为一类,其余各自成一类
9)分成二类
{53 61 57 60 55 58 54 52 59 51}为一类,其余各自成一类
⑷为了使用最短距离法,可使用以下程序
proc cluster data=temperat method=single;
var Dec Jan Feb;
id year;
run;
得到的输出是
Single Linkage Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 6.72019 1.90639 0.54468
2 0.54468
2 4.81380 4.00998 0.390167 0.93485
3 0.80382 . 0.065151 1.00000
Root-Mean-Square Total-Sample Standard Deviation = 2.027956 Mean Distance Between Observations = 4.612015
Number Frequency Normalized
of of New Minimum
Clusters ------Clusters Joined----- Cluster Distance Tie
10 1953 1961 2 0.226372
9 CL10 1957 3 0.388474
8 CL9 1960 4 0.485804
7 CL8 1955 5 0.491098
6 1951 CL
7 6 0.542496
5 1952 195
6 2 0.543362
4 CL
5 1954 3 0.588231
3 CL6 1958 7 0.610585
2 CL
3 1959 8 0.632520
1 CL
2 CL4 11 0.683601
上表(表头Cluster History)给出了用类平均法聚类的结过程,每行指出新聚类的年份.各行为:
1)分成十类
{53 61}成一类,其余各自成一类、
2)分成九类
{53 61 57}成一类,其余各自成一类
3)分成八类
{53 61 57 60}为一类,其余各自成一类
4)分成七类
{53 61 57 60 55}为一类,其余各自成一类
5)分成六类
{53 61 57 60 55 51}为一类,其余各自成一类
6)分成五类
{53 61 57 60 55 51}为一类,{52 56}为一类,其余各自成一类
7)分成四类
{53 61 57 60 55 51}为一类,{52 56 54}为一类,其余各自成一类
8)分成三类
{53 61 57 60 55 51 58}为一类,{52 56 54}为一类,其余各自成一类
9)分成二类
{53 61 57 60 55 51 58 59}为一类,{52 56 54}为一类。
⑸为了使用ward法,可采用以下程序
proc cluster data=temperat method=ward;
var Dec Jan Feb;
id year;
run;
得到的输出是
Ward's Minimum Variance Cluster Analysis
Eigenvalues of the Covariance Matrix
Eigenvalue Difference Proportion Cumulative
1 6.72019 1.90639 0.54468
2 0.54468
2 4.81380 4.00998 0.390167 0.93485
3 0.80382 . 0.065151 1.00000
第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:
二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21
特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X
一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互
一、(本大题共2小题,每题5分,共10分) 1、设),(~3∑μN X ,其中???? ? ?????=∑-==221231111,)'1,3,2(,)',,(321μX X X X ,试求32123X X X +-的分布。 2、设三个总体321,G G G 和的分布分别为:)1,3()2,0(),5.0,2(222N N N 和。试按马氏距离判别准则判别x =2.5应判归哪一类? 二、(本题10分)设'1233(,,)~(,)X X X X N μ=∑,其中 )10(11 1 ,)',,(321< ? ?? ? ?????=∑=ρρ ρ ρρ ρρ μμμμ,1342A ??= ???,14d ?? = ??? (1) 试求(1)AX d +的分布,(1)12()'X X X = (2) 试求3X 的分布。
三、(本题10分)已知5个样品的观测值为:1,4,5,7,11.试用按类平均法对5个样品进行分类。 四、(本题10分)设有两个正态总体21G G 和,已知(m=2) ? ? ? ???=∑=∑??????=??????=32121218,2520,151021)1()1(μμ ,先验概率21q q =,而,10)12(=L 75)21(=L 。试问按贝叶斯判别准则样品?? ? ???=??????=2015,2020)2() 1(X X 各应判归哪一类?
五、(本题10分)假定人体尺寸有这样的一般规律:身高(1X ),胸围(2X )和上半臂围(3X )的平均尺寸比例是6:4:1。假定),,1()(n X =αα为来自总体)',,(321X X X X =的随机样本,并设),(~3∑μN X 。试利用下表中数据来检验其身高、胸围和上半臂围这三个尺寸是否符合这一规律。(94.6)4,2(,05.005.0==F α)
22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???
第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ
Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X
一、聚类分析的基本思想: 我们认为,所研究的样品或指标之间存在着程度不同的相似性。根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另一些彼此之间相似程度较大的样品又聚合到另外一类。把不同的类型一一划分出来,形成一个由小到大的分类系统。最后,用分群图把所有的样品间的亲疏关系表示出来。 二、聚类分析的方法 系统聚类法、模糊聚类法、K-均值法、有序样品的聚类、分解法、加入法 三、系统聚类法的种类 最短距离法、最长距离法、重心法、类平均法、离差平方和法 四、判别分析的基本思想 判别分析用来解决被解释变量是非度量变量的情形,预测和解释影响一个对象所属类别。识别一个个体所属类别的情况下有着广泛的应用 判别分析将对象进行分析,通过人们选择的解释变量来预测或者解释每个对象的所属类别。 五、判别分析的假设条件 判别分析的假设条件之一是每一个判别变量不能是其他判别变量的线性组合;判别分析的假设之二是各组变量的协方差矩阵相等。判别分析最简单和最常用的形式是采用线性判别函数。判别分析的假设之三是各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布。当违背该假设时,计算的概率将非常的不准确。 六、判别分析的方法 距离判别法、Bayes判别法、Fisher判别法、逐步判别法
七、距离判别法的判别准则 设有两个总体1G 和2G ,x 是一个p 维样品,若能定义样品到总体1G 和2G 的距离d (x ,1G )和d (x ,2G ),则用如下规则进行判别:若样品x 到总体1G 的距离小于到总体2G 的距离,则认为样品x 属于总体1G ,反之,则认为样品x 属于总体样品x 属于总体2G ,若样品x 到总体1G 和2G 的距离相等,则让它待判。 八、Fisher 判别的思想 Fisher 判别的思想是投影,将k 组p 维数据投影到某一个方向,使的它们的投影与组之间尽可能地分开。 九、Bayes 判别的思想 Bayes 统计的思想是:假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识,得到后验概率分布,各种统计推断都通过后验概率分布来进行。将Bayes 统计的思想用于判别分析,就得到Bayes 判别。 十、判别分析的方法和步骤 1.判别分析的对象 2.判别分析的研究设计 3.判别分析的假定 4.估计判别模型和评估整体拟合 5.结果的解释 6.结果的验证 十一、提取主成分的原则 1.累计方差贡献率大于85%, 2.特征根大于1 ,3碎石图特征根的变化趋势。 十二、因子分析的步骤 1.根据研究问题选取原始变量。 2.对原始变量进行标准化并求其相关阵,分析变量之间的相关性。 3.求解初始公共因子及因子载荷矩阵。 4.因子旋转。 5.因子得分。 6.根据因子得分值进行进一步分析。
二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1
2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.
多远统计上机作业 指标的原始数据取自《中国统计年鉴, 1995》和《中国教育统计年鉴, 1995》除以各地区相应的人口数得到十项指标值见表 1。其中: X1 X2 X3 X4 X5 X6:为每百万人口高等院校数; :为每十万人口高等院校毕业生数; :为每十万人口高等院校招生数; :为每十万人口高等院校在校生数; :为每十万人口高等院校教职工数; :为每十万人口高等院校专职教师数; X7: 为高级职称占专职教师的比例; X8 :为平均每所高等院校的在校生数; X9 :为国家财政预算内普通高教经费占 国内生产总值的比重; X10: 为生均教育经费。 表 1 我国各地区普通高等教育发展状况数据 地区X1X2X3X4X5X6X7X8X9X10北京 5.96310461155793131944.362615 2.2013631上海 3.39234308103549816135.023052.9012665天津 2.3515722971329510938.403031.869385陕西 1.35811113641505830.452699 1.227881辽宁 1.50881284211445834.302808.547733吉林 1.67861203701535833.532215.767480黑龙江 1.1763932961174435.222528.588570湖北 1.0567922971154332.892835.667262江苏.9564942871023931.543008.397786广东.693971205612434.502988.3711355四川.564057177612332.623149.557693山东.575864181572232.953202.286805甘肃.714262190662628.132657.737282湖南.744261194612433.062618.476477浙江.864271204662629.942363.257704新疆 1.2947732651144625.932060.375719福建 1.045371218632629.012099.297106山西.855365218763025.632555.435580河北.814366188612329.822313.315704安徽.593547146462032.832488.335628云南.663640130441928.551974.489106江西.774363194672328.812515.344085海南.703351165471827.342344.287928内蒙古.844348171652927.652032.325581西藏 1.692645137753312.10810 1.0014199河南.553246130441728.412341.305714广西.602843129391731.932146.245139宁夏 1.394862208773422.701500.425377贵州.64233293371628.121469.345415青海 1.483846151633017.871024.387368
多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:
答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。
聚类分析 引言 俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。 研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。 聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。 聚类分析给人们提供了丰富多彩的分类方法,大致可归为: ⑴系统聚类法:首先,将n 个样品看成n 类,然后将性质最接近的两类合并成一个新类,得到1 n 类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。 ⑵动态聚类法(调优法):首先对n 个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。 ⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、
课程名称:多元统计回归分析 实验项目:多元方差分析 实验类型:验证性 学生学号: 学生姓名: 学生班级: 课程教师: 实验日期: 2016-04-18
.995 1832.265(b) 2.000 17.000 .000 .995 3664.530 1.000 距跟踪 Wilks 的 .005 1832.265(b) 2.000 17.000 .000 .995 3664.530 1.000 Lambda Hotelling 215.561 1832.265(b) 2.000 17.000 .000 .995 3664.530 1.000 的跟踪 Roy 的最 215.561 1832.265(b) 2.000 17.000 .000 .995 3664.530 1.000 大根 A Pillai 的 .901 7.378 4.000 36.000 .000 .450 29.511 .991 跟踪 Wilks 的 .101 18.305(b) 4.000 34.000 .000 .683 73.221 1.000 Lambda Hotelling 8.930 35.720 4.000 32.000 .000 .817 142.882 1.000 的跟踪 Roy 的最 8.928 80.356(c) 2.000 18.000 .000 .899 160.712 1.000 大根 B Pillai 的 .205 2.198(b) 2.000 17.000 .142 .205 4.397 .386 跟踪 Wilks 的 .795 2.198(b) 2.000 17.000 .142 .205 4.397 .386 Lambda Hotelling .259 2.198(b) 2.000 17.000 .142 .205 4.397 .386 的跟踪 Roy 的最 .259 2.198(b) 2.000 17.000 .142 .205 4.397 .386 大根
1 、填空题(20分) 1、 若X Q ~ N p (g ,(a =1,2,…n)且相互独立,则样本均值向量X 服从的分布为X ~ N p (g^|。 2、 变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、 判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、 设样品X i =(X i1,X i2^ X ip )',(i =1,2,…n),总体X~N p (」「),对样品进行分类常用的距离有: 明氏距离d j (q)=(壬|Xy q i j i j 6、 因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、 一元回归的数学模型是:y 曆x 童,多元回归的数学模型是 8、 对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、 典型相关分析是研究两组变量之间 相关关系的一种多元统计方法。 、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2),其中送=1 3 e 0 独立?为什么? 解:因为cov(X 1,X 2^1,所以X 1与X 2不独立。 把协差矩阵写成分块矩阵瓦=f 11 ;12丨,(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12,而' 12 =0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独 立是等价的,所以(X 1,X 2)和X 3是独立的。 0,问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否
应用多元统计分析习题 解答聚类分析 TPMK standardization office【 TPMK5AB- TPMK08- TPMK2C- TPMK18】
第五章 聚类分析 5.1 判别分析和聚类分析有何区别? 答:即根据一定的判别准则,判定一个样本归属于哪一类。具体而言,设有n 个样本,对每个样本测得p 项指标(变量)的数据,已知每个样本属于k 个类别(或总体)中的某一类,通过找出一个最优的划分,使得不同类别的样本尽可能地区别开,并判别该样本属于哪个总体。聚类分析是分析如何对样品(或变量)进行量化分类的问题。在聚类之前,我们并不知道总体,而是通过一次次的聚类,使相近的样品(或变量)聚合形成总体。通俗来讲,判别分析是在已知有多少类及是什么类的情况下进行分类,而聚类分析是在不知道类的情况下进行分类。 5.2 试述系统聚类的基本思想。 答:系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。 5.3 对样品和变量进行聚类分析时, 所构造的统计量分别是什么?简要说明为什么这样构造? 答:对样品进行聚类分析时,用距离来测定样品之间的相似程度。因为我们把n 个样本看作p 维空间的n 个点。点之间的距离即可代表样品间的相似度。常用的距离为 (一)闵可夫斯基距离:1/1 ()( )p q q ij ik jk k d q X X ==-∑ q 取不同值,分为
(1)绝对距离(1q =) (2)欧氏距离(2q =) (3)切比雪夫距离(q =∞) (二)马氏距离 (三)兰氏距离 对变量的相似性,我们更多地要了解变量的变化趋势或变化方向,因此用相关性进行衡量。 将变量看作p 维空间的向量,一般用 (一)夹角余弦 (二)相关系数 5.4 在进行系统聚类时,不同类间距离计算方法有何区别?选择距离公式应遵循哪些原则? 答: 设d ij 表示样品X i 与X j 之间距离,用D ij 表示类G i 与G j 之间的距离。 (1). 最短距离法 (2)最长距离法 (3)中间距离法 2 2222 121pq kq kp kr D D D D β++=
多元统计分析期末考试考 点 The following text is amended on 12 November 2020.
二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答: 答: 题型三解答题
1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域;第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等
多元统计分析作业
海洋地球化学多元统计分析作业 一、预备工作:数据的输出管理 首先设置File output manager output manager中,选中individual wind。 Also send to Report wind中,选中single report。 二、数据的导入 数据表(data.xls)为一个深海沉积物柱中30个样品分析结果。第1列为样品编号,第2列为样品的采样深度(单位),第三列起为分析的各元素含量。将data.xls 数据导入Statistica worksheet中 (操作步骤为菜单File open …data.xls) 三、数据(图表)的输出 统计分析过程中生成的结果都可以输出到Word文档中(菜单 as …或PrtSc,粘贴到word中)。 对生成的图表,还可先菜单File Add to report,再粘贴到word中。 本项上机实习需完成以下统计分析 一、相关及回归分析(Correlation matrices) 1、分析两组分Co-Ni, CaO-Sr,Fe2O3-MnO,的相关关系,做出相关关系 图,拟合出回归方程。
图1 Co-Ni 相关关系图 图2 CaO-Sr 相关关系图
图3 Fe2O3-MnO 相关关系图 2、做出三组分Cu-Pb-Zn;Sr-Cu-CaO之间的散点图 (scatterplot) 。
图4 Cu-Co-Ni 散点图 图5 Sr-Cu-CaO 散点图
3、计算CaO、Co、Cu、Fe2O3、MnO、Ni、Sr之间的相关关系矩阵。 表1 沉积物中元素相关关系矩阵 (n=30,p<0.05) CaO Fe2O3MnO Co Cu Ni Sr CaO 1.00 Fe2O3-0.23 1.00 MnO 0.18 0.18 1.00 Co -0.21 0.85 0.41 1.00 Cu -0.02 -0.01 0.36 0.26 1.00 Ni -0.10 0.96 0.24 0.88 -0.03 1.00 Sr 0.97 -0.25 0.23 -0.20 0.09 -0.13 1.00 二、聚类分析(Cluster analysis) 1、首先将数据进行标准化(分别进行和列的标准化),得到标准化的数据集。 2、采用Tree clustering 方式,Single linkage法,对CaO、Co、Cu、Fe2O 3、 MnO、Ni、Sr 进行R型聚类分析,进行统计分析。 图6 R型聚类分析图 注:采用Tree clustering 方式, Single linkage ,1-Pearson r 法。
武汉理工大学 实验(实训)报告 项目名称实验2―聚类分析 所属课程名称多元统计分析 项目类型设计性实验 实验(实训)日期年月日 班级 学号 姓名 指导教师 武汉理工大学统计学系制
实验报告2 聚类分析(设计性实验) 实验原理:聚类分析的目的是将分类对象按一定规则分为若干类,这些类不是事先给定的,而是根据数据的特征确定的。在同一类里的这些对象在某种意义上倾向于彼此相似,而在不同的类里的对象倾向于不相似。系统聚类法是聚类分析中用的最多的一种,其基本思想是:开始将n个对象各自作为一类,并规定对象之间的距离和类与类之间的距离,然后将距离最近的两类合并成一个新类,计算新类与其它类之间的距离;重复进行两个最近类的合并,每次减少一类,直至所有的对象合并为一类。 实验题目一: 为了对11种语言——英语、挪威语、丹麦语、荷兰语、德语、法语、西班牙语、意大利语、波兰语、匈牙利语及芬兰语进行比较研究,研究人员选取每种语言的1至10十个数字相应的单词列表分析。对于同一数字,某两种语言的第一个字母若相同,则称这两者在该数字上一致,否则非一致。将这11种语言两两比较后,计算每一对在十个数字上非一致的数目,得到下列距离矩阵: E N Da Du G Fr Sp I P H Fi E 0 N 2 0 Da 2 1 0 Du 7 5 6 0 G 6 4 5 5 0 Fr 6 6 6 9 7 0 Sp 6 6 5 9 7 2 0 I 6 6 5 9 7 1 1 0 P 7 7 6 10 8 5 3 4 0 H 9 8 8 8 9 10 10 10 10 0 Fi 9 9 9 9 9 9 9 9 9 8 0 (1)对这11种语言分别用最小距离法(single linkage)、最大距离法(complete linkage)、平均距离法(average linkage)进行聚类分析; (2)画出以上三种方法聚类分析结果的树状图; (3)结合三种方法的树状图,你认为将11种语言分为哪几类比较合适? (4)用最大距离法将11种语言聚为3类,并将聚类结果存储在一个SPSS数据文件中。
1、设X ~ N 2(, ),其中X =(x 1,x 2),=( 1,2), = 2 , 2 I 2 1 2 1 则Cov(x +x ,x -x )= ________ . 10 2、设X i ~ N 3(,),i =1,L ,10,则W = ( X i -)(X i - ) i =1 服从 ______________ 。 4 - 4 3 3、设随机向量X = (x 1 x 2 x 3 ) ,且协方差矩阵 = -4 9 -2, 3 - 2 16 则它的相关矩阵R = ____________________ 4、 设X=(x 1 x 2 x 3 ), 的相关系数矩阵通过因子分析分解为 X 1 的共性方差h 1 2 = _______________ X _1 , 的 方 差 11 = 公 因子f 1对X 的贡献g 12 = 5、设X i ,i =1,L,16 是来自多元正态总体 N p ( , ),X 和A 分别为正态总体N p (,) 的样本均值和样本离差矩阵,则T 2=15[4(X -)] A - 1[4(X - )] ~ ____________________ 。 16 - 4 2 1、设 X =(x 1 ,x 2 ,x 3 )~ N 3(, ),其中= (1,0, -2), = -4 4 -1 2 - 1 4 试判断x 1 + 2x 3 与 x 2 - x 3 是否独立? I 、设随机向量X 的均值向量、协方差矩阵分别为 、 , R = 1 2 3 0.934 0.128 -0.417 0.835 0= -0.417 0.894 0.027 0.894 0.447 0.835 0.447 0.103 1 1 3 0
1、设X~N 2( , ),其中 X ( x 1 , x 2 ), ( 1 , 2 1 2 ), , 1 则 Cov( x 1 x 2 , x 1 x 2 )=____. 10 2、设 X i ~ N 3 ( , ), i 1, ,10, 则 W = ( X i )( X i ) i 1 服从 _________ 。 4 4 3 3、设随机向量 X x 1 x 2 x 3 , 且协方差矩阵 4 9 2 , 3 2 16 则它的相关矩阵 R ___________________ 4、 设 X= x 1 x 2 x 3 , 的相关系数矩阵通过因子分析分解为 1 1 2 3 3 0.934 0 0.128 0.417 1 R 1 0 0.417 0.934 0.835 3 0.894 0.894 0.027 0.835 0 0.447 2 0 1 0.447 0.103 3 2 __________, __________ , X 1的共性方差 h 1 X 1的方差 11 公因子 f 1对 X 的贡献 g 12 ________________。 5、设 X i , i 1, ,16 是来自多元正态总体 N p ( , ), X 和 A 分别为正态总体 N p ( , ) 的样本均值和样本离差矩阵 , 则 T 2 15[4( X )] A 1[4( X)] ~ ___________ 。 16 4 2 、设 ( x 1 , x 2 , x 3) ~ N 3 ( , ), 其中 (1,0, 2) ,4 4 1 , 1X 2 1 4 试判断 x 1 2 x 3与 x 2 x 3 是否独立? x 1
多元统计分析 (第一次作业) 学院:信息与计算科学学院 专业: ____________ 指导老师: ____________ 小组成员:罗健水(20080560) 许志欢(20080574) 庄娜(20080595) 卓玛(20080561)
2011年4月10日
题目:某行政系统所属独立核算工业企业16个行业经济实力强弱的聚类分析 独立核算:独立核算是指对本单位的业务经营活动过程及其成果进行全面、系统的会计核算。独立核算单位的特点是:在管理上有独立的组织形式,具有一定数量的资金,在当地银行开户;独立进行经营活动,能同其他单位订立经济合同;独立计算盈亏,单独设置会计机构并配备会计人员,并有完整的会计工作组织体系。 非独立核算又称报帐制,是把本单位的业务经营活动有关的日常业务资料,逐日或定期报送上级单位,由上级单位进行核算。非独立核算单位的特点是:一般由上级拔给一定数额的周转金,从事业务活动,一切收入全面上缴,所有支出向上级报销,本身不单独计算盈亏,只记录和计算几个主要指标,进行简易核算 数据来源:上海市青浦区统计局数据链接:数据5?11.sav 固定资产原价:指企业在建造、改置、安装、改建、扩建、技固定资产计量术改造固定资产时实际支出的全部货币总额。该指标根据企业会计"资产负债表"中"固定资产原价"项的期末数填列。 固定资产净值平均余额:每月逐步减少。有部分企业单位,是按季度计提折旧,那么在没有提折旧的月 份,比如10月份,和9月份比较,固定资产净值平均余额就没有变化,也就是说,还是等于9月份的 固定资产净值平均余额 例:如09年底的固定资产净值余额为5000万元,2010年元月份完成固定资产投资1000万元,那么元月份的固定资产净值平均余额是多少?2月份又完成投资500万元,那2月份的固定资产净值平均余额是多少?(计算公式是怎样) 解:平均余额等于期初的加期末的除以2 所以一月份=(5000+6000-当月折旧)/2 二月份的=(6000+6500-两个月的折旧)/2 所有者权益(Owne' s Equities:资产扣除负债后由所有者应享的剩余利益。即一个会计主体在一定时期所拥有或可控制的具有未来经济利益资源的净额。 营业税金及附加:主营业务税金及附加”科目改名为“营业税金及附加”, “营业税金及附加”科目用法如下: 一、本科目核算企业经营活动发生的营业税、消费税、城市维护建设税、资源税和教育费附加等相关税费。 房产税、车船使用税、土地使用税、印花税在“管理费用”等科目核算,不在本科目核算。 二、企业按规定计算确定的与经营活动相关的税费,借记本科目,贷记“应交税费”等科目。企业收到的返还的消费税、营业税等原记入本科目的各种税金,应按实际收到的金额,借记“银行存款”科目,贷记本科目。