搜档网
当前位置:搜档网 › 多元统计分析试卷答案

多元统计分析试卷答案

多元统计分析试卷答案
多元统计分析试卷答案

东 北 大 学 秦 皇 岛 分 校

课程名称: 多元统计分析 试卷类型: 答案 考试形式:开

授课专业: 数学与应用数学 考试日期: 2012年12月12日 试卷:共 3 页

一、填空题:(每空2分,共30分)

1、设(1)(2)(,)p N ??=????:X X μX ∑(2)p ≥,(1)(2)??=????μμμ,11122122??

=????∑∑∑∑∑,其中(1)X ,(1)

μ为1r ?,11∑为r r ?,则(1):X (1)11(,)r N μ∑,(2):X (2)22(,)p r N -μ∑

2、系统聚类分析的方法很多,其中的五种分别为最短距离法、最长距离法、重心法、类平均法、离差平方和法。

3、若p 维随机向量~(,)p X N μ∑,~(,)p W W n ∑,且X 与W 相互独立,则

1()()~n X W X μμ-'--2(,)T p n ,

2

1(,)~n p T p n pn

-+(,1)F p n p -+。 4、i X 与前个主成分的全相关系数的平方和21

(,)m

k i k Y X ρ=∑称为12,,,m Y Y Y L 对原

始变量i X 的方差贡献率,在因子分析中也称之为共同度。

5、Q 型因子分析研究样品之间的相关关系,R 型因子分析研究变量之间的相关关系。

6、Fisher 判别法的基本思想是投影,并利用方差分析的思想来导出判别函数。

二、判断题(每题2分,共10分)

1、( √ )随机向量12(,,,)p X X X 'L 的协方差阵()D X =∑是对称非负定阵。

2、( × )因子载荷矩阵A 是对称阵。

3、( × )聚类分析中快速聚类法指的就是模糊聚类法。

4、(

√ )设(,)p N :X μ∑,(,)p W n :W ∑,且X 与W 相互独立,则

12()()(,)n T

p

n -':X μW X μ--。

5、( × )主成分分析中,从相关矩阵出发求解的主成分一定会比从协方差矩阵出发求解的主成分更可信。

三、计算题(共60分)

1、设12(,)X X 'X =的协方差阵为2

9?∑=??

,试分别从协方差∑和相关矩阵出发求解总体主成分1Y ,2Y 。(10分) 解:特征方程2||0E λλ--∑=

=,得特征根:110λ=,21

λ=

线

装 订 线 内 不 要 答

学 号

姓 名

班 级

110λ=

的特征方程:128

01x x ???=

? ???

??

,得特征向量1

13u ??

?

=

21λ=

的特征方程:12108x x ?-??

= ? ?-??

??

,得特征向量2313u ??

? ?= -? ??

?

11213Y x x =

+

,11213

Y x x =-……………5分

由2

9?∑=??,得:123231R ??= ???

, 特征方程2

1

3

||0213

E R λλλ--=

=-,得特征根:153λ*=,21

3λ*=

15

3λ*=的特征方程:12232023

2x x ????= ?

?????

,得特征向量1u *??

?

?= ?

213λ*

=的特征方程:1223230223x x -????= ? ?-????

,得特征向量2u *=

112Y x x ***=

,212Y x x ***

=…………10分 2、设5个样品两两之间的距离矩阵:0

4

06

90

1710063580??

?

?

? ?

? ???

,试用最长距离法作系统聚类,并画出谱系聚类图。(15分)

解:样品与样品之间的明氏距离为:1234

512(0)

345

040690171006

3

5

8

0x x x x x x x D

x x x ?? ? ? ?= ? ? ? ? ???

样品最短距离是1,故把1X 与4X 合并为一类……………3分

计算类与类之间距离(最长距离法),得: 1423

514(1)2

3

5{,}{,}

0701090

835

0x x x x x x x D x

x x ?

?

? ? ?=

? ? ??

?

类与类的最短距离是3,故把2X 与5X 合并为一类,……………6分

计算类与类之间距离(最长距离法),得:1425314(2)

253

{,}{,}{,}0{,}801090x x x x x x x D x x x ?

? ?

?= ? ?

?? 类与类的最短距离是8,故把14{,}X X 与{}25,X X 合并为一类……………9分

计算类与类间距离(最长距离法),得:12453(3)12453{,,,}{}{,,,}0{}100x x x x x D x x x x x ?

? ?= ? ???

…12分

谱系聚类图(略)……………15分

3、设三维随机向量1233(,,)~(,)X X X X N μ=∑,其中120250002-??

?

∑=- ? ???

。试问下列5

对随机变量或随机向量中哪几对是相互独立的,为什么?(1)1X 与22X ;(2)2X 与

线

装 订 线

内学 号

姓 名

班 级

。 0.008=

12

3

(0.318,0.337,0.356,0.369,0.373,0.364,0.367,0.342)

(0.567,0.462,0.248,0.012,0.140,0.312,0.307,0.439)(0.332,0.361,0.560,0.532,0.153,0.190,0.182,0.263)U U U '='=----'=--- (1)写出前三个主成分的表达式;(5分)

(2)计算每个主成分的方差贡献率,并按照一般性原则选取主成分的个数。(5分)

(1)*

*

*

*

*

*

*

*

1123456780.3180.3370.3560.3690.3730.3640.3670.342Y x x x x x x x x =+++++++

********

212345678

0.5670.4620.2480.0120.1400.3120.3070.439Y x x x x x x x x =+++----********3123456780.3320.3610.5600.5320.1530.1900.1820.263Y x x x x x x x x =+---+++……5分

(2)方差贡献率分别为182.8%v =,211.0%v =,3 2.0%v =, 1293.7%v v +=,

12395.7%v v v ++=,故主成分应保留2个。……………10分

5、已知某实际问题选用了5个指标作为原始变量,利用了因子分析模型,经Spss 软件计算,部分输出如下:

试回答以下问题:

(1)解释表1中的列Extraction 中各得数;(5分)

(2)结合表2和表3,写出因子分析模型,并简要阐述公因子是如何综合原始指标的信息的。(10分)

解:(1)表1中的列Extraction 中各得数分别是保留的三个公因子从五个原始指标中的各指标所提取信息的百分比;

(2)因子分析模型:

112310.8330.3060.036X F F F ε=-++ 212320.9240.0210.066X F F F ε=-++ 312330.9260.1330.05X F F F ε=+-+ 412340.0260.0030.999X F F F ε=+++ 51235

0.0420.9830.004X F F F ε=-+++ 从旋转因子载荷矩阵可以看出,公因子1F 主要反映了原始指标1X ,2X ,3X 公因子2F 主要反映了原始指标5X 公因子3F 主要反映了原始指标4X

多元统计分析期末复习试题

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章:

二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . )' ,...,,(),,,(2121P p EX EX EX EX μμμ='= )' )((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ) ,(~∑μP N X μ ∑ p X X X ,,,21

特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 μ ) ,(~∑μP N X ) ,('A A d A N s ∑+μ) () 1(,,n X X X )' ,,,(21p X X X )' )(() () (1 X X X X i i n i --∑=n 1 X μ∑μ X ) 1 , (~∑n N X P μ) ,1(∑-n W p X X

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计分析期末试题

一、填空题(20分) 1、若),2,1(),,(~)(n N X p 且相互独立,则样本均值向量X 服从的分布 为 2、变量的类型按尺度划分有_间隔尺度_、_有序尺度_、名义尺度_。 3、判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有__距离判别法_、Fisher 判别法、Bayes 判别法、逐步判别法。 4、Q 型聚类是指对_样品_进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、设样品),2,1(,),,(' 21n i X X X X ip i i i ,总体),(~ p N X ,对样品进行分类常用的距离 2 ()ij d M )()(1j i j i x x x x ,兰氏距离()ij d L 6、因子分析中因子载荷系数ij a 的统计意义是_第i 个变量与第j 个公因子的相关系数。 7、一元回归的数学模型是: x y 10,多元回归的数学模型是: p p x x x y 22110。 8、对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、典型相关分析是研究两组变量之间相关关系的一种多元统计方法。 二、计算题(60分) 1、设三维随机向量),(~3 N X ,其中 200031014,问1X 与2X 是否独立?),(21 X X 和3X 是否独立?为什么? 解: 因为1),cov(21 X X ,所以1X 与2X 不独立。 把协差矩阵写成分块矩阵 22211211,),(21 X X 的协差矩阵为11 因为12321),),cov(( X X X ,而012 ,所以),(21 X X 和3X 是不相关的,而正态分布不相关与相互

多元统计分析期末试卷

一、(本大题共2小题,每题5分,共10分) 1、设),(~3∑μN X ,其中???? ? ?????=∑-==221231111,)'1,3,2(,)',,(321μX X X X ,试求32123X X X +-的分布。 2、设三个总体321,G G G 和的分布分别为:)1,3()2,0(),5.0,2(222N N N 和。试按马氏距离判别准则判别x =2.5应判归哪一类? 二、(本题10分)设'1233(,,)~(,)X X X X N μ=∑,其中 )10(11 1 ,)',,(321<

三、(本题10分)已知5个样品的观测值为:1,4,5,7,11.试用按类平均法对5个样品进行分类。 四、(本题10分)设有两个正态总体21G G 和,已知(m=2) ? ? ? ???=∑=∑??????=??????=32121218,2520,151021)1()1(μμ ,先验概率21q q =,而,10)12(=L 75)21(=L 。试问按贝叶斯判别准则样品?? ? ???=??????=2015,2020)2() 1(X X 各应判归哪一类?

五、(本题10分)假定人体尺寸有这样的一般规律:身高(1X ),胸围(2X )和上半臂围(3X )的平均尺寸比例是6:4:1。假定),,1()(n X =αα为来自总体)',,(321X X X X =的随机样本,并设),(~3∑μN X 。试利用下表中数据来检验其身高、胸围和上半臂围这三个尺寸是否符合这一规律。(94.6)4,2(,05.005.0==F α)

多元统计分析模拟试题教学提纲

多元统计分析模拟试 题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐 步判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、 极大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 = 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转 化为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析期末试题及答案

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92, 3216___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

多元统计分析期末复习试题

第一章: 多元统计分析研究的容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X均值向量: 随机向量X与Y的协方差矩阵: 当X=Y时Cov(X,Y)=D(X);当Cov(X,Y)=0 ,称X,Y不相关。 随机向量X与Y的相关系数矩阵: 2、均值向量协方差矩阵的性质 (1).设X,Y为随机向量,A,B 为常数矩阵 E(AX)=AE(X); E(AXB)=AE(X)B; D(AX)=AD(X)A’; )' ,..., , ( ) , , , ( 2 1 2 1P p EX EX EX EXμ μ μ = ' = )' )( ( ) , cov(EY Y EX X E Y X- - = q p ij r Y X ? =) ( ) , (ρ

Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。 4、对数变换:对数变换是将各个原始数据取对数,将原始数据的对数值作为变换后的新值。它将具有指数特征的数据结构变换为线性数据结构。 三、样品间相近性的度量 研究样品或变量的亲疏程度的数量指标有两种:距离,它是将每一个样品看作p 维空),(~∑μP N X μ∑μp X X X ,,,21 ),(~∑μP N X ),('A A d A N s ∑+μ)()1(,,n X X X )',,,(21p X X X )')(()()(1X X X X i i n i --∑=n 1X μ ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

多元统计分析期末考试考点整理共5页

多元统计分析 题型一定义、名词解释 题型二计算(协方差阵、模糊矩阵) 题型三解答题 一、定义 二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解: 答:

答: 题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等 2、分类与判别,对所考察的变量按相似程度进行分类。(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。(2)判别分析:判别样本应属何种类型的统计方法。

多元统计分析模拟考题及答案

、判断题 (对)1X (兀公2丄,X p)的协差阵一定是对称的半正定阵 (对)2标准化随机向量的协差阵与原变量的相关系数阵相同。 (对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 (对)4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。(错)5X (X-X2,,X p) ~ N p( , ),X,S分别是样本均值和样本离 S 差阵,则X,—分别是,的无偏估计。 n (对)6X (X「X2, ,X p) ~ N p( , ),X作为样本均值的估计,是无偏的、有效的、一致的。 (错)7因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 (对)8因子载荷阵A (a j)中的a ij表示第i个变量在第j个公因子上的相对重要性。 (对)9判别分析中,若两个总体的协差阵相等,则Fisher判别与距离判别等价。(对)10距离判别法要求两总体分布的协差阵相等,Fisher判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设是总体X (X」,X m)的协方差阵,的特征根i(i 1,L ,m)与相应的单 位正交化特征向量i (盼无丄,a m),则第一主成分的表达式是 y1 Q1X1 812X2 L QmX m 方差为1。 3设是总体X (X1,X2,X3, X4)的协方差阵,的特征根和标准正交特征向量分别为: 1 2.920 U;(0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U2(0.9544, 0.0984,0.2695,0.0824) 3 0.049 U3(0.2516,0.7733, 0.5589, 0.1624) 0.007U4 ( 0.0612,0.2519,0.5513, 0.7930),则其第二个主成分的表达式是 4

多元统计分析期末考试考点整理

二名词解释 1、 多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理 论和方法,是一元统计学的推广 2、 聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方 法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。 使类内对象的同质性最大化和类间对象的异质性最大化 3、 随机变量:是指变量的值无法预先确定仅以一定的可能性 (概率)取值的量。它是由于随 机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向 量。类 似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题 ,为了了解总体的特征,通过对总体抽样得到代表 总体的样本,但因为信息是分散在每个样本上的 ,就需要对样本进行加工,把样本的信息浓缩 到不包含未知量的样本函数中,这个函数称为统计量 二、计算题 ^16 -4 2 k 设H = 其中启= (1Q —纣眉=-4 4-1 [― 试判断叼+ 2吟与 「花一? [是否独立? 解: "10 -6 -15 -6 1 a 2U -16 20 40 故不独立口 -r o 2丿 按用片的联合分帚再I -6 lti 20 -1G 20 ) -1V16 -4 0 -4 A 2 丿"-1

2.对某地区农村的百名2周宙男翌的身高、胸圉、上半骨圉进行测虽,得相关数据如下』根据汶往资料,该地区城市2周岁男婴的遠三个指标的均值血二(90Q乩16庆现欲在多元正态性的假定下检验该地区农村男娶是否与城市男婴有相同的均值?伽厂43107-14.62108.946^1 ]丼中乂=60.2x^)-1=(115.6924)-1-14.6210 3.172-37 3760 、8.9464-37 376035.S936」= 0.01, (3,2) = 99.2, 03) =293 隔亠4) =16.7) 答: 2、假设检验问题:比、# =险用‘//H地 r-8.o> 经计算可得:X-^A 22 厂 「3107 -14.6210 ST1=(23J3848)-1 -14.6210 3.172 8 9464 -37 3760 E9464 -37.3760 35.5936 构造检验统计量:尸=旳(丟-間)〃丿(巫-角) = 6x70.0741=420.445 由题目已知热“(3,)= 295由是 ^I =^W3,3)^147.5 所以在显著性水平ff=0.01下,拒绝原设尽即认 为农村和城市的2周岁男婴上述三个指标的均 值有显著性差异 (] 4、设盂=(耳兀.昂工/ ~M((XE),协方差阵龙=P P (1)试从匸出发求X的第一总体主成分; 答: (2)试|可当卩取多大时才链主成分册贡蕭率达阳滋以上.

多元统计分析期末试题

1 、填空题(20分) 1、 若X Q ~ N p (g ,(a =1,2,…n)且相互独立,则样本均值向量X 服从的分布为X ~ N p (g^|。 2、 变量的类型按尺度划分有 _间隔尺度_、_有序尺度_、名义尺度_。 3、 判别分析是判别样品 所属类型 的一种统计方法,常用的判别方法有 —距离判别法_、Fisher 判别法、 Bayes 判别法、逐步判别法。 4、 Q 型聚类是指对_样品-进行聚类,R 型聚类是指对_指标(变量)_进行聚类。 5、 设样品X i =(X i1,X i2^ X ip )',(i =1,2,…n),总体X~N p (」「),对样品进行分类常用的距离有: 明氏距离d j (q)=(壬|Xy q i j i j 6、 因子分析中因子载荷系数a j 的统计意义是—第i 个变量与第j 个公因子的相关系数。 7、 一元回归的数学模型是:y 曆x 童,多元回归的数学模型是 8、 对应分析是将 R 型因子分析和Q 型因子分析结合起来进行的统计分析方法。 9、 典型相关分析是研究两组变量之间 相关关系的一种多元统计方法。 、计算题(60分) '4 1 1、设三维随机向量X~N 3(?2),其中送=1 3 e 0 独立?为什么? 解:因为cov(X 1,X 2^1,所以X 1与X 2不独立。 把协差矩阵写成分块矩阵瓦=f 11 ;12丨,(X 1,X 2/的协差矩阵为瓦 11 因为 —21 - 22 cov((X 1,X 2),X 3)=為12,而' 12 =0,所以(X 1, X 2)和X 3是不相关的,而正态分布不相关与相互独 立是等价的,所以(X 1,X 2)和X 3是独立的。 0,问X 1与X 2是否独立? 2> (X 1,X 2)和X 3是否

多元统计分析心得

多元统计分析读书心得 聚类分析 聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类分析方法认为,在所研究的统计总体中,各样品或指标(变量)之间存在着程度不同的相似性(亲琉关系),因此可以根据一批样品的多个观测指标,具休找到一些能够度量其相似程度的统计量,并依据这些统计量完成事物的分类。具体的方法,是按样品或指标的相似性或亲疏关系,逐级地归并即聚类,每次的归并聚成一个新的类.直到把全部的样品或指标聚成一类,形成一个由小类逐步到大类的分类系统为止二若将聚类过程的结果绘成一张分类图谱并进行分析、则就可以完成整个聚类分析过程。 它的主要应用有:聚类分析在商业上被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。在生物上聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性。聚类分析在因特网上被用来在网上进行文档归类来修复信息等等。 下面来简要介绍一下曲国庆和姜玉春写的聚类分析及其在土地利用分类上的应用,它利用系统聚类分析的基本原理,并根据实际的土地申报登记和土地利用的调查资料,选择反映住宅建设和占地情况的人均占地面积、平均年建房率、建设用地利用率、反映耕地分布和占有情况的人均耕地面积、当地经济状况等为聚类指标,探讨聚类分析的模式相似性测度,计算方法和步骤。这其中涉及了很多问题,如样本数据的采集、统计、标准化和样本相似度测度的选择及确定,文章最后给出了土地利用聚类分析的计算方法和步骤。 读何晓群编著的多元统计分析和张文璋编著的实用统计分析方法与SPSS应用得出的一些体会如下:在聚类分析这一章,张文璋编的多元更具有系统性和层次性,比如他将聚类分析方法用一个表格的形式表现出来,让不同方法之间的区别与联系一目了然,同时,他将理论分析和SPSS软件操作结合在一起,都进行了仔细的讲述。 回归分析 在数量分析中,我们经常会看到变量与变量之间存在着一定的联系,而不只是前面所讨论的单个变量的某些孤立的特性,如均值、方差的特性等。我们要了解的是变量之间是如何发生相互影响的,这就是所谓的相关分析和回归分析。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,运用十分广泛,回归分析按照涉及的自变量的多少,可

多元统计分析期末试题及答案

1、设X ~ N 2(, ),其中X =(x 1,x 2),=( 1,2), = 2 , 2 I 2 1 2 1 则Cov(x +x ,x -x )= ________ . 10 2、设X i ~ N 3(,),i =1,L ,10,则W = ( X i -)(X i - ) i =1 服从 ______________ 。 4 - 4 3 3、设随机向量X = (x 1 x 2 x 3 ) ,且协方差矩阵 = -4 9 -2, 3 - 2 16 则它的相关矩阵R = ____________________ 4、 设X=(x 1 x 2 x 3 ), 的相关系数矩阵通过因子分析分解为 X 1 的共性方差h 1 2 = _______________ X _1 , 的 方 差 11 = 公 因子f 1对X 的贡献g 12 = 5、设X i ,i =1,L,16 是来自多元正态总体 N p ( , ),X 和A 分别为正态总体N p (,) 的样本均值和样本离差矩阵,则T 2=15[4(X -)] A - 1[4(X - )] ~ ____________________ 。 16 - 4 2 1、设 X =(x 1 ,x 2 ,x 3 )~ N 3(, ),其中= (1,0, -2), = -4 4 -1 2 - 1 4 试判断x 1 + 2x 3 与 x 2 - x 3 是否独立? I 、设随机向量X 的均值向量、协方差矩阵分别为 、 , R = 1 2 3 0.934 0.128 -0.417 0.835 0= -0.417 0.894 0.027 0.894 0.447 0.835 0.447 0.103 1 1 3 0

多元统计分析第九章聚类分析

聚类分析 引言 俗话说:“物以聚类,人以群分”,在现实世界中存在着大量的分类问题。例如,生物可以分成动物和植物,动物又可分为脊椎动物和无脊椎动物等;人按年龄可分为少年、青年、中年、老年,对少年的身体形态、身体素质及生理功能的各项指标进行测试,据此对少年又可进行分类;在环境科学中,我们可以对按大气污染的轻重分成几类区域;在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类;在产品质量管理中,要根据各产品的某些重要指标可以将其分为一等品,二等品等。 研究事物分类问题的基本方法有两种:一是判别分析,二是聚类分析。若已知总体的类别数目及各类的特征,要对类别未知的个体正确地归属其中某一类,这时需要用判别分析法。若事先对总体到底有几种类型无从知晓,则要想知道观测到的个体的具体的分类情况,这时就需要用聚类分析法。 聚类分析的基本思想:首先定义能度量样品(或变量)间相似程度(亲疏关系)的统计量,在此基础上求出各样品(或变量)间相似程度的度量值;然后按相似程度的大小,把样品(或变量)逐一归类,关系密切的聚集到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统;最后根据整个分类系统画出一副分群图,称之为亲疏关系谱系图。 聚类分析给人们提供了丰富多彩的分类方法,大致可归为: ⑴系统聚类法:首先,将n 个样品看成n 类,然后将性质最接近的两类合并成一个新类,得到1 n 类,合并后重新计算新类与其它类的距离与相近性测度。这一过程一直继续直到所有对象归为一类为止,并且类的过程可用一张谱系聚类图描述。 ⑵动态聚类法(调优法):首先对n 个对象初步分类,然后根据分类的损失函数尽可能小的原则进行调整,直到分类合理为止。 ⑶有序样品聚类法(最优分割法):开始将所有样品看成一类,然后根据某种最优准则将它们分割为二类、

相关主题