搜档网
当前位置:搜档网 › 非参数统计分析

非参数统计分析

第十三章非参数统计分析

统计推断方法大体上可分为两大类。第一大类为参数统计方法。常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。

非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。

单样本情形:

检验样本所在总体的位置参数或者分布是否与已知理论值相同。

①Chi-Square过程:针对二分类或者多分类资料

例题1:见书P243。检验样本分布情况是否与已知理论分布相同。运用卡方检验过程。

②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。

例题2 :见书P246。检验某一比例是否与已知比例相等,运用二项分布过程。练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。

③Runs过程:用于检验样本序列是否是随机出现的。二分类资料和连续性资料均可。

游程检验:

游程的含义:

假定下面是由0和1组成的一个这种变量的样本:

0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0

其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。

这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。

游程检验的原理

判断数据序列是否是真随机序列。该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。例题3:见书P247。检验样本数据是否是随机出现的。

例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。

提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。

④1-Sample--K –S 过程

原理:单样本的Kolmogorov-Smirnov检验(K-S检验)方法主要针对连续性资料,是用来检验一个样本数据的观测累积分布是否是已知的理论分布。这些

作为零假设的理论分布在SPSS 的选项中有正态分布,Poisson 分布,均匀分布和指数分布等。

应用:可以检验下述四种类型的分布:

0H :数据服从正态分布 1H :数据不服从正态分布

0H :数据服从指数分布 1H :数据不服从指数分布

0H :数据服从均匀分布 1H :数据不服从均匀分布

0H :数据服从泊松分布 1H :数据不服从泊松分布

例题5:见书249

例题6:打开xuelin.sav 分析数据是否服从正态分布

例题7:检验x7是否服从均匀分布。数据见非参数.sav

双样本情形:

检验两个样本所在总体的位置参数或者分布是否相同。

(1)2 independent samples :针对2个独立的样本资料

例题8:见书P252

检验方法:

①惠.曼特尼U检验(Mann-Whitney )。一种用于检验两总体位置参数是否一致的方法,相当于参数检验中的t 检验。

②柯尔摩洛哥夫――斯密洛夫检验(简称K-S)检验。主要用于检验两总体分布是否一致。

③WW检验(Wald-Wolfowitz runs) :侧重于检验两总体分布是否相同,要求较为严格。

例题9:下列哪一个企业职工的工资高?数据见非参数.sav

(2) 2 related samples :针对配对资料

例题:见书P254 检验方法:

①Wilcoxon :根据配对资料的差值的秩进行的检验

②Sign :适合于两分类资料

③McNemar :只适合于两分类资料

④Marginal Homogeneity: 适合于多分类资料

例题:检验两个小麦品种的优劣性,数据见非参数.sav

多样本情形:

检验多个样本所在总体的位置参数或者分布是否相同。

(1)K independent samples :针对多个独立的样本资料 检验方法:

葛斯卡尔.瓦里斯Kruskal-Wallis

例题:某公司的管理人员来自三所大学。该公司对三所大学的管理人员做了如下

练习:

下面数据是游泳、打篮球、骑自行车等三种不同的运动在30分钟内消耗的热量。

(2)K related samples :针对配对资料

检验方法:

Friedman/

例1:为比较A、B、C、D、E五种药物注射后产生的皮肤疱珍的大小,选取6只家兔并给每只家兔先后分别按随机排列的次序注射这5种药物。试验结果(疱珍面积)如下表,这批数据能否说明这5种药物注射后产生的皮肤面积大小有差异。

练习:研究某项催眠技术与病人所处的环境有没有关系。挑选8个病人做试验。共有4种环境:害怕、愉快、抑郁和平静。让每位病人在这四种环境下都用催眠技术催眠。一段时间后,测度试验者的皮肤电压值,数据如下:

Kendall’W -----一致性系数。

用于检验多个变量之间有没有一致性。即是否有同时上升或下降的趋势。

原假设:不具备一致性(随机)

备择假设:具备一致性(即同时上升或下降),非随机

例题:下面是4个独立的环境研究单位对15个学校排序的结果,请分析这这种排序是否具有一致性。

分析:

实践中常需要按照某些特别的性质来多次对一些个体进行评估或排序;比如几个(m个)评估机构对一些(n个)学校进行排序。人们想要知道,这些机构的不同结果是否一致。如果很不一致,则该评估多少有些随机,意义不大。

换句话说,这里想要检验的原假设是:这些对于不同学校的排序是不相关的或者是随机的,不具备一致性;而备选假设为:这些对不同学校的排序是正相关的或者是多少一致的,具备一致性。

例题:有5位歌手,三位裁判,对歌手的打分数据见非参数.sav,评价三位裁判的打分是否具有一致性。

相关主题