搜档网
当前位置:搜档网 › 第四章非参数检验上课材料

第四章非参数检验上课材料

第四章非参数检验上课材料
第四章非参数检验上课材料

第四章 非参数检验

(Nonparametric Tests 菜单)

? 本章学习内容

3.1 非参数检验概述

3.2 卡方检验(Chi Square ) 3.3 二项分布检验(Binomial )

3.4 单样本K-S 检验(1 Sample K-S Tests

) 3.5 单样本变量值随机性检验(Runs

3.6

两独立样本非参数检验(2 independent Samples 3.7 多独立样本非参数检验(K independent Samples 3.7 两相关样本非参数检验(2 Related Samples 3.8 多相关样本非参数检验(K Related Samples ? 具体内容

3.1 非参数检验概述

非参数检验是统计推断的一个重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在假定知道总体分布形式的情况下,对总体分布的某些参数,如均值、方差等进行推断检验。但是,在现实生活中,由于种种原因,人们往往无法对总体的分布形态作简单的假定,但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下,利用样本数据对总体的分布形态或分布参数进行推断。

3.2 卡方检验(Chi-Square )

总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H 0:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。

单样本

实例分析:

医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多,其他日期则基本相当,比例近似为2.8:1:1:1:1:1:1。现收集到样本数据168个,据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav ”。

具体操作如下:

Analyze Nonparametric Tests Chi-Square ,打开卡方检验对话框,如下图。

心脏病猝死日期

5553.5 1.52319.1 3.91819.1-1.11119.1-8.12619.1 6.92019.1.91519.1

-4.1

168

1234567Total

Observed N

E xpected N

Residual

Tes t Statis tics

7.757

6.256

Chi-Square a df

Asymp. Sig.

心脏病猝死日期

0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 19.1.

a.

可以看出,由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设,可以认为样本来自的总体分布于指定的理论分布无显著差异,即:心脏病人猝死人数与日期的关系基本是

2

1

3

2.8:1:1:1:1:1:1。

3.3 二项分布检验(Binomial )

现实生活中有很多数据的取值是两类的,例如人群可以分成男性和女性,产品可以分为合格和不合格,学生可以分为三好学生和非三号学生等等。这时,如果某一类情况出现的概率是P ,则另一类出现的概率就是1-P ,这种分布成为二项分布。若说卡方检验是对单个因素多项分类(多重比例)进行检验,那么二项分布检验就是对单个因素的两项进行检验。

实例分析:

检验一种抗生素对于某种细菌的作用,看有效时间超过12小时的比例是否超过85%,为此进行了试验,结果如文件“抗菌时间.sav ”。

从题中可以知道,等价于有效时间不超过12小时的比例为15%,因此,设分布比例为0.15:0.85,H 0:P=0.15。

具体操作如下:Analyze Nonparametric Tests Binomial ,打开二项分布检验对话框。

Binomial Te st <= 124.20.15.352

> 12

16.8020

1.00

Group 1Group 2

Total

小时Category N Observed P rop.Test P rop.E xact Sig.(1-tailed)

可以看出,由于检验结果中的P 值为0.352,大于显著性水平0.05,因此不能拒绝“抗菌有效时间不高于12小时的比例为15%”的零假设。 习题1:

2分割点值

1

3检验比例

4

Dichotomy n.两分, 二分法, 分裂

Define dichotomy ,定义二分。其中:

get from data 适用于变量数据都是二值数据的情况;

cut point :如不是二值数据,则可输入一个具体值,即将数据分为两类:≤该值的为一类; 该值的为另一类。 Test proportion :检验比例,默认为0.5

见文件“抛掷硬币结果binomial.sav ”。检验抛掷硬币结果(1为正面,0为反面)的比例大体相等。

3.4 单样本K-S 检验(1 Sample K-S Tests )

若说前两种主要是对单样本的分布比例(多项或两项)的检验,那么单样本K (柯尔莫哥,Kolmogorov )-S (斯米诺夫,Smirnov )检验是利用样本数据推断总体是否服从某一理论分布,包括正态分布、均匀分布、指数分布、泊松分布。其零假设是H 0:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。其中应用最多的是正态分布检验。

实例分析:

某条大街在一年内的交通事故按周次分为七类进行统计,见文件“交通事故周次分布.sav ”。试问事故的发生是否与星期几有关?(a=0.05)

我们作的零假设为H 0:每天发生交通事故次数为均匀分布。

步骤:Analyze Nonparametric Tests 1 Sample K-S Tests ,打开单样本K-S 检验对话框。

One -Sam ple Kolmogorov-Smirnov Tes t

7712.229.171-.229.605.858

N

Minimum Maximum Uniform P arameters a,b Absolute P ositive Negative

Most E xtreme Differences

Kolmogorov-Sm irnov Z Asymp. Sig. (2-tailed)

事故数

Test distribution is Uniform.a. Calculated from data.

b.

单样本k-s 检验结果显示:渐进的显著性概率为0.858,远远大于0.05这一给定的显著性水平值,因此没有理由拒绝原假设,即认为每天发生交通事故次数为均匀分布,也就是说事故的发生与星期几无关。

2

1

3

习题2:

见word 文档:练习2。

3.5 单样本变量值随机性检验(游程检验,Runs )

单样本变量值随机性检验是对某一变量的变量值是否为随机性出现进行检验。

例如: 某厂质检员需要设计一个抽样方法,已保证质量检查的可靠。生产线上抽取的产品检查结果可简单地分为两类:有毛病、无毛病。一般来说,如果有毛病的产品是成群出现,则每天应频繁抽取小样本,以保证估计可靠;如果有毛病的产品随机出现,则每天以间隔较长地抽取大样本,就可以得到一个比较好的估计。现随机抽取了30个产品,毛病编码为0,好的编码为1,按抽取顺序,结果为:

0000111111001111110001111111

问:该生产线上的产品检验,应采取何种方式?

设H 0:有毛病的产品随机产生。打开文件“有毛病产品出现的随机性.sav ”。

步骤:Analyze Nonparametric Tests runs Test ,打开单样本变量值随机性检验对话框。

Runs Te st

1.00304-3.811.000

Test Value

a Total Cases Number of Runs Z

Asymp. Sig. (2-tailed)

x User-specified.

a.

结果显示:渐进观察显著性水平为0.000,这相对于a=0.05来说,是一个极小的值,因而数据不支持原假设,而是成群产生,因此,应该每天频繁抽取小样本检验,以保证质量检查的可靠性。 习题3:

在投掷硬币后,出现了由1和0(1代表正面,0代表反面)组成的数据序列为:1011011010011000101010000111,试判断,硬币的正反面出现是否是随机的? 3.6 两独立样本非参数检验(2 independent Samples )

2

1

3

两独立样本的非参数检验是在对总体分布不甚了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显著差异。

SPSS提供了四种用于两独立样本的非参数检验方法。在此只以曼-惠特尼-U检验为例讲述。

实例分析:

美国某汽车协会每月编制一个顾客满意度指数,旨在测量顾客对新型汽车满意程度,此指

车型(制造商)美国产或进口顾客满意度指数

凌志(丰田)进口179

无限(日产)进口167

土星(通用)国产160

阿拉库(本田)进口148

梅塞德-奔驰进口145

丰田进口144

奥迪进口139

卡迪拉克(通用)国产138

本田进口138

捷豹(福特)国产137

我们建立的H0:美国产汽车与进口汽车的顾客满意指数相同。另外,我们还需对国产或进口资料进行重新编码(recode)以分出组别。

打开文件“汽车满意度评比.sav”。

步骤1:transform recode into different variables,会弹出如下对话框。

之后会看到文件中生成新的变量“国产”,如下图。

步骤2:Analyze Nonparametric Tests 2 independent Samples,打开两独立样本检验对话框。

Ranks

7 6.2143.503 3.83

11.50

10

国产01Total

顾客满意度指数

N Mean Rank

Sum of Ranks

Te st Statistics

b 5.50011.500-1.143.253

.267

a

Mann-Whitney U

Wilcoxon W Z

Asymp. Sig. (2-tailed)E xact Sig. [2*(1-tailed Sig.)]

顾客满意度指数

Not corrected for ties.a. Grouping Vari a ble: 国产

b.

可以看出,相应的渐进显著性检验值为0.253,大于给定的a 值,因此,没有理由拒绝原假设,即认为顾客对美国产的新型汽车和进口汽车的满意指数没有显著性差异。 习题4:

某工厂用两种不同的工艺生产用一种产品,现在需要检验它们的使用寿命是否存在显著差异。具体数据如下:(单位:百小时)

甲种工艺:675,682,692,679,669,661,693

乙种工艺:662,649,672,663,650,651,646,652 用1表示甲,用2表示乙。 3.7 两相关样本非参数检验(2 Related Samples )

两相关样本的非参数检验是在对总体分布不甚了解的情况下,通过分析样本数据,推断样本来自的两个相关总体的分布是否存在显著差异。

SPSS 提供了三种用于两相关样本的非参数检验方法。在此只以普通符号法(sign )为例讲述。

实例分析:

考察广告对某商品的每日销量是否起作用。广告前后每日销售量见文件“广告对某商品的每日销量是否起作用.sav ”。我们设H 0:广告前与广告后每日销量相同。

步骤:Analyze Nonparametric Tests 2 Related Samples ,打开两相关样本检验对话框。

Fr eque ncies

2

10315

Negative Differences a P ositive Differences

b Ties c

Total

广告后 - 广告前

N

广告后 < 广告前a. 广告后 > 广告前b. 广告后 = 广告前

c.

Tes t Statis tics

b .039a

E xact Sig. (2-tailed)广告后 - 广告前

Binom ial distribution used.

a. Sign Test

b.

Sig 值为0异。我们认定广告对该种商品的促销还是起作用的。 习题5:

见word文档“习题5”。

3.8 多独立样本非参数检验(K independent Samples)

在参数检验中,检验多个样本是否来自均值相同的总体,采用的是方差分析法。运用方差分析的F检验的假定前提条件是:样本是从正态分布的总体中抽选的,且总体具有相同的方差。当这些条件不能满足时,就需要采用非参数检验方法了。

针对多个独立样本的非参数检验,SPSS通过K independent Samples的子过程来完成,且提供了三种具体方法,在此以K-W-H方法(克鲁斯卡尔-瓦里斯)为例。

实例分析:

假设某公司有三种方法供员工执行某生产任务使用。为检验这三种方法之间有无差异,设计了两个方案。

方案1:先随机抽取6名员工,其中的每一名员工都使用方法1,然后再随机抽取6名员工,这6名都使用方法2。最后在抽取6名,他们都使用方法3。具体完成任务时间(分钟)见下表。

员工

123456

方法

方法17.2 6.87.3 6.0 6.67.0方法2 6.5 6.2 5.1 6.1 5.9 6.9方法37.67.17.4 6.37.5 6.4方案2:随机抽取6名员工,每一名员工都使用这三种方法执行该任务。6名员工完成任务时间(分钟)见下表。

员工

123456

方法

方法1 6.0 5.07.0 6.2 6.1 6.4方法2 5.4 5.2 6.5 5.9 6.0 5.8方法3 6.4 5.4 6.7 6.3 6.87.2可以看出,方案1 是3个独立样本,我们使用K-W-H方法来对其进行检验。

首先建立零假设H0:三种方法之间没有差异。

打开文件“例 7-9(Kruskal-Wallis).sav”

步骤:Analyze Nonparametric Tests K independent Samples,打开多独立样本检验对话框。

第二讲 非参数统计检验

第二讲 非参数检验 1. 实验目的 1.了解非参数假设检验基本思想; 2.会用SAS 软件中的proc npar1way 过程进行非参数假设检验和proc freq 过程进行列联表的独立性检验。 2. 实验要求 1.会用SAS 软件建立数据集,并进行统计分析; 2.掌握proc npar1way 过程进行非参数假设检验的基本步骤; 3.掌握proc freq 过程进行列联表的独立性检验的基本步骤。 3. 实验基本原理 3.1 符号检验 0:H 两种方法的处理效果无显著性差异 令10 i i I i ?=? ?第个个体中新方法优于对照方法第个个体中新方法劣于对照方法 1,2,,i N = 统计量1 N N i i S I ==∑ N S 表示新方法的处理效果优于对照方法的配对组总数。若新方法的处理效果显著的优于对 照方法,则N S 的值应明显偏大。因此,若对给定的置信水平α,有 {}N P S c α≥<, 则拒绝0H 。 0H 为真时,(1)N S 服从二项分布1(,)2 b N (),()24 N N N N E S Var S = =。拒绝域为: {}N N S S c > (2) 由中心极限定理可知,当 2 , N N S N - →∞的零分布趋于标准正态分布。

拒绝域为 :N S u α?? ????>???????? 3.2 Wilcoxon 秩和检验 (1)单边假设检验 0:H 两种方法的处理效果无显著性差异 as 1:H :新方法优于对照方法。 用于检验0H 的统计量为:1n s i i W I ==∑ 若对给定的置信水平α,有 {}s P W c α≥<,则拒绝0H 。且s W 的分布列为: 0#{;,}{}H s w n m P W w N n == ?? ??? 根据观测结果计算s W 的观测值0s W ,计算检验的p 值: 00 {}{} s H s s H s k w p P W w P W k ≥=≥= =∑ 然后将p 值与显著水平α作比较,若p α<,则拒绝0H ,否则接受0H 。 (2)双边假设检验 给定的显著水平21,c c 和α应该满足: ε=≥+≤}{}{2100c W P c W P A H A H 仅由上式还不能唯一确定21c c 和,当我们对两种方法谁优谁劣不得而知时,通常取 2 }{}{2100α = ≥=≤c W P c W P A H A H 若利用p 值进行检验,设A A W ω的观测值为 ,计算概率值 }{}{00A A H A A H W P W P ωω≤≥或 由对称性可知,检验的p 值为上述两概率中小于1/2的那一个的2倍。例如

第四章假设检验

第四章假设检验 参数估计与假设检验的关系:参数估计和假设检验是推断统计方法的两个重要组成部分。共同点:都是利用样本信息对总体数量特征进行推断。不同点:推断的角度不同 4.1 假设检验的基本问题 1、假设检验——是指先对总体的参数或分布形式提出某种假设,然后利用样本信息判断假设是否成立的过程; 包括参数检验和非参数检验;逻辑上运用的是概率反证法;统计依据为小概率原理。 2、小概率事件——若事件A发生的概率P(A)很小很小或接近于0。一般在假设检验中,通常要求P(A)≤0.05。 3、原假设——又称零假设,是指研究者想收集证据予以反对的假设,表示为H0。总是有 符号=、≤或 ≥ 备择假设——也称研究假设,是指研究者想收集证据予以支持的假设,表示为H1。总是有符号≠、<或> 4、原假设和备择假设是一个完备事件组,而且相互对立。在一项假设检验中,原假设和备择假设必有一个成立,而且只有一个成立; 先确定备择假设,再确定原假设。因为备择假设大多是人们关心并想予以支持和证实的,一般比较清楚和容易确定; 等号“=”总是放在原假设上; 因研究目的不同,对同一问题可能提出不同的假设,也可能得出不同的结论。 假设检验主要是搜集证据来推翻和拒绝原假设。 5、双侧检验——是指备择假设没有特定的方向性,并含有符号≠的假设检验,又称为双尾检 验。 单侧检验——是指备择假设具有特定的方向性,并含有符号>或<的假设检验,又称为单尾检验。 6、第Ⅰ类错误(弃真错误) 原假设为真时拒绝原假设。第Ⅰ类错误的概率记为α,又被称为显著性水平。 又称为显著性水平,常被用于检验结论的可靠性度量; 既是一个概率值;又是抽样分布拒绝域面积的大小(表示犯第Ⅰ类错误概率的最大允许值);常用的α 值有0.01,0.05,0.10;由研究者事先确定。 第Ⅱ类错误(取伪错误) 原假设为假时未拒绝原假设。第Ⅱ类错误的概率记为β。

假设检验——非参数检验

假设检验(二)——非参数检验 假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。 非参数检验法与参数检验法相比,特点可以归纳如下: (1)非参数检验一般不需要严格的前提假设; (2)非参数检验特别适用于顺序资料; (3)非参数检验很适用于小样本,并且计算简单; (4)非参数检验法最大的不足是没能充分利用数据资料的全部信息; (5)非参数检验法目前还不能用于处理因素间的交互作用。 非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。 一.2 χ检验 2χ检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何 假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。 2χ检验的方法主要包括适合性检验和独立性检验。 (一)2 χ检验概述 2χ是实得数据与理论数据偏离程度的指标。其基本公式为: ∑-=e e f f f 2 02 )(χ (公式11—9) 式中,0f 为实际观察次数,e f 为理论次数。 分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2 χ。观察公式可发现,如果实际观察

第4章非参数检验作业

第四章非参数检验 1.为研究心脏病人猝死人数与日期的关系,收集了168个观察数据,见数据文件“非参数检验(心脏病猝死).sav”,其中:用1、2、3、4、5、6、7表示是星期几死的。现利用这批数据,推断心脏病人猝死人数与日期的关系是否是: 2.8:1:1:1:1:1:1.,使用总体分布的卡方检验方法进行检验。 解:取显著性水平为0.05(题设未给出) H0:心脏病人猝死人数与日期的关系是:2.8:1:1:1:1:1:1. H1:心脏病人猝死人数与日期的关系不是:2.8:1:1:1:1:1:1. 操作步骤:

结果:

由SPSS输出结果可知, P=0.256,大于显著性水平0.05,不能拒绝原假设。 2.为验证某批产品的合格品率是否达到90%,现从该批产品中随机抽取23个样品进行检验,得到最后的检测结果数据,见数据文件“非参数检验(产品合格率).sav”,其中:1表示一级品,0表示非一级品。使用二项分布检验方法检验一级品率为90%. 解: H0:这批产品一级品率的分布符合二项分布(p=90%) H1:这批产品一级品率的分布不符合二项分布(p=90%) 设显著性水平为0.05. 首先读入数据文件“非参数检验(产品合格率).sav”,选择非参数检验的二 项分布检验,并将检验比例设置为0.90。如下图所示。

得到结果如下: 从图中的分析结果我们可以看到P值为0.193>0.05,因此我们不拒绝原假设,可以认为这批产品合格品率达到90% 3.收集到21个关于周岁儿童身高的样本数据,见数据文件“非参数检验(单样本KS-儿童身高).sav”,试利用K-S方法检验周岁儿童的身高是否服从正态分

STATA 多组计量 比较的非参数检验命令与输出结果说明

第五章多组计量资料比较的非参数检验命令与输出结果说明本节STATA? 命令摘要 秩和检验 ( Mann,Whitney and Wilcoxon 非参数检验) 对于计量资料不满足正态分布要求或方差不齐性,但样本资料之间是独立抽取的,则可以应用秩和检验方法进行比较两组资料的中位数是否有差异。STATA命令为:ranksum?? 观察变量, by( 分组变量) 例:研究不同饲料对雌鼠体重增加的关系。表中用x表示雌鼠体重增加(克),用group=1表示高蛋白饲料组以及用group=2 表示低蛋白饲料组。 无效假设 Ho:两组增加体重的中位数相同。 ranksum x,? by(group)

①为第二组(低饲料组)的秩的和;② 若效假设成立,则第二组的秩的和期望值为70; ③秩和统计检验量z;④对于无效假设Ho对应的p值。 在本例中,虽然第二组的秩和为49.5而期望值估计为70,但p值为0.0832,所以根据该资料和统计结果一般不能认为用高蛋白饲料喂养能明显增加雌鼠的体重。 多组资料中位数比较(完全随机化设计资料的检验) 对于完全随机化设计资料的比较,若各组资料不全服从正态分布(即:至少有一组的资料均不服从正态分布)或各组的资料方差不齐性,则可以用Kruskal and Wallis方法进行检验(Ho:各组的中位数相同)。STATA命令为: kwallis?观察变量,by(分组变量)

例:50只小鼠随机分配到5个不同饲料组,每组10只小鼠。在喂养一定时间后,测定鼠肝中的铁的含量(mg/g)如表所示:试比较各组鼠肝中铁的含量是否有显着性差别。用x?表示鼠肝中铁的含量以及用group=1,2,3,4,5分别表示对应的5个组。 kwallis? x, by(group)

第五章假设检验

第五章假设检验 本章介绍假设检验的基本概念以及参数检验与非参数检验的主要方法。通过学习,要求: 1.掌握统计检验的基本概念,理解该检验犯两类错误的可能; 2. 熟练掌握总体均值与总体成 数指标的各种检验方法;包括:z 检验、t 检验和p- 值检验;4. 掌握基本的非参数检验方法,包括:符号检验、秩和检验与游程检验; 5. 能利用Excel 进行假设检验。 第一节假设检验概述 一、假设检验的基本概念 假设检验是统计推断的另一种方式,它与区间估计的差别主要在于:区间估计是用给定的大概率推断出总体参数的范围,而假设检验是以小概率为标准,对总体的状况所做出的假设进行判断。假设检验与区间估计结合起来,构成完整的统计推断内容。假设检验分为两类:一类是参数假设检验,另一类是非参数假设检验。本章分别讨论这两类检验方法。 进行假设检验,首先要对总体的分布函数形式或分布的某些参数做出假设,然后再根据样本数据和“小概率原理” ,对假设的正确性做出判断。这种思维方法与数学里的“反证法” 很相似,“反证法”先将要证明的结论假设为不正确的,作为进一步推论的条件之一使用,最后推出矛盾的结果,以此否定事先所作的假设。反证法所认为矛盾的结论,也就是不可能发生的事件,这种事件发生的概率为零,该事件是不能接受的现实。其实,我们在日常生活中,不仅不肯接受概率为0 的事件,而且对小概率事件,也持否定态度。比如,虽然偶尔也有媒体报导陨石降落的消息,但人们不必担心天空降落的陨石会砸伤自己。 所谓小概率原理,即指概率很小的事件在一次试验中实际上不可能出现。这种事件称为“实际不可能事件” 。 小概率的标准是多大?这并没有绝对的标准,一般我们以一个所谓显著性水平 a 0<加1) 作为小概率的界限,a的取值与实际问题的性质有关。所以,统计检验又称显著性检验。 下面通过一个具体例子说明假设检验是怎样进行的。 【例5-1】消费者协会接到消费者投诉,指控品牌纸包装饮料存在容量不足,有欺骗消费者之嫌。包装上标明的容量为250毫升。消费者协会从市场上随机抽取50盒该品牌纸包装饮品,测试发现平均含量为248毫升,小于250毫升。这是生产中正常的波动,还是厂商的有意行为?消费者协会能否根据该样本数据,判定饮料厂商欺骗了消费者呢? 上述例子中,消费者协会实际要进行的是一项统计检验工作,检验总体平均容量是否等于包装上注明的250 毫升。即,检验总体平均=250 是否成立。这就是一个原假设(null hypothesis) ,通常用 H 0 表示,即: H 0 :=250 与原假设对立的是备选假设( alternative hypothesis) H 1 ,备选假设是在原假设被否定时另一 种可能成立的结论。备选假设比原假设还重要,这要由实际问题来确定,一般把期望出现的结论作为备选假设。上例中可能的备选假设有三种:

非参数统计第4章 两独立样本的非参数检验

第四章 两独立样本的非参数检验 在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值.但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等. 作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12): 15044 12270 5345 7730 22275 8447 9455 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18): 5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167 人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题. 假定代表两个独立总体的随机样本(Y1,Y2,…,Y12)和(x1,x2,…,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值.换言之,即检验 0H :021D =-μμ;1H : 021D ≠-μμ 0H :021D =-μμ;1H : 021D <-μμ 0H :021D =-μμ;1H : 021D >-μμ 在正态假定下,这些问题化为:)2(~11)(0-++ --= m n t m n s D y x t 2 ) ()(1 2 1 2 -+-+ -= ∑∑==n m y y x x S m i i n i i t 检验并不稳健,在不知总体分布时,应用t 检验时会有风险的。 3.1 Brown-Mood 中位数检验 令沿海地区的人均GDP 的中位数为M X ,而内地的为M Y 。零假设为 0H :y x M M =;1H : y x M M > 显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样 本中位数(记为此xy M ),应该对于每一列数据来说都处于中间位置.也就是说,(Y1,Y2,…,Y12) 和(x1,x2,…,x18)中大于或小于xy M 的样本点应该大致一样多,计算他们的混合样本中位数为

非参数检验

非参数检验 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*第五章非参数检验SPSS(中文版)统计分析实用教程(第版)电子工业出版社*主要内容参数检验与非参数检验的比较单样本的非参数检验独立样本非参数检验相关样本的非参数检验SPSS(中文版)统计分析实用教程(第版)电子工业出版社*参数检验与非参数检验的比较参数检验和非参数检验的区别参数检验和非参数检验最本质的区别:参数检验需要事先确定或假定总体的分布非参数检验则不需要假定总体的分布而是直接用样本来推断总体的分布。 可以通过是否假定总体的分布来区分参数检验和非参数检验除此之外二者之间还可以从很多方面来区分。 ()研究的对象和目标不同。 参数检验研究的是总体的参数不涉及总体的分布检验一旦总体的参数确定总体的分布也就确定了非参数检验的目标是直接从样本推导总体的分布或两个总体的分布是否相同。 ()研究的统计量有所不同。 参数检验中很少用到秩来构造统计量无论样本量大小都能对总体进行推断非参数检验中常用秩、秩和等来构造统计量且常要求样本量较大。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*参数检验与非参数检验的比较非参数检验的优点()它对总体分布一般不做过多的限制性假设任何分布都可以用非参数检验进行研究从应用范围

看其应用范围大于参数检验。 ()由于非参数检验不依赖于总体的分布形式因而它天然具有稳健性特征。 ()对资料的测量水平要求不高这给资料的搜集带来了很大的方便可以大大减轻统计资料的搜集工作量。 同时也为属性资料研究提供了广泛的基础。 ()非参数检验比较直观很容易理解不需要太多数学知识和统计理论。 多数非参数检验的运算比较简单可以较快地取得统计结果。 非参数检验的上述优点表明在实际问题的研究中它是一种比较有用的统计方法。 SPSS(中文版)统计分析实用教程(第版)电子工业出版社*参数检验与非参数检验的比较非参数检验的缺点有些人主张用非参数检验取代参数检验这种看法有点偏激因为非参数检验毕竟存在着一些自身难以克服的不足表现在:()两者的效率有差距。 非参数检验主要处理定序资料这类资料的测量尺度比较低如果把那些能够用参数检验处理的资料转化为定类和定序资料必然会丢失检验数据的一部分信息因此非参数检验的有效性或检验效率不如参数检验。 ()当样本容量比较大时非参数检验的计算也比较繁杂、困难。 ()参数检验与非参数检验各有各的特点并非所有的参数检验都能转用非参数检验。

第四章-非参数检验

第四章非参数检验 非参数检验(non-parametric test) 卡方检验(test)、 Runs 检验(Runs test)、 Kolmogorov-Smirnov 单样本检验(Kolmogorov-Smirnov one-sample test)、 Mann-Whitney 等级和检验(Mann-Whitney rank-sum test)、 符号检验(sign test)、 Wilcoson 配对符号等级检验(Wilcoson matched-pairs signed-ranks test)、 Fridman 单因素方差分析(Fridman one-way analysis of variance) 多样本中数检验(K-sample median test)。 一、卡方检验 检验(也叫做Pearson Chi-Square test):配合度检验(the test of goodness of fit)和独立性检验(independence test)。 (一)配合度检验 配合度检验: 推断某变量不同取值观测分数的频数和对应的期望频数(expected frequency)是否有显著性差异。 作零假设:f0=f e f0和f e分别为变量的每个水平的观测频数和期望频数。 配合度检验的自由度为:N-1,N为变量水平数。 【配合度检验·例】 配合度检验实际上是检验某变量的不同水平值的观测分数频率的分布是否服从某种期望或者理论分布。 某研究者进行了一次问卷调查。调查对象是300 名高中三年级学生;调查目的是考查学生对英语学习兴趣的自我评价:你对英语的学习兴趣□ 很浓、□ 较浓、□ 一般、□ 有点和□ 没有。获得原始数据如表4-1 所示。似乎较多人认为自己对英语的学习兴趣一般,较少人认为自己英语学习兴趣浓厚或没有兴趣。 该研究者想通过卡方分析证明:①对英语学习有不同兴趣的学生人数不均等和②其英语学习兴趣很浓、较浓、一般、有点和没有各等级的人数比接近1:4:8:4:2。 表4-1 300 名学生对英语学习兴趣调查题目的反馈* 学生编号兴趣 001 2 002 3 003 5 …… 300 3 * 英语学习兴趣很浓、较浓、一般、有点和没有5 个等级分别以数字5、4、3、2 和1 表示。 ①对英语学习有不同兴趣的学生人数不均等。

回归分析与非参数检验---侯-(1)

大连民族学院 数学实验报告 课程:统计软件—SPSS 实验题目:线性回归分析与非参检验 系别:理学院 专业:统计学 姓名:侯祥飞 班级:141班 指导教师:滕颖俏 完成时间:2016 年10 月30

日 实验目的: 掌握线性回归分析的主要目标及其具体操作,能够读懂基本分析结果,掌握计算结果之间的数量关系,并能够写出回归方程,对回归方程进行各种统计检验。了解SPSS非参数检验的具体操作,能够解释分析结果。 实验内容、实验步骤、实验结果及分析 一、线性回归分析 (一)9.5 粮食总产量 1.实验内容 先收集到若干年粮食总产量以及播种面积、使用化肥量、农业劳动人数等数据,请利用建立多元线性回归方程,分析影响粮食总产量的主要因素。数据文件名为“粮食总产量.sav”。 2.实验步骤 步骤:分析→回归→线性→粮食总产量导入因变量、其余变量导入自变量→确定;分析→回归→线性→(向后)→确定 3.实验结果及分析

上表进行了拟合优度检验,由于该方程有多个解释变量,因此参考调整判定系数(0.986)较接近1,因此认为拟合有度较高,被解释变量可以被模型解释的部分较多,不能被解释的部分较少。 上表进行了回归方程的显著性检验,由于Sig为0小于0.05,所以拒绝原假设,认为各回归系数不同时为0,被解释变量与解释变量全体的线性关系是显著的,可以建立线性模型。 上表进行了回归系数的显著性检验,可以看出除粮食播种面积与农业劳动者人数变量的P-值均大于0.05,所以接受原假设,认为这

些偏回归系数与0无显著性差异,它们与被解释变量的线性关系是不显著的,不应该保留在方程中。影响程度来由大到小依次是风灾面积、施用化肥量、总播种面积和年份(排除农业劳动者人数和粮食播种面积对粮食产量的影响)。 得回归方程为:7.4567.26817.126215.68037.8934 =-+++-, Y X X X X 其中X1,X2,X3,X4分别为年份,总播种面积,施用化肥量,风灾面积比例。 (二)9.6 销售量 1.实验内容 一家产品销售公司在30个地区设有销售分公司。为研究产品销售量(y)与该公司的销售价格(x1)、各地区的年人均收入(x2)、广告

第4章 两独立样本的非参数检验(非参数统计,西南财大)

第三章 两独立样本的非参数检验 在单样本位置问题中,人们想要检验的是总体的中心是否等于一个已知的值.但在实际问题中,更受注意的往往是比较两个总体的位置参数;比如。两种训练方法中哪一种更出成绩,两种汽 油中哪一个污染更少,两种市场营销策略中那种更有效等等. 作为一个例子.我国沿海和非沿海省市区的人均国内生产总值(GDP)的1997年抽样数据如下(单位为元).沿海省市区为(Y1,Y2,…,Y12): 15044 12270 5345 7730 22275 8447 9455 8136 6834 9513 4081 5500 而非沿海的为对(x1,x2,…,x18): 5163 4220 4259 6468 3881 3715 4032 5122 4130 3763 2093 3715 2732 3313 2901 3748 3731 5167 人们想要知道沿海和非沿海省市区的人均GDP 的中位数是否一样.这就是检验两个总体的位置参数是否相等的问题. 假定代表两个独立总体的随机样本(Y1,Y2,…,Y12)和(x1,x2,…,x18),则问题归结为检验它们总体的均值(或中位数)的差是否相等,或是否等于某个已知值.换言之,即检验 0H :021D =-μμ;1H : 021D ≠-μμ 0H :021D =-μμ;1H : 021D <-μμ 0H :021D =-μμ;1H : 021D >-μμ 在正态假定下,这些问题化为:)2(~1 1)(0-++--= m n t m n s D y x t 2 )()(1 2 1 2 -+-+-= ∑∑==n m y y x x S m i i n i i t 检验并不稳健,在不知总体分布时,应用t 检验时会有风险的。 3.1 Brown-Mood 中位数检验 令沿海地区的人均GDP 的中位数为M X ,而内地的为M Y 。零假设为 0H :y x M M =;1H : y x M M > 显然,在零假设下,中位数如果一样的话,它们共同的中位数,即这(12十18)=30个数的样本中位数(记为此xy M ),应该对于每一列数据来说都处于中间位置.也就是说,(Y1,Y2,…,Y12)和(x1,x2,…,x18)中大于或小于xy M 的样本点应该大致一样多,计算他们的混合样本中位数为

非参数假设检验法及其运用

非参数假设检验法及其运用 摘要:在国际金融危机下,以中国股市数据为依据,运用S-plus 统计分析软件和Excel ,对中国股市正态分布假设进行了Kolmogorv拟合优度检验,运用方差平方秩检验方法,比较分析了上证指数和深证综指的波动性。 关键字:股市;Kolmogorov拟合优度检验;秩检验。 引言:对中国股市分布的研究,国内各学者对中国股市进行了非参数检验。王金玉、李霞、潘德惠(2005)通过引入一种新的估计方法“非参数假设检验方法”,以达到对证券投资咨询机构,对证券市场大盘走势预测准确度的估计。周明磊(2004)运用非参数非线性协整检验,对上证指数与深成指间协整关系进行了研究,结论是:上证指数与深圳成指之间确实存在非线性的协整关系。方国斌(2007)从分析中国股市收益率序列的特征入手,寻找描述中国股市波动性特征的合适的统计模型。 在研究相关文献的基础上,将非参检验应用于中国股市统计特征的研究。运用Kolmogorov拟合优度检验,对中国股市进行了正态分布假设检验;运用方差平方秩检验方法,比较分析了上海指数和深圳综指的波动性。 正文: 一、Kolmogorov拟合优度检验以及方差的平方秩检验方法。 (一)Kolmogorov拟合优度检验 1. 原假设和备择假设 原假设H :样本来自于正态分布总体。 备择假设H 1 :样本不是来自于正态分布总体。 2. 检验统计量 令S (x) 是样本X 1、X 2 、…X n 、的经验分布函数,F*(x)是完全已知的假设分布函数, 则检验统计量T为S (x) 与F*(x)的最大垂直距离,即:T = sup| F*(x)- S (x)|。 3. P值计算 近似P值可以通过在表A13中插值得到,或者利用2倍的单边检验的P值。 单边P值= 1 )] 1( [ 1 1 - - - = ? ? ? ? ? + ? ? ? ? ? - - ?? ? ? ? ? ∑j j n t n j n j t n j t j n 这里t的是检验统计量的观测值,[n(1-t)] 且是小于等于n(1-t)的最大整数。当给定的显著性水平α大于或等于P值时,拒绝原假设。 在本文中,该检验是运用S-plus 统计分析软件实现的。 (二) 方差的平方秩检验 1. 原假设和备择假设 ( 1 ) 双边检验 1 原假设H :除了它们的均值可能不同外,X和Y同分布。

SPSS的参数检验和非参数检验

S P S S的参数检验和非 参数检验 公司内部档案编码:[OPPTR-OPPT28-OPPTL98-OPPNN08]

实验报告 SPSS的参数检验和非参数检验 学期:_2013__至2013_ 第_1_学期 课程名称:_数学建模专业:数学 实验项目__SPSS的参数检验和非参数检验实验成绩:_____ 一、实验目的及要求 熟练掌握t检验及其结果分析。熟练掌握单样本、两独立样本、多独立样本的非参数检验及各种方法的适用范围,能对结果给出准确分析。 二、实验内容 使用指定的数据按实验教材完成相关的操作。 1、给幼鼠喂以不同的饲料,用以下两种方法设计实验: 方式1:同一鼠喂不同的饲料所测得的体内钙留存量数据如下: 方式2:甲组有12只喂饲料1,乙组有9只喂饲料2,所测得的钙留存量数据如下:

请选用恰当方法对上述两种方式所获得的数据进行分析,研究不同饲料是否使幼鼠体内钙的留存量有显着不同。 2、为分析大众对牛奶品牌是否具有偏好,随机挑选超市收集其周一至 周六各天三种品牌牛奶的日销售额数据,如下表所示: 请选用恰当的非参数检验方法,以恰当形式组织上述数据进行分析,并说明分析结论。 实验报告附页 三、实验步骤 (一) 方式1: 1、打开SPSS软件,根据所给表格录入数据,建立数据文件; 2、选择菜单Analyze-Compare means-Paired-Samples T Test,出现窗口; 3、把检验变量饲料1,饲料2 选择到Paired Variables框,单击OK。方式2: 1、打开SPSS软件,根据所给表格录入数据,建立数据文件; 2、选择菜单Analyze-Compare means-Independent-Samples T Test,出现窗口 3、选择检验变量饲料到Test Variable(s)框中。 4、选择总体标志变量组号到Grouping Variables框中。 5、单击Define Groups按钮定义两总体的标志值1、2,单击OK。

方差分析与非参数检验

北京建筑大学 理学院信息与计算科学专业实验报告 课程名称《数据分析》实验名称方差分析与非参数检验实验地点基C-423 日期2017.3.30 (1)熟悉数据的基本统计与非参数检验分析方法; (2)熟悉撰写数据分析报告的方法; (3)熟悉常用的数据分析软件SPSS。 【实验要求】 根据各个题目的具体要求,完成实验报告。 【实验内容】 1、附件给出某年房屋价格的相关数据,请选用恰当的分析方法,对影响房屋价格的因素进行分析。(注意数据要调整成标准的格式,变量值、组别(字符变量转换成数值变量))(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可) 2、附件给出管理才能评分的相关数据,请选用恰当的分析方法,分析该评分数据是否服从正态分布。 3、附件给出了某体育比赛的两位裁判打分数据,请选用恰当的分析方法,检验该两组评分分布是否有显著差异。(注意数据要调整成标准的格式,变量值、组别) 4、附件给出了减肥茶数据,请选用恰当方法分析,检验该减肥茶是否对减肥有显著效果。(注意数据要调整成标准的格式,变量值、组别) 【分析报告】 1、对影响房屋价格的因素进行分析。(单因素方差分析选择其中两个因素、双因素方差分析选择其中任一对因素即可)。 表1-1(a) 装修状况对均价影响的单因素方差分析结果 均价 平方和df 均方 F 显著性 组间79.180 1 79.180 62.408 .000 组内230.914 182 1.269 总数310.094 183 表1-1(b) 所在区县对均价影响单因素方差分析结果 均价 平方和df 均方 F 显著性 组间91.919 3 30.640 25.279 .000 组内218.174 180 1.212 总数310.094 183 表1-1(a)是装修状况对均价影响的单因素方差分析结果。可以看到:观测变量均价的离差平方总和为310.094;如果仅考虑装修状况单个因素的影响,则均价总变差中,不同装修状况可解释的变差为79.180,抽样误差引起的变差为230.914,它们的方差分别为79.180和1.269,相除所得的F统计量的观测值为62.408,对应的概率P-值近似为0.如果显著性水平α为0.05,由于概率P-值小于显著性水平α,应拒绝原假设,认为不同装修状况对均价的平均值产生了显著影响,不同装修状况对均价的影响效应不全为0。 表1-1(b)是所在区县对均价影响单因素方差分析结果。可以看到:如果仅考虑所在区县单个因素的影响,则均价总变差310.094中不同所在区县可解释的变差为91.919,抽样误差引起的变差为218.174,

参数、非参数检验操作步骤

参数、非参数检验操作步骤 参数检验 非参数检验 对象 针对参数做的假设 针对总体分布情况做的假设 使用范围 等距数据和比例数据(度量) 定类数据和定序数据(名义和有序) 分布 正态分布 正态、非正态分布 内容 Means 检验 单样本T 检验 独立样本T 检验 配对样本T 检验 卡方检验(均匀分布) 二项分布检验(两个变量) 游程检验(随机分布) K-S 检验(正态分布检验) 参数检验 一 Means 过程 Means 过程用于统计分组变量的的基本统计量,这些基本统计量包括:均值(Mean )、标准差(Standard Deviation)、观察量数目(Number of Cases)、方差(Variance)。 1数据编辑窗口输入分析的数据 2 分析→比较均值→均值 因变量、自变量的选择可根据实际情况。 “选项”

3 结果分析

P<0.05,拒绝原假设,显著性强。 结果报告,分别给出暴雨前和暴雨后卵量的统计量:暴雨前有13个样本,平均数122.3846,标准差15.95065,方差254.423; 暴雨后有13个样本,平均数104.4615,标准差15.10858,方差228.269;总体26个样本,平均数113.4231,标准差17.75426,方差315.214。 方差分析表,共有六列,第一列说明方差的来源,Between Groups是组间的,Within Groups 组内的,Total 总的。第二列为平方和,其大小说明了各方差来源作用的大小。第三列为自由度。第四列为均方,即平方和除以自由度。第五列F值是F统计量的值,其计算公式为模型均方除以误差均方,用来检验模型的显著性。第六列是F统计量的显著值,由于这里的显著值0.007小于0.05,所以模型是显著的,降雨对卵量有显著影响。 二单一样本的T检验 T检验是检验单个变量的均值与指定的检验值之间是否存在显著差异。如:研究人员可能想知道一组学生的IQ平均分与100分的差异。 1 分析→比较均值→单一样本的T检验

假设检验——非参数检验

假设检验(二)——非参数检验 假设检验的统计方法,从其统计假设的角度可分为两类:参数检验与非参数检验。上一节我们所介绍的Z 检验、t 检验,都是参数检验。它们的共同特点是总体分布正态,并满足某些总体参数的假定条件。参数检验就是要通过样本统计量去推断或估计总体参数。然而,在实践中我们常常会遇到一些问题的总体分布并不明确,或者总体参数的假设条件不成立,不能使用参数检 验。这一类问题的检验应该采用统计学中的另一类方法,即非参数检验。非参数检验是通过检验总体分布情况来实现对总体参数的推断。 非参数检验法与参数检验法相比,特点可以归纳如下: (1)非参数检验一般不需要严格的前提假设; (2)非参数检验特别适用于顺序资料; (3)非参数检验很适用于小样本,并且计算简单; (4)非参数检验法最大的不足是没能充分利用数据资料的全部信息; (5 )非参数检验法目前还不能用于处理因素间的交互作用。 非参数检验的方法很多,分别适用于各种特点的资料。本节将介绍几种常用的非参数检验方法。 一.2检验 2 检验主要用于对按属性分类的计数资料的分析,对于数据资料本身的分布形态不作任何假设,所以从一定的意义上来讲,它是一种检验计数数据分布状态的最常用的非参数检验方法。 2 2 检验的方法主要包括适合性检验和独立性检验。 (一)2检验概述 2 是实得数据与理论数据偏离程度的指标。其基本公式为: 2 ( f0 f e)(公式11—9) f e 式中,f0 为实际观察次数,f e 为理论次数。 分析公式可知,把实际观测次数和依据某种假设所期望的次数(或理论次数)的差数平方,除以理论次数,求出比值,再将n 个比值相加,其和就是2。观察公式可发现,如果实际观察

第四章非参数检验上课材料

第四章 非参数检验 (Nonparametric Tests 菜单) ? 本章学习内容 3.1 非参数检验概述 3.2 卡方检验(Chi Square ) 3.3 二项分布检验(Binomial ) 3.4 单样本K-S 检验(1 Sample K-S Tests ) 3.5 单样本变量值随机性检验(Runs ) 3.6 两独立样本非参数检验(2 independent Samples 3.7 多独立样本非参数检验(K independent Samples 3.7 两相关样本非参数检验(2 Related Samples 3.8 多相关样本非参数检验(K Related Samples ? 具体内容 3.1 非参数检验概述 非参数检验是统计推断的一个重要组成部分,它与参数检验共同构成统计推断的基本内容。参数检验是在假定知道总体分布形式的情况下,对总体分布的某些参数,如均值、方差等进行推断检验。但是,在现实生活中,由于种种原因,人们往往无法对总体的分布形态作简单的假定,但又希望能从样本数据中获得尽可能多的所需要信息。非参数检验正是基于这种考虑,在总体分布位置或知道甚少的情况下,利用样本数据对总体的分布形态或分布参数进行推断。 3.2 卡方检验(Chi-Square ) 总体分布的卡方检验就是根据样本数据推断总体的分布与期望分布或某一理论分布是否有显著差异。它的零假设是H 0:样本来自的总体其分布形态与期望分布或某一理论分布无显著差异。总体分布的卡方检验是一种吻合性检验,比较适合于单个因素的多项分类的数据分析。 单样本

实例分析: 医学家在研究心脏病人猝死人数与日期的关系时发现,一周之中,星期一心脏病人猝死者较多,其他日期则基本相当,比例近似为2.8:1:1:1:1:1:1。现收集到样本数据168个,据此推断其总体分布是否与假定的分布相吻合。见“心脏病人猝死日期.sav ”。 具体操作如下: Analyze Nonparametric Tests Chi-Square ,打开卡方检验对话框,如下图。 心脏病猝死日期 5553.5 1.52319.1 3.91819.1-1.11119.1-8.12619.1 6.92019.1.91519.1 -4.1 168 1234567Total Observed N E xpected N Residual Tes t Statis tics 7.757 6.256 Chi-Square a df Asymp. Sig. 心脏病猝死日期 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 19.1. a. 可以看出,由于相伴概率值大于显著性水平0.05,因此不能拒绝零假设,可以认为样本来自的总体分布于指定的理论分布无显著差异,即:心脏病人猝死人数与日期的关系基本是 2 1 3

非参数统计学讲义(第四章)讲稿2

非参数统计学讲义 第四章 多样本模型 §1 k 个相关样本的非参数检验 在参数统计中,检验几个样本是否来自完全相同的总体,采用方差分析或F 检验。运用F 检验的假定条件是:样本是从正态分布的总体中独立抽选的;总体具有相同的方差;数据的测量层次至少是定距尺度。当被用来分析的数据不符合这些假定条件,或研究者不希望作这些假设,以便增加结论的普遍性时,不宜采用参数统计的方法,而必须运用非参数方法。 如果k (等于或大于3)个样本是按某种或某些条件匹配的,那么k 个样本称为相关的,否则为独立的。k 个相关和独立样本的差别与两个相关和独立样本之间的差别类似。本节介绍k 个相关样本的非参数检验。 一、Cochran Q 检验 1.研究背景 Cochran Q 检验也译为科库兰检验。它是用以检验匹配的三组或三组以上的频数或比例之间有无显著差异的方法。这种匹配可以用不同形式获得。例如,检验三种不同类型的采访形式对被采访者的有效回答是否有影响,可以抽选一些人,分成n 组,每组有3个匹配的被采访者,要求他们的有关情况相同。每组的3名成员被随机地置于3种条件之下,即分别接受三种类型的采访,于是,就获得了3个匹配的样本,即k =3,每个样本有n 个观测结果。k 个相关样本也可以采用同一组人,对不同的k 个条件的反应匹配成样本,这类似于两个相关样本中以研究对象作为自身的对照者。例如,检验几种教学手段对学生掌握知识是否有显著不同,可以随机抽取n 个学生,让他们先后置于k 种教学手段之下,再作出评价。这样可以获得k 个匹配的样本,每个样本有n 个观测结果。 在现实生活中,很多数据是以二元数据的形式出现的, 【例4-1】村民对四个候选人的评价得到结果: 表4-1 村民评价结果 其中:1表示同意;0表示不同意。关心的问题是候选人在村民眼中有无区别,即检验H 0:12k θ==是否成立。 2.基本方法 若有k 个相关样本,每个样本有n 个观测结果,检验k 个样本间是否有显著差异,可以建立双侧备择,假设组为 k H :0个样本间无显著差异 k H :1个样本间有显著差异 由于三个及三个以上样本间差异的方向不便于判定,因而,通常只建立双侧备择进行检验。 为对假设作出判定,所分析的数据测量层次为定类尺度即可。获得的数据可排成一个n 行k 列的表。如果H 0为真,那么将测量结果分为“成功”和“失败”的话,“成功”与“失败”应随机地分布在表中的各行各列。Cochran Q 检验的统计量定义为 2 22 1 1 2 21 1 (1)() (1)(1)k k i i i i b b i i j j k k N N k k N k N Q kN L kN L ====-----= = --∑∑∑∑ (4.1) 式中,k 为处理数;b 为区组数;i N 为行总和;j L 为列总和;i j i j N N L = =∑∑;1 i i N N k =∑。 由于Q 统计量的抽样分布近似为自由度df =k 一1的2 χ分布,所以根据自由度df =k 一1,给定的显著性水平α,能够在附表中查找临界值2 αχ,若 2 αχ≥Q 则在显著性水平α下拒绝H 0,表明样本之间存在着显著差异。相反,则不能拒绝H 0。

两个独立样本的非参数检验方法有4种

两个独立样本的非参数检验方法有4种 曼-惠特尼U检验(Mann—whitney U) 两个独立的曼-惠特尼U检验可用于对两个总体分布的比较判断。其零假设是两组独立样本来自的总体分布无显著差异。曼-惠特尼U检验通过对两组样本平均秩的研究来实现推断秩简单的说就是变量值排序的名次。 两个独立样本的K-S检验 K-S检验不仅能够检验单个总体的分布是否与某一理论分布差异显著,还能够检验两个总体的分布是否存在显著差异,其零假设是两组独立样本来自的两个总体的分布无显著差异。 两个独立样本K-S检验的基本思想与前面讨论的单样本K-S检验的基本思路大体一致。主要差别在于:这里是以变量值的秩作为分析对象,而非变量值本身。其基本思路如下: ①首先,将这两组样本混合并按升序排序。 ②然后分别计算两组样本秩的累计频数和累计频率。 ③最后,计算累计频率之差,得到秩的差值序列并得到D统计量(同单样本K-S检验,但无需修正)。 两独立样本的游程检验 单样本游程检验用来检验变量值的出现是否随机,而两个独立变量游程检验则用来检验两个独立样本来自的两个总体的分布是否存在显著差异。其零假设是两组独立样本来自的两个总体的分布无显著差异。 两独立样本的游程检验与单样本游程检验的基本思想相同,不同的是计算游程数的方法。两独立样本的游程检验中,又程数依赖于变量的秩。 步骤如下:首先,将两组样本混合并按升序排列,在变量值排序的同时,对应的组标记值也会随之重新排列。 然后,对组标记只序列按前面讨论的游程的方法计算游程数容易理解:如果两总体的分布存在较大的差距,那么游程数会相对比较少,如果游程数比较大,则应是两组样本充分混合的结果,那么总体的分布不会存在显著差异。 再次,根据游程数据计算Z统计量,该统计量近似服从正态分布。 极端反应检验 极端反应检验从另一个角度检验两独立样本所来自的两个总体分布是否存在显著差异。其零假设是来两独立样本来自的两个总体分布无显著差异。 极端反应检验的基本思想是将一组样本作为控制样本,另一组样本作为实验样本。以控制样本作为对照,检验实验样本相对于控制样本是否出现极端反应。如果试验样本没有出现极端反应,则认为两总体分布无显著差异,反之,则总体分布存在显著差异。 第1 页共1 页

相关主题