搜档网
当前位置:搜档网 › 第六章 非参数统计分析方法的SAS编程实现

第六章 非参数统计分析方法的SAS编程实现

第六章    非参数统计分析方法的SAS编程实现
第六章    非参数统计分析方法的SAS编程实现

第六章非参数统计分析方法的SAS编程实现

作者:薛富波最终修改日期:

一、npar1way过程语句格式简介

二、不同类型资料的非参数检验方法

1. 两独立样本差别的秩和检验

2.配对设计资料的秩检验

3.完全随机设计多组数据分布位置差别的秩和检验

三、几条重要提示

非参数统计分析方法(non-parametric statistics)是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定(assumption free statistics)的统计分析方法。其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料。

SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。

一、npar1way过程语句格式简介

npar1way过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。Npar1way过程的基本语句格式如下。

PROC NPAR1WAY <选项> ;

BY 变量名;

CLASS变量名;

EXACT 统计量选项 ;

FREQ变量名;

OUTPUT < OUT=数据集名 > < 选项 > ;

VAR 变量名;

RUN;

QUIT;

Proc npar1way语句标志npar1way过程的开始,默认情况下(不列举任何选项):npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行

检验(与选项WILCOXON, MEDIAN, SAVAGE以及VW等效),并进行经验分布函数检验(等同于EDF选项)。此语句后可用的选项见表6.1。

在构成npar1way过程的语句中,by语句、class语句以及freq语句和其它我们已经讨论过的过程完全相同,不再多嘴。

1. exact语句

exact语句要求SAS对指定的统计量(选项)进行精确概率的计算。其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参见表6.1)。

AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW 等。

运算选项为精确概率的计算过程指定一些控制项目,如选项“mc”要求以Monte Carlo方法计算精确概率。

2. output语句

output语句与其它过程中相应的语句大同小异,不同之处在于语句最后的选项。此处的选项绝大多数包括在表6.1中,指定在输出数据集中包含所指定项目所对应的统计量。

3. var语句

此处的var语句与其它过程的也基本相同,用以指定要进行分析的变量,变量必须为数值型。若省略此语句,SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析。

关于npar1way过程的内容基本上就这些,了解这么多足够处理一般的统计学问题,下面我们结合实例来演示非参数检验的SAS编程实现过程。

二、不同类型资料的非参数检验方法

1.两独立样本差别的秩和检验

例6-1 下表(表6.2)为来自两个样本A、B的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组数据的差别。

表6.2 两独立样本A、B测量数据

A组B组

73

145

226

3610

4017

4818

6320

9839

对于此资料,我们应选用Wilcoxon秩和检验(rank sum test)方法,编制SAS程序如下。

data temp;

do g=1 to 2;

input x@@;

output;

end;

datalines;

7 3

14 5

22 6

36 10

40 17

48 18

63 20

98 39

;

proc npar1way wilcoxon;

class g;

var x;

Run;quit;

程序中因素“g”分组因素,“1”代表A组,“2”代表B组,“x”为待分析的变量。Proc npar1way语句后的选项“Wilcoxon”指定SAS进行Wilcoxon秩和检验。提交以上程序,运行结果如下。

The SAS System 22:08 Tuesday, December 10, 2002 1

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable x

Classified by Variable g

Sum of Expected Std Dev Mean

g N Scores Under H0 Under H0 Score

----------------------------------------------------------------------------------------------------

1 8 89.0 68.0 9.521905 11.1250

2 8 47.0 68.0 9.521905 5.8750

Wilcoxon Two-Sample Test

Statistic 89.0000

Normal Approximation

Z 2.1529

One-Sided Pr > Z 0.0157

Two-Sided Pr > |Z| 0.0313

t Approximation

One-Sided Pr > Z 0.0240

Two-Sided Pr > |Z| 0.0480

Z includes a continuity correction of 0.5.

The SAS System 22:08 Tuesday, December 10, 2002 2

The NPAR1WAY Procedure

Kruskal-Wallis Test

Chi-Square 4.8640

DF 1

Pr > Chi-Square 0.0274

SAS给出的结果较为详细,比医学统计教科书上的内容要多很多,首先给出两组数据的的基本信息(样本量、秩和等),还给出在零假设下各组统计量(Sum of scores项)的期望值(Ecpected Under H0项)及标准差(Std Dev Under H0项),最后还给出以近似z检验以及近似t检验所得的统计量和所对应的单、双侧概率值。另外,默认状态下,SAS还同时给出Kruskal-Wallis检验的结果。

所不同的是,在两样本量相同时,SAS以秩和较大者作为对象统计量进行概率值的计算,而非医学统计学教材上所说的以较小秩和为对象统计量。在两样本量不同时,SAS以样本量较小组的秩和为对象统计量,这一点则与教材上的相同。

下面我们再对两组等级资料的非参数检验方法进行练习。

例6-2 用某药治疗不同病情的老年慢性支气管炎病人, 疗效见表6.3,试比较该药对两种病情的疗效。

表6.3 某药对两种不同病情的支气管炎疗效

疗效单纯型单纯型合并肺气肿

控制65 42

显效18 6

有效30 23

近控13 11

对于此例,我们将疗效看成待分析的变量x,从“控制”到“近控”分别对其赋值1、2、3、4,病情则作为分组因素,同时需引入一个频度因素f,以代表不同取值状态下x的频数。编制程序如下。

data temp;

do x=1 to 4;

do g=1 to 2;

input f@@;

output;

end;

end;

datalines;

65 42

18 6

30 23

13 11

;

proc npar1way wilcoxon;

class g;

var x;

freq f;

run; quit;

程序和例6-1的基本相同,只根据资料特点增加了freq语句。提交程序,运行结果如下。

The SAS System 22:08 Tuesday, December 10, 2002 7

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable x

Classified by Variable g

Sum of Expected Std Dev Mean

g N Scores Under H0 Under H0 Score

--------------------------------------------------------------------------------------------------

1 126 12955.50 13167.0 389.77648

2 102.821429

2 82 8780.50 8569.0 389.776482 107.079268

Average scores were used for ties.

Wilcoxon Two-Sample Test

Statistic 8780.5000

Normal Approximation

Z 0.5413

One-Sided Pr > Z 0.2941

Two-Sided Pr > |Z| 0.5883

t Approximation

One-Sided Pr > Z 0.2944

Two-Sided Pr > |Z| 0.5889

Z includes a continuity correction of 0.5.

The SAS System 22:08 Tuesday, December 10, 2002 8

The NPAR1WAY Procedure

Kruskal-Wallis Test

Chi-Square 0.2944

DF 1

Pr > Chi-Square 0.5874

结果给出的内容和例6-1也是完全相同的,这里所用的统计量为样本量较小组的秩和。

2. 配对设计资料的秩检验

配对设计资料一般采用配对t检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用Wilcoxon符号秩检验(signed rank test)作为配对t检验的替代方法。Wilcoxon符号秩检验功效很高,在数据满足配对t检验的要求时,符号秩检验的功效可达配对t检验功效的95%。

令我搞不懂的是,SAS中符号检验(sign test)和符号秩检验的功能不是在npar1way过程中实现,而是通过univariate过程来实现的。我想可能因为这两项功能涉及的是关于单变量分析的缘故。所以,这里我们只好再来复习一下univariate 过程的内容。

例6-3 采用配对设计,用某种放射线的A,B两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见表 6.4。试用符号秩检验比较A,B的损伤程度是否不同。

表6.4 家兔皮肤损伤程度

编号方式A方式B

13955

24254

35155

44347

55553

64563

72252

84844

94048

104555

114032

124957

根据题目意图,编制SAS程序如下。

data temp;

input x1 x2;

d=x1-x2;

datalines;

39 55

42 54

51 55

43 47

55 53

45 63

22 52

48 44

40 48

45 55

40 32

49 57

;

proc univariate loccount;

var d;

run;quit;

此例中,我们须对两次测得数据的差值进行单变量分析,所以数据步中用到赋值语句“d=x1-x2;”。Univariate过程在默认状态下即给出关于待分析变量的符号检验以及符号秩检验结果,“proc univariate”语句后的“loccount”选项指定SAS给出样本数据在系统指定位置参数(默认值为0)两侧的分布情况,即相当于对符号检验结果的进一步描述。

提交执行以上程序,结果如下。

The SAS System 21:13 Thursday, December 12, 2002 1

The UNIVARIATE Procedure

Variable: d

Basic Statistical Measures

Location Variability

Mean -8.00000 Std Deviation 10.44466

Median -8.00000 Variance 109.09091

Mode -8.00000 Range 38.00000

Interquartile Range 13.00000

NOTE: The mode displayed is the smallest of 2 modes with a count of 2.

Tests for Location: Mu0=0

Test -Statistic- -----p Value------

Student's t t -2.6533 Pr > |t| 0.0225

Sign M -3 Pr >= |M| 0.1460

Signed Rank S -29 Pr >= |S| 0.0220

Location Counts: Mu0=0.00

Count Value

Num Obs > Mu0 3

Num Obs ^= Mu0 12

Num Obs < Mu0 9

此结果大家应当比较熟悉(删去了其余关于参数检验的部分),注意标有“Tests for Location: Mu0=0”的部分,即为我们所要的结果,其中第一行为参数检验的t检验结果,后两行则分别为符号检验以及符号秩检验的分析结果。标有“Location Counts: Mu0=0.00”的部分是关于样本分布情况的描述,本例为3个受试对象的差值大于零,9个小于零。

大家需要注意,这里的符号秩检验计算所得的秩和与我们在教科书上看到的结果不同(教科书上计算的统计量即秩和T=10),应是所依据的算法不同所致,但所得的P值是相同的,不会影响分析的结果。

3. 完全随机设计多组数据分布位置差别的秩和检验

这一部分的内容相当于参数检验中的方差分析,依据的方法是Kruskal-Wallis 秩和检验,此方法的基本思想与Wilcoxon秩和检验基本相同,都是基于各组混合编秩后,各组秩和应相等的假设。两者的不同点就在于Kruskal-Wallis秩和检验是针对多组(大于2)数据的分析,而Wilcoxon秩和检验则只用于对两组数据的比较。

例6-4 为研究精氨酸对小鼠截肢后淋巴细胞转化功能的影响,将21只小鼠分等分成3组:A组为对照,B组为截肢组,C组为截肢加精氨酸治疗组。观测脾淋巴细胞对HPA刺激的增值反应,测量指标是3H吸收量(cpm),数据如表6.5所示,试分析各组测量值是否不同。

表6-4 3H吸收量cpm)

医学统计学教科书上对于此类资料分析方法的介绍虽与两组数据比较的方法有所区别,统计量的计算方法和结果也各不相同,但在SAS中,对这两类资料进行分析的操作过程却是基本相同的,大家可以从相应的SAS程序中看到这一点。

此例分析过程的SAS程序编制如下。

data temp;

do n=1 to 7;

do g=1 to 3;

input x@@;

output;

end;

end;

datalines;

3012 2532 8138

9458 4682 2073

8419 2025 1867

9580 2268 885

13590 2775 6490

12787 2884 9003

6600 1717 0

;

proc npar1way wilcoxon;

class g;

var x;

run; quit;

从SAS程序看,此例分析步骤和例6-1完全相同,不再多做解释,提交运行后结果如下。

The SAS System 21:13 Thursday, December 12, 2002 6

The NPAR1WAY Procedure

Wilcoxon Scores (Rank Sums) for Variable x

Classified by Variable g

Sum of Expected Std Dev Mean

g N Scores Under H0 Under H0 Score

-----------------------------------------------------------------

1 7 119.0 77.0 13.403980 17.000000

2 7 54.0 77.0 13.403980 7.714286

3 7 58.0 77.0 13.403980 8.285714

Kruskal-Wallis Test

Chi-Square 9.8479

DF 2

Pr > Chi-Square 0.0073

大家可以看到,此处结果和例6-1的却有所不同,第一部分(标有“Wilcoxon Scores (Rank Sums) for Variable x”的部分)的内容完全一样,两组数据比较时的各种近似检验结果这里是没有的,这里的最终结果只有Kruskal-Wallis秩和检验分析结果,而P值的计算这里所依据的是卡方分布。

三、几条重要提示

1. Npar1way过程对于缺失值(missing value)的处理

如果缺失值出现在反应变量(var语句指定的变量),npar1way过程会将该条记录排除在分析之外。

默认情况下,npar1way过程也会将分类变量中出现缺失值的记录排除出分析过程。如果指定选项“missing”,npar1way过程则将分类变量中出现的缺失值当作一个单独的水平进行处理。

对于by语句中指定的变量,缺失值将被默认地当作一个独立水平进行处理。

对于freq语句中指定的变量,出现缺失值的记录一定会被排除出分析过程。

2. npar1way过程对于同秩(ties)问题的处理方式

Npar1way过程处理同秩问题的方式在任何一种非参数检验方法中均相同,即无论相同秩次的记录出现在同一组或不同的组中,均给它们分配相应的平均秩次,再根据这些平均秩次进行各种计算,跟教科书上介绍的方法完全一样。

npar1way过程对于此问题的处理到此为止,不像教科书上介绍的那样对计算所得的统计量再进行某种校正。对于相同秩次出现较少的数据,这一点对分析的结果影响不大,但对于同秩现象较多的数据,分析结果的偏差就不容忽视,尤其是对于那些近似检验来说更是如此。处理这一问题的理想办法就是计算精确概率,npar1way过程提供了实现这一功能的途径,即exact语句。

SAS的非参数检验方法就介绍这么多的内容,关于其它类型设计(如区组设计)资料的非参数检验方法,以及多组数据比较时的两两比较方法,因各种算法尚未成熟,还没有得到业界的广泛认可,SAS中还没有设计关于此类方法的现成实现途径,所以这里暂不作介绍。当然通过自行编制的程序,以上过程完全可以实现,但操作过程较为复杂,我们留待以后再讨论吧。

(薛富波,2002.12.12)

统计学原理

统计学原理 自评报告 所在院系:经济与管理学院管理学系基层组织:工商管理专业建设组

统计学原理自评报告 一、课程介绍 (一)课程主要内容与教学目的 统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域,因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。 通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用;弄懂各种概念,范畴等基本知识;掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。 (二)课程建设过程与现状 《统计学原理》课程在工商管理、经济学专业开设已10多年,现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来,课程专任教师致力于加强优秀课程建设,从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中,按照其规律和特点,以就业为导向、以应用能力为标准,加大课程改革力度,完善课程体系建设,强化方法和手段的应用。课程建设取得了阶段性成果。 1、教学内容

学年第一学期期末试卷检查工作总结

教学督导组2010-2011学年第一学期 期末试卷检查情况通报 根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求,教学督导组于4月1日至4月15日对全校21个院(系、部)上学期期末考试试卷进行了检查。本次检查按各院(系、部)试卷装订数量10%的比例进行抽查,最低基数为3本,全校共抽查试卷123本。各院系抽查试卷检查情况如下:2010-2011学年第一学期各院(系、部)期末试卷抽查情况一览表

(说明:①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1,总分为各等级的平均分。②公共课试卷命题错误、答案错误,责任在院(系、部),从总分中扣0.1分。) 从抽查结果看,全校总平均分为3.8分,比上学期的3.61分高出0.19分,各等级所占抽查总数比重与上学期相比情况见下表: 2009-2010学年第二学期与2010-2011学年第一学期 试卷抽查结果各等级比重对比表

从上表中可以看出,本学期与上学期相比,A级比重虽稍有下降,但B级比重增长较大,同时,C级、D级和F级的比重均有所减少,总体趋势表明试卷工作整体质量有所提高。 虽然试卷工作整体质量有所提高,但问题仍然较多,为了便于各院(系、部)教学管理人员和全体教师,对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解,我们将本次试卷检查中存在的问题,分类整理如下: 一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致,如:中文系的2本试卷,封面上都是《现代汉语》,但试卷印制的课程名称,一门是《现代汉语(上)》,一门是《现代汉语(下)》,这是2门不同课程的试卷;《大学英语》有(一)、(二)、(三)、 (四)四级,因此,必须在课程名称中标明是几级大学英语。 2.课程代码填写不正确,如政治学系《社会主义市场经济理论与实践》试卷,封面填写的课程代码为“(2010-2011-1)ZJ61010-97074-1”,正确的课程代码是“ZJ61010”。 3.属于集体阅卷,应当在封面上填写“集体阅卷”,或填写每一位阅卷老师的姓名,并在第一张试卷卷首的登分栏中签写全名,以后各试卷上只要签姓即可。化学化工学院《聚合物流变学》试卷中,出现两个阅卷人,但在封面上只填写了一位阅卷教师的姓名,里面的试卷上只签了“杜”,有姓无名。

非参数统计分析NonparametricTests菜单详解

非参数统计分析――Nonparametric Tests菜单详解 非参数统计分析――Nonparametric Tests菜单详解 平时我们使用的统计推断方法大多为参数统计方法,它们都是在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。比如单样本u检验就是假定该样本所在总体服从正态分布,然后推断总体的均数是否和已知的总体均数相同。本节要讨论的统计方法着眼点不是总体参数,而是总体分布情况,即研究目标总体的分布是否与已知理论分布相同,或者各样本所在的分布位置/形状是否相同。由于这一类方法不涉及总体参数,因而称为非参数统计方法。 SPSS的的Nonparametric Tests菜单中一共提供了8种非参数分析方法,它们可以被分为两大类: 1、分布类型检验方法:亦称拟合优度检验方法。即检验样本所在总体是否服从已知的理论分布。具体包括: Chi-square test:用卡方检验来检验二项/多项分类变量的几个取值所占百分比是否和我们期望的比例有没有统计学差异。 Binomial Test:用于检测所给的变量是否符合二项分布,变量可以是两分类的,也可以使连续性变量,然后按你给出的分界点一分为二。 Runs Test:用于检验样本序列随机性。观察某变量的取值是否是围绕着某个数值随机地上下波动,该数值可以是均数、中位数、众数或人为制定。一般来说,如果该检验P值有统计学意义,则提示有其他变量对该变量的取值有影响,或该变量存在自相关。 One-Sample Kolmogorov-Smirnov Test:采用柯尔莫哥诺夫-斯米尔诺夫检验来分析变量是否符

合某种分布,可以检验的分布有正态分布、均匀分布、Poission分布和指数分布。 2、分布位置检验方法:用于检验样本所在总体的分布位置/形状是否相同。具体包括: Two-Independent-Samples Tests:即成组设计的两独立样本的秩和检验。 Tests for Several Independent Samples:成组设计的多个独立样本的秩和检验,此处不提供两两比较方法。 Two-Related-Samples Tests:配对设计的两样本秩和检验。 Tests for Several Related Samples:配伍设计的多样本秩和检验,此处同样不提供两两比较。 一、分布位置检验方法 1、Two Independent Samples Test与 K Independent Samples Test 用于检验两独立样本/多独立样本所在总体是否相同。 Two-lndependent-Samples Test对话框: (1) Test Variable框,指定检验变量。 (2) Grouping Variable框,指定分组变量。Define Groups对话框,Groupl和Groupl后的栏中,可指定分组变量的值。 (3) TestType框,确定用来进行检验的方法。Mann-Whitney U:默认值,相当于两样本秩和检验。Kolmogorov-Smimov Z:K-S检验的一种。Moses extreme reactions:如果施加的处理使得某些个体出现 正向效应,而另一些个体出现负向效应,就应当采用该检验方法。

学年第一学期期末试卷检查工作总结

学年第一学期期末试卷检 查工作总结 Prepared on 21 November 2021

教学督导组2010-2011学年第一学期 期末试卷检查情况通报 根据教务处《关于做好2010-2011学年第一学期期末考试试卷检查工作的通知》的要求,教学督导组于4月1日至4月15日对全校21个院(系、部)上学期期末考试试卷进行了检查。本次检查按各院(系、部)试卷装订数量10%的比例进行抽查,最低基数为3本,全校共抽查试卷123本。各院系抽查试卷检查情况如下: 2010-2011学年第一学期各院(系、部)期末试卷抽查情况一览表

(说明:①A、B、C、D、F五个等级所对应的分数为5、4、3、2、1,总分为各等级的平均分。②公共课试卷命题错误、答案错误,责任在院(系、部),从总分中扣分。) 从抽查结果看,全校总平均分为分,比上学期的分高出分,各等级所占抽查总数比重与上学期相比情况见下表: 2009-2010学年第二学期与2010-2011学年第一学期 试卷抽查结果各等级比重对比表 从上表中可以看出,本学期与上学期相比,A级比重虽稍有下降,但B级比重增长较大,同时,C级、D级和F级的比重均有所减少,总体趋势表明试卷工作整体质量有所提高。 虽然试卷工作整体质量有所提高,但问题仍然较多,为了便于各院(系、部)教学管理人员和全体教师,对试卷命题、批改、成绩录入、考试与试卷相关材料的填写、整理装订等环节中存在的问题有比较全面的了解,我们将本次试卷检查中存在的问题,分类整理如下: 一、封面 1.封面填写的课程名称与试卷印制的课程名称不一致,如:中文系的2本试卷,封面上都是《现代汉语》,但试卷印制的课程名称,一门是《现代汉语(上)》,一门是《现代汉语(下)》,这是2门不同课程的试卷;《大学英语》有(一)、(二)、(三)、(四)四级,因此,必须在课程名称中标明是几级大学英语。

统计学原理(精编文档).doc

【最新整理,下载后即可编辑】 统计学原理 自评报告 所在院系:经济与管理学院管理学系 基层组织:工商管理专业建设组

统计学原理自评报告 一、课程介绍 (一)课程主要内容与教学目的 统计学原理是研究客观事物数量方面的方法论科学,其方法广泛适用于自然,社会,经济,科学技术等各个领域,因此统计学原理是经济管理类专业的主干课程。该课程系统阐述现代统计科学的基础理论和方法。内容包括:统计调查的组织技术,统计整理的方法原则,社会经济统计指标的理论与应用,概率论基础,参数估计和假设检验,非参数统计方法,相关与回归分析,时间序列分析,统计指数和统计决策等。 通过本课程的学习,首先,使学生对统计学的学科体系有一个全面的认识,为学生进一步学习其它专业知识奠定学科基础,并使之具有较完备,合理的知识结构和实践能力。其次,使学生能明确理解统计这个认识工具的特点,作用;弄懂各种概念,范畴等基本知识;掌握运用各种基本方法。再次,培养学生理论联系实际的能力,在今后的实际工作和生活中,能将统计学的知识贯穿其中。最后,还要教会学生理论分析,使他们能够分析社会经济现象的具体事例并能以报告的形式给出分析结果和合理化建议。 (二)课程建设过程与现状 《统计学原理》课程在工商管理、经济学专业开设已10多年,现在已扩展到国际经济与贸易、市场营销、信息系统与信息管理等专业。10多年来,课程专任教师致力于加强优秀课程建设,从教学大纲、教学计划、教案、教学手段、教学辅导、教学实践、教学研究与改革等多方面,进行了积极有效的改革探索。特别是在本科生教育教学中,按照其规律和特点,以就业为导向、以应用能力为标准,加大课程改革力度,完善课程体系建设,强化方法和手段的应用。课程建设取得了阶段性成果。

非参数统计分析方法总结

非参数统计分析方法 一单样本问题 1,二项式检验:检验样本参数是否与整体参数有什么关系。 样本量为n给定一个实数MO(代表题目给出的分位点数),和分位 点口(0.25,0.5,0.75)。用S-记做样本中比M0小的数的个数,S+记做样本中比M0大的数的个数。如果原假设H0成立那么S-与n的比之应为n。 H0:M=M0 HI: M k MO或者M>M(或者M

H1 :不是随机的(混合倾向,游程多,长度短)(成群倾向,游程少,长度长) Spss步骤:分析一非参数检验一游程 得出统计量R 和p 值 当p值小于0.05时拒绝原假设,没有充足理由证明该数据出现是随机的二,两个样本位置问题 1,Brown —Mood 中位数检验 给出两个样本比较两个样本的中位数或者四分位数等是否相等或者有一定关系,设一个中值为M1,—个为M2 H0:M1=M2. HI: M1H M2或者M1>M或者M1

非参数统计分析

第十三章非参数统计分析 统计推断方法大体上可分为两大类。第一大类为参数统计方法。常常在已知总体分布的条件下,对相应分布的总体参数进行估计和检验。第二大类为非参数统计方法,着眼点不是总体参数,而是总体的分布情况或者样本所在总体分布的位置/形状。 非参数统计方法大约有8种,可被划分为两大类,处理各种不同情形的数据。 单样本情形: 检验样本所在总体的位置参数或者分布是否与已知理论值相同。 ①Chi-Square过程:针对二分类或者多分类资料 例题1:见书P243。检验样本分布情况是否与已知理论分布相同。运用卡方检验过程。 ②Binomial过程:针对二分类资料或者可转变为二分类问题的资料。 例题2 :见书P246。检验某一比例是否与已知比例相等,运用二项分布过程。练习:质量监督部门对商店里面出售的某厂家的西洋参片进行了抽查。对于25包写明为净重100g的西洋参片的称重结果为(单位:克),数据见非参数。Sav,人们怀疑厂家包装的西洋参片份量不足,要求进行检验。 ③Runs过程:用于检验样本序列是否是随机出现的。二分类资料和连续性资料均可。 游程检验: 游程的含义: 假定下面是由0和1组成的一个这种变量的样本: 0 0 0 0 1 1 1 1 1 1 0 0 1 0 1 1 1 0 0 0 0 0 0 0 0 其中相同的0(或相同的1)在一起称为一个游程(单独的0或1也算)。 这个数据中有4个0组成的游程和3个1组成的游程。一共是R=7个游程。其中0的个数为m=15,而1的个数为n=10。 游程检验的原理 判断数据序列是否是真随机序列。该检验的原假设为数据是真随机序列,备择假设为非随机序列,在原假设成立的情况下,游程的总数不应太多也不应太少。例题3:见书P247。检验样本数据是否是随机出现的。 例题4:从某装瓶机出来的30盒化妆品的重量(单位克),数据见非参数.sav,为了看该装瓶机是否工作正常。 提示:实际需要验证大于和小于中位数的个数是否是随机的(零假设为这种个数的出现是随机的)。 ④1-Sample--K –S 过程 原理:单样本的Kolmogorov-Smirnov检验(K-S检验)方法主要针对连续性资料,是用来检验一个样本数据的观测累积分布是否是已知的理论分布。这些

第六章 非参数统计分析方法的SAS编程实现

第六章非参数统计分析方法的SAS编程实现 作者:薛富波最终修改日期: 一、npar1way过程语句格式简介 二、不同类型资料的非参数检验方法 1. 两独立样本差别的秩和检验 2.配对设计资料的秩检验 3.完全随机设计多组数据分布位置差别的秩和检验 三、几条重要提示 非参数统计分析方法(non-parametric statistics)是相对参数统计分析方法而言的,又称为不拘分布(distribution-free statistics)的统计分析方法或无分布形式假定(assumption free statistics)的统计分析方法。其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料。 SAS中对于非参数分析方法功能的实现主要由npar1way过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析。下面我们先来了解一下npar1way过程的语句格式以及各语句和选项的基本功能。 一、npar1way过程语句格式简介 npar1way过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成。Npar1way过程的基本语句格式如下。 PROC NPAR1WAY <选项> ; BY 变量名; CLASS变量名; EXACT 统计量选项 ; FREQ变量名; OUTPUT < OUT=数据集名 > < 选项 > ; VAR 变量名; RUN; QUIT; Proc npar1way语句标志npar1way过程的开始,默认情况下(不列举任何选项):npar1way过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行

王静龙《非参数统计分析》教案

.引言 一般统计分析分为参数分析与非参数分析,参数分析是指,知道总体分布,但其中几个参数的值未知,用统计量来估计参数值,但大部分情况,总体是未知的,这时候就不能用参数分析,如果强行用可能会出现错误的结果。 例如:分析下面的供应商的产品是否合格? 合格产品的标准长度为(±),随即抽取n=100件零件,数据如下: 表 经计算,平均长度为cm x 4958.8=,非常接近中心位置,样本标准差为 () 1047.011 2 =--= ∑=n i i n x x s cm.一般产品的质量服从正态分布,),(~2δμN X 。 这说明产品有接近三分之一不合格,三分之二合格,所以需要更换供应厂 商,而用非参数分析却是另外一个结果。 以下是100个零件长度的分布表:

这说明有90%的零件长度在)2.05.8(±cm 之间,有9%的零件不合格,所以工厂不需要换供应商。 例2 哪一个企业职工的工资高? 表两个企业职工的工资 显然,企业1职工的工资高,倘若假设企业1与企业2的职工工资分别服从正态分布),(),,(22σσb N a N ,则这两个企业职工的工资比较问题就可以转化为一个参数的假设检验问题,原假设为b a H =:0,备择假设为b a H >:0 则 ))11(,(~2σn m b a N y x +-- 若0H 为真,则 其中])()([211 212 2∑∑==-+--+= n i i m i i w y y x x n m S 拒绝域为:}325.1{)}20({90.0≥=≥t t t 检测值为:282.1=t 故不能拒绝原假设,认为两企业的工资水平无差异。 也可以用值-P 检验 由于1073.0)282.1)20((=≥t P 故不能拒绝原假设,认为两企业的工资水平无差异。

相关主题