搜档网
当前位置:搜档网 › 第4章方差分析

第4章方差分析

第4章方差分析
第4章方差分析

第四章方差分析

方差分析(Analysis of Variance,ANOVA)是将待分析资料的总变异剖分为不同的变异来源,以获得不同变异来源的总体方差的估计值。通过F检验,完成多个样本平均数之间的差异显著性检验(即多重比较),若处理效应为随机模型时,则进行方差组分的估计。

4.1 方差分析的SAS过程

用于方差分析的主要过程有方差分析(ANOVA)和广义线性模型(GLM)。对于无缺省(缺值、缺组等)资料,或称平衡资料,一般采用(ANOVA)过程,对缺省资料(非平衡资料)应采用(GLM)过程。事实上根据效应模型的不同,还有VARCOME(方差组分)过程,MIXED(混合模型)过程等。

4.1.1 ANOVA过程

1. 名词解释

自变量与依变量在方差分析中,自变量可称为独立变量、定性变量(Qualitative Variale)、分类变量(Classiflcation Variable)或类别变量(Categorcal Variable),相当于因素处理、水平变量。依变量又称反应变量(Response Variable),相当于观察值变量。

实验效应方差分析的目的是找出对依变量产生的实验效应,这种效应可分为3种:主效应,常以自变量的英文字母表示,如A、B等。互作效应,常以星号联接自变量表示,如A*B。嵌套效应,以小括号表示,如A(B)表示A效应嵌套在B效应之内。

2

语句说明:

CLASS指令必须出现在MODEL指令之前,如选用TEST、MANOVA指令,则它们必须出现在MODEL指令之后。MEANS、TEST及MANOVA等指令可重复使用,其他指令则只能出现一次。

PROC ANOV A选项串中:⑴DA TA=输入数据集名称,指明对它执行ANOV A分析。⑵MANOV A 要求将含一个或一个以上依变量遗漏数据的观察值剔除。⑶OUTPUT=(含分析结果的)输出文件名称,包括平方和(SS),F检验值,以及各效应的显著程度。

CLASS变量名称串指明自变量,自变量可以是数值的或文字的。

MODEL指令定义分析所用的线性数学模型(见表6—1),删除号(/)后的选项:⑴NOUNI:不印出单变量方差分析的结果,适用于多变量的方差分析。⑵INT:要求SAS把线性模型内的截距(即资料的总平均数)当成一个参数,同时对这个截距作是否为零的假设检验。

MEANS指令前半部要求算出某些自变量(或互作)中各组的平均数,后半部(删除号后)共有24个选项,前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。这些选项有:⑴BON:修正最小显著差异t检验。⑵DUNCAN:邓肯多重范围检验,即邓肯氏新复极差法。⑶DUNNETT(控制组组名):邓尼特控制差异检验。它是依据t分布由各组平均数与控制组(指定组如对照组)进行比较,采用双尾检验。⑷DUNNETTL(控制组组名):邓尼特小于控制均数检验。与控制组平均数的比较,采用单尾检验,临界值订在t分布的下端。⑸DUNNETTU(控制组组名):邓尼特大于控制均数检验。与控制组平均数的比较,采用单尾检验,临界值订在t分布的上端。⑹GABRIEL:贵博氏多重比较。⑺REGWF:R—E—G—W多重F检验。⑻REGWQ:R—E—G—W多种t检验。⑼SCHEFFE:执行沙菲氏(Scheffe)的多重比较检验。⑽SIDAK:Sidak调整T检验。⑾SUM(或⑿GTI):Sidak独立样本t检验。当两组样本含量不等时为哈氏(Hochberg)的GTI 检验。⒀SNK:纽曼—库尔多重范围检验,即q检验。⒁T(或⒂LSD):配对t检验或费歇尔最小显著差异检验。⒃TUKEY:图基固定极差检验。⒄W ALLER:娃尔—邓肯K—比率t检验。以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。其它主要选项还有⒅ALPHA=P:界定检验的显著水准。内设值为P=0.05。当上面选项与选项⑵并用时,P值必须是0.10、0.05、0.01三者之一。与上面其他检验选项时,P可以是0.0001与0.9999间任何的值。⒆LINES:将显著性检验的平均数,由大到小排列。若某一对平均数之间无显著差异,则将它们印在同一行上,并以虚线将它们与其他有显著差异的平均数分开。当选用⑵、⑺、⑻、⒀或⒄等检验时,此选项会自动被包括在内,否则,必须附加此选项。⒇CLM:效应的各组平均数以置信区间方式表示。此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。(21)CLDIFF:与(20)相仿,选用⑵、⑺、⑻、⒀、⒄时,附加此选项,将以置信区间方式显示各组平均数。(22)E=效应名称:它界定各显著检验的分母,缺省时以误差项的均方自动成为分母。

FREQ指令指明该变量值为各观察值重复出现的次数。

TEST指令用来指定F检验的分子与分母,H=分子,E=分母;一般而言,系统自动采用误差项的均方作为F检验的分母。但对于随机模型等,可选此项。

MANOV A指令主要用于执行多变量(多元)方差分析。

BY指令用于把数据文件分成几个小文件,然后逐一进行ANOV A分析,但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。此步骤可籍PROC SORT达成。

以上指令中MODEL指令至关重要,同一资料,分析结果依模型不同而异。常用的模型定义语句有:MODEL Y=A;单因素方差分析,MODEL Y=A B两因素主效应模型,MODEL Y=A B A*B两因素带互作模型,MODEL Y=A B(A)嵌套(NESTED)模型用

于系统分组资料。MODEL Y1、Y2=A两元单因素方差分析。

在模型定义中,可用“|”和“@n”简化表达。“|”等价于按Searle规则将效应从左到右展开,“@n”表示互作效应和嵌套效应所包含的最多变量数。各种模型简化表示法及其等价形式列于下表。

表4—1模型简化表示法及其等价形式

结果输出包括分类变量信息表,方差分析表及多重比较表等。

4.1.2 GLM过程

1. 概述

GLM是广义线性模型(General Linear Model)的简称,其推算参数的理论依据是最小误差平方法(The Least Squares Method)。最适宜于非平衡设计的资料,该过程可应用于多种不同的统计分析。本章仅介绍在方差分析方面的用途。

2.

语句说明:

格式中第1、3条指令是不可省略的,CLASS指令必须出现在MODEL、MEANS指令之前,其余均应出现在MODEL指令之后(但BY可出现在RUN前任何一处)。

PROC GLM选项串中:⑴DA TA、⑵MANOV A、⑶OUTPUT的含义与ANOV A选项串中的相同。⑷NOPRINT:要求分析结果不在报表上打印出来,一般不用此选项。⑸MULTIPASS:要求重读输入资料文件内的数据,也不常用。⑹ORDER=FREQ |DATA| INTERNAL|FORMA TTED:界定自变量内各水平(组别)的次序,该选项与CONTRAST 及ESTIMATE指令相关。当ORDER=FREQ时,观察值个数最多的那一组为第一组,余类推。当ORDER=DATA时,组别按输入资料文件中各组第一次出现的次序而定。当ORDER=INTERNAL时,组别按其代号由小到大排列,或按各组名称的英文字母顺序排列。当ORDER=FORMATTED时,则组别的顺序以外部的格式而定,此项为内设值。

CLASS指令指明自变量。

MODEL指令的前半部可参见表4—1,删除号后的选项串大致可分四类。第一类与截距(常数项)有关。⑴NOINT:把截距排除模型之外。⑵INT:印出截距统计检验。第二类与报表有关。⑴NOUNI:不打印单因素方差分析结果(常用于多变量分析)。⑵SOLUTION:打印一般线模型中参数的估计值,当省略CLASS指令时,程序会自动印出此解。⑶TOLERANCE:印出容忍量。其定义为1-R2,R2为自变量与依变量的相关指数。第三类与无效假设的检验有关。⑴E:要求印出所有可估计函数(Estimable Functions)的值。

⑵E1;或E2:或E3:或E4:只要求印出每一效应第一、或第二、或第三、或第四型可估计函数值。⑶SSI:或SS2:或SS3:或SS4:只印出每一效应第一、或第二、或第三、或第四型的平方和。第四类与控制计算过程的打印有关。⑴XPX:要求印出(X'X)的向量积距阵⑵INVERST(或I):要求印出(X'X)的逆距阵,或(X'X)通用逆距阵。

MEANS指令的后半部分(删除号后)的选项,前22项可参见ANOV A过程。另有DEPONL Y:要求印出依变量的平均数,若省略此项,程序会印出文件中所有连续性变量的平均数。ETYPE=1(或2、或3、或4):界定F检验中分母距阵的均方类型,内设为分析过程检验中最高的一型。HTYPE=1(或2、或3、或4):与W ALLER选项并用,界定F检验中分子距阵的均方类型,内设为分析过程检验中最高的一型。

CONTRAST指令用于对比检验,即以线性方程序重新组合参数据执行检验。其中“比较式的名字”必须放在单引号内,名字长度以20个字母为限;各组效应系数前必须先注明所要比较的效应,这些效应必须是MODEL中出现过的。横行系数总和必须是0,不接受分数。若有多个比较式,则以逗号将各横行隔开。删除号后有E:印出线性函数的向量L。E=效应名称:界定F检验的分母内设为误差项均方。ETYPE=1(或2:或3:或4):界定平方和的类型等。

ESTIMA TE指令用于检验参数线性组合。

LSMEANS指令用于计算依据最小误差平方法所得的平均数。主要选项有:⑴E:最小误差平方平均数(Lsm)计算过程中所用到的可估计函数值。⑵STDERR:印出t检验(Ho:Lsm≠0) 的分母与其显著程度。⑶TDIFF:印出各平均数比较的t值及显著程度。⑷PDIFF:印出各平均数比较后的显著程度。⑸E=效应名称:必须与⑵、⑶、⑷选项并用,指定某一效应均方作为t检验的分母。缺省时,GLM自动采用误差项的均方作为t检验的分母。⑹ETYPE=1(或2:或3:或4):指定⑸中效应均方的类型。

MANOV A指令请参阅4.3。

OUTPUT指令中,OUT=输出资料文件名称,这个文件含原输入资料文件的所有变量,

以及指令中所提到的关键字。关键字=变量名称串:关键字主要有⑴P=预测值。⑵R=预测误差。⑶L95M(或U95M)=依变量平均数95%置信区间的下限(或上限)。⑷L95(或U95)=依变量预测值95%置信区间的下(或上)限。⑸STDP=预测值平均数的标准差。⑹KSTDP=误差的标准差。⑺STDI=个别预测值的标准差。⑻STUDENT=经过标准化的误差。⑼H=影响力,定义为X i(X'X)X i。

RANDOM指令指定模型中的随机效应。选项串中⑴Q:给出所有固定效应的二次形。

⑵TEST:对各式随机效应执行适当的F检验,并且F检验的分母完全根据效应的期望均方而定。

FREQ、BY、指令与ANOA V过程中相似。

4.1.3 V ARCOMP过程

1. 概述

V ARCOMP过程是用于估计广义线性模型中方差组分的值,尤其是对随机模型的资料,或系统设计的资料,可用该过程完成方差组分的估计。本过程估计方差组分的方法有四种:⑴TYPE1(一型平方和)法:因为该型平方和与模型效应的前后顺序相关(如系统设计)。所以需要对其后效应的大小作调整,据此计算出各效应均方后进行F检验,其所对应的选项为:METHOD=TYPE1。⑵MIVQUE0(最小方差二次无偏估计)法:该法估计的方差不受线性模型中固定效应的影响,随机效应的方差只对固定效应作调整,所以该法计算过程非常节省时间,并作为V ARCOMP的内设值。其选项为:METHOD=MIVQUE0。⑶ML(极大似然) 法,该法的估计过程是循环式的,直到目标函数值稳定下来为止。其选项为METHOD=ML。⑷REML(约束极大似然)法,该法与⑶相异之处是先将线性模型中的随机效应与固定效应分开,然后进行循环式的估计,直到随机效应所对应的目标函数值稳定下来为止。而⑶则不加以区分。该法的选项为:METHOD=REML。

2.

语句说明:

V ARCOMP选项中⑴METHOD =TYPE1|MIVQUEO|ML|REML见概述。⑵MAXITER = 正整数:界定ML REML中循环的最高次数,内设值等于50。⑶EPSILON=小的正实数:界定ML或REML中目标函数稳定性的标准,内设10-8。若两次循环所产生的函数值之差小于此数,则目标函数已达稳定。

CLASS、BY指令与ANOV A或GLM过程相同。

MODEL指令的前半部,亦与上述两个过程相同,删除号后的选项只有一个,FIXD=n(大于0的正整数,如:2):它指明指令等号右边的前n(2)个效应是固定效应,其后的效应都是随机效应。

4.2程序应用

4.2.1单因素方差分析

例4—1选用条件基本一致的小白鼠30只,随机分成3组,分别接种11C、9D、DSL三种菌型的伤寒杆菌,观察接种后小白鼠的存活天数如下列程序数据行中。试比较3组小白鼠的存活天数有无显著差异。

这是一个单因素设计的资料,a因素分3个水平,每个水平含10个观察值,拟用ANOV A 过程分析。

1. 编程法分析

(1)程序

options nodate nonumber;

data xu4a;

do a=1 to 3;

do i=1 to 10;

input x @@; output;

end; end;

cards;

5 5

6

7

8 8 5 5 7 10

2 4

3 2

4 7 7 2

5 4

5 6 7 7 12 13 11 7 8 9

;

proc format;

value trtf 1="11C" 2="9D" 3="DSL";

proc anova; format a trtf.;

class a; model x=a;

means a/ duncan; means a/ duncan alpha=0.01;

means a;

run;

(2)输出结果

⑴The ANOV A Procedure

Class Level Information

Class Levels Values

a 3 11C 9D DSL

Number of observations 30

⑵Dependent Variable: x

Source DF Sum of Squares Mean Square F Value Pr > F

Model 2 102.0666667 51.0333333 11.21 0.0003

Error 27 122.9000000 4.5518519

Corrected Total 29 224.9666667

R-Square Coeff Var Root MSE x Mean

0.453697 33.51058 2.133507 6.366667

Source DF Anova SS Mean Square F Value Pr > F

a 2 102.0666667 51.0333333 11.21 0.0003

⑶Duncan's Multiple Range Test for x

Alpha 0.05 0.01

Error Degrees of Freedom 27 27

Error Mean Square 4.551852 4.551852

Number of Means 2 3 2 3

Critical Range 1.958 2.057 2.644 2.757

Means with the same letter are not significantly different.

0.05 0.01

Duncan Grouping Mean N a Duncan rouping Mean N a

A 8.5000 10 DSL A 8.5000 10 DSL

A 6.6000 10 11C BA 6.6000 10 11C

B 4.0000 10 9D B 4.0000 10 9D

⑷Level of ------------------x----------------

a N Mean Std Dev

11C 10 6.60000000 1.71269768

9D 10 4.00000000 1.88561808

DSL 10 8.50000000 2.67706307

【程序说明】

数据步中有两个循环体,外循环a取值1、2、3,循环3次(为a的水平数),内循环i取值1—10,循环10次(为各水平内观察值个数),所以,整个大循环共读入观察值变量x(依变量)的30个数据。

过程步中FORMA T语句用于设定变量格式。

V ALUE语句定义格式名trtf,当某变量使用trtf.格式时,该变量若取值1、2、3,将分别用格式中定义的11C、9D、DSL表示。其语句为:FORMAT 变量名格式名.,本例为:FORMA T a trtf.;即指定a的输出格式,输出时将a的取值1、2、3,分别用11C、9D、DSL代替。设定格式和输出格式的存在与否不影响分析结果,仅仅是为了解释结果的方便而已。

CLASS语句指明自变量a。

MODEL语句定义单项分组资料的线性数学模型。

MEANS语句前两个指定计算处理平均数,并用邓肯新复极差法(SSR法)进行0.05及0.01显著水平下的多重比较。后一个MEANS语句指定印出各处理的平均数、标准差。

【结果分析】

输出结果为:⑴显示资料的分组(自变量)信息。a有3个水平,取值为11C、9D、DSL,观察值个数为30。⑵为方差分析表。项目有:变异来源(Source)、自由度(DF)、平方和(Sun of Squares)、均方(Mean Square)、F值(F Value)及概率P(PrsF)。变异来源中有模型变异

(Model),即整个处理效应的总变异,误差项(Error)的变异以及总变异(Corrected Total)。因为只有一个A因素,因此,其下表中a间变异即为总效应的变异。F检验结果(F=11.21,P=.0003)表明,处理间差异达到极显著水平。在该表下为a(自变量)与x(依变量)间的相关指数(R—Square)为:R2=模型平方和/总平方和=102.067/224.967=0.453697。Root MSE为误差项均方根(相当于方程估测误差) S x=4.5518521/2=2.133507。依变量(x)的平均数x=6.366667,Coeff Var为剔除处理效应后依变量的变异系数CV=100%×S x/x=100%×2.1335/6.3667=33.5106。⑶为多重比较表,表中列有检验所用的显著水平、自由度、标准误及LSR值(Critical Range),并注明均数前字母相同者为差异不显著,不同者为差异显著或极显著。经检验结果表明,9D与11C、DSL两个菌型的毒性分别达到显著(p<0.05)和极显著(p<0.01)的差异,DSL与11C之间差异不明显(p>0.05)。⑷列出各水平的样本含量、平均数及标准差。

2. 非编程法分析

先创建数据集work.xu4a,采用SAS/ASSIST进行分析,其步骤为:

Solutions→ASSIST→Data Analysis→ANOV A→Analysis of Variance→Table→work→xu4a→ok→Dependent→x→→ok→Classification→a→→ok→Additional Options→

Output statistics→Mean→a→Options for means→Comparison Tests→Duncan`s—range test →ok→ok→Goback→Goback→Run→Submit

【说明】

结果显示于OUTPUT窗口,其内容与编程法分析中多重比较为0.05显著水平的相当。

例4—2在产卵场捕得12尾鲫鱼,它们的成熟系数(%)按年龄分成2年(g2)、3年(g3)及≥4(g4)年3个组别列于程序数据行中。试检验不同年龄组鲫鱼成熟系数有无显著差异。

这是一个单因素3个水平内观察次数不等的资料,拟用GLM过程进行分析。

1. 编程法分析

(1)程序

options nodate nonumber;

data xu4b;

input g$ n;

do i=1 to n;

input x @@;

output;end;

cards;

g2 4

11.5 14.0 14.3 12.0

g3 5

13.2 12.6 18.5 19.0 15.7

g4 3

18.1 18.6 20.0

;

proc glm;

class g; model x=g/ss3;

means g / hovtest snk;

means g;run;

proc npar1way wilcoxon;

class g;var x;exact;

run;

(2)输出结果

①Dependent Variable: x

Source DF Sum of Squares Mean Square F Value Pr > F

Model 2 60.9525000 30.4762500 6.47 0.0182

Error 9 42.4100000 4.7122222

Corrected Total 11 103.3625000

R-Square Coeff Var Root MSE x Mean

0.589696 13.89290 2.170765 15.62500

Source DF Type III SS Mean Square F Value Pr > F

g 2 60.95250000 30.47625000 6.47 0.0182

②Levene's Test for Homogeneity of x Variance

ANOV A of Squared Deviations from Group Means

Source DF Sum of Squares Mean Square F Value Pr > F

g 2 98.7641 49.3820 6.21 0.0202

Error 9 71.5627 7.9514

③Student-Newman-Keuls Test for x

SNK Grouping Mean N g

A 18.900 3 g4

B A 15.800 5 g3

B 12.950 4 g2

④Level of ------------------x------------------

g N Mean Std Dev

g2 4 12.9500000 1.40593978

g3 5 15.8000000 2.93853705

g4 3 18.9000000 0.98488578

The NPAR1W AY Procedure

⑤Wilcoxon Scores (Rank Sums) for Variable x

Classified by Variable g

g N Sum of Scores Expected Under H0 Std Dev Under H0 Mean Score

g2 4 14.0 26.00 5.887841 3.50 g3 5 34.0 32.50 6.157651 6.80 g4 3 30.0 19.50 5.408327 10.00

⑥Kruskal-Wallis Test

Chi-Square 5.6308

DF 2

Asymptotic Pr > Chi-Square 0.0599

Exact Pr >= Chi-Square 0.0504

【程序说明】

Input语句指明输入一个字符变量(自变量)g,取值g2、g3、g4(3个水平名称)、一个数字型变量n取值4、5、3(各水平内观察次数)。

Do循环语句指定按各水平中的观察值读给变量g。

MODEL语句中删除号后的选项ss3:指明印出效应的第三型平方和。

MEANS语句中删除号后的选项SKN:指明用q法进行平均数的多重比较。选项HOVTEST:指明进行方差同质性检验。同质性检验有多种方法,若不对HOVTEST加选择(直接写上)为缺省的算法,即LEVENE检验法。若加选择,如HOVTEST=BARTLETT,则表明用巴特利特检验法等等。

PROC NPAR1W AY语句指明调用非参数检验过程。当资料的总体方差不同质或为非正态资料时,可调用该过程进行非参分析,NPAR1W AY后的选项主要有四种常用分析方法,它们的不同称呼列于表4—2。

表4—2四种非参数的平均数比较值

EXACT语句指明进行非参数的精确检验,不选此项,NPAR1W AY在执行大样本分析时用卡方检验。

【结果分析】

①方差分析结果(F=6.47,P=0.018)表明,不同年龄组别的成熟系数间存在显著的差异。

③多重比较表中,q检验的结果表明,只有≥4年龄的鲫鱼成熟系数与2年龄的存在显著的差异,其他各组间的差异均未达到5%的显著水平。

严格地说,只有满足正态性和方差同质性的资料才能进行方差分析。②中采用LEVENE 检验法对资料的方差同质性进行检验。结果(F=6.21,P=0.0202)表明,该资料相应的总体方差是不同质的(P<0.05)。在这种情况下,要么寻找合适的变量变换方法,使变换的资料满足正态性和方差同质性后,进行参数检验;要么采用非参数检验。⑤⑥非参数检验结果表明,3组之间的差异其精确概率P=0.054,用χ2分布作为其近似分布推算出来的概率P=0.0599,两者都接近于0.05,表明四组资料的分布位置之间存在一定的差异。但两两之间的差异,SAS中未给出。④列出各水平的样本含量、平均数及标准差。

2 非编程法分析

创建数据集work.xu4b,用SAS/AA模块进行方差分析和非参数检验以及方差同质性检验。

(1)方差分析及非参数检验

Solutions→Analysis→Statistical Analysis→File→Open by SAS Name→work→xu4b→ok →Statisaics→ANOV A→One-Way ANOV A→x→Dependent→g→Independent→Tests→Nonparametrics→Kruskal-Wallis→ok→ok→Run→Submit

(2)方差同质性检验

Solutions→Analysis→Statistical Analysis→File→Open by SAS Name→work→xu4b→ok →Statisaics→ANOV A→One-Way ANOV A→x→Dependent→g→Independent→Tests→Levene's Test→ok→ok→Submit

【说明】

在Tests for Equal Variance复选框中可任选Levene's Test、Brown and Forsythe's Test 或Bartlett's Test中的一种或全部非参检验法。输出结果与编程法分析的结果相同。

例4—3对不同周龄组的罗曼鸡,注射某疫苗后,测定其抗体滴度(1∶x)列于下表。试对各组的抗体平均滴度作差异显著性检验。

表4—3 不同周龄鸡抗体滴度的倒数(x)

该资料是一个单因素4水平,各水平观察值次数相等的资料,表中数据为抗体滴度的倒数,明显呈等比数列。此类资料多不符合方差分析的基本假定,因此有必要做正态性检验,若资料不符合正态分布则需要作变量变换。本例拟作对数的变换。

1编程法分析

(1)程序

options nodate nonumber;

data xu4c;

input g x@@;

y=log(x);

cards;

1 2 2 8 3 16 4 32

1 4

2 8

3 32

4 64

1 4

2 16

3 32

4 64

1 8

2 32

3 6

4 4 128

1 8

2 32

3 6

4 4 256

1 16

2 64

3 128

4 256

1 3

2 2 128

3 256

4 512

;

proc sort;by g;run;

proc univariate normal;var x;by g;run;

proc anova;

class g;

model y=g; means g/duncan;means g; run;

(2) 输出结果

①Tests for Normality (x)

-----------------------------------g=1-----------------------------

Test -----Statistic---- ------p Value------

Shapiro-Wilk W 0.792083 Pr < W 0.0342

----------------------------------g=2------------------------------

Test -----Statistic---- ------p Value------

Shapiro-Wilk W 0.798708 Pr < W 0.0398

--------------------------------g=3--------------------------------

Test -----Statistic---- ------p Value------

Shapiro-Wilk W 0.792083 Pr < W 0.0342

----------------------------------g=4------------------------------

Test -----Statistic---- ------p Value------

Shapiro-Wilk W 0.854425 Pr < W 0.1348

②Dependent Variable: y

Source DF Sum of Squares Mean Square F Value Pr > F Model 3 31.48683145 10.49561048 11.12 <.0001 Error 24 22.64992780 0.94374699

Corrected Total 27 54.13675925

R-Square Coeff Var Root MSE y Mean

0.581616 27.44254 0.971466 3.540002

Source DF Anova SS Mean Square F Value Pr > F

g 3 31.48683145 10.49561048 11.12 <.0001

Mean N g

Duncan Grouping

A 4.8520 7 4

B A 4.0599 7 3

B 3.2677 7 2

C 1.9804 7 1

④Level of ------------------y-------------------

g N Mean Std Dev

1 7 1.9804205

2 0.93241148

2 7 3.26769385 1.03696654

3 7 4.05986206 0.93241148

4

7 4.85203026 0.98025814

【程序说明】

Input 语句 指明输入2个变量g 、x ,其中g 取值1、2、3、4,x 为表4—3中的观察值变量。

Y=log(x) 是对原始数据作以e 为底的对数变换。若原始数据出现0时,通常作y=log(x+1)变换。若为百分数资料应作反正弦变换p

1

sin ,即 Y=arsin (sqrt (x ))/3.14159*2*90,

其中x 为百分数,如50%,x=0.5。

第1、2过程步 指明对原始数据x 做正态性检验。 第3过程 调用ANOV A 过程。

MODEL 语句 指明以y 为依变量的单因数线性数学模型(y=g),即对变换后的数据进行方差分析。这种分析亦称几何平均数的单因素方差分析。 【结果分析】

①从正态性检验摘录的结果中可以看出,4组数据中的前3组均不满足正态性的要求(p<0.05),因此作变量变换是适宜的。②方差分析结果(F=11.12,p<0.01)表明处理间的差异极为显著,说明不同周龄鸡的抗体平均滴度(几何平均数)之间有明显的差别。③由SSR 法检验结果表明20周龄鸡的抗体平均滴度显著高于5周和10周龄的(p<0.05);15周的 也明显高于5周的(p<0.05);其余之间差异不明显(p>0.05)。若要具体说明其平均滴度时,应将上述④各组平均数换算回原始的几何平均滴度,即取它们的反对数值,但显著性不变。取反对数后5、10、15、20周龄的几何平均滴度分别为1∶7.25、1∶26.25、1∶58、1∶128。 2 非编程分析

先创建数据集后,仿例4—1的SAS/ASSIST 模块分析操作步骤,把其中的X 改为Y ,把A 改为G 即可。输出结果与编程法相同。 4.2.2 交叉分组的两因素方差分析

所谓交叉分组的两因素设计资料,是指同时考察两因素A 、B 对观察值的影响时,两因素中的水平(a 、b)都相互搭配齐全。其处理数(水平组合数)为两因素水平数之积(a ×b)。当水平组合内只有一个观察值时,称无重复观察值的交叉分组资料;当水平组合内有两个或两个以上观察值时,称有重复观察值的交叉分组资料。

例4—4为研究蒸馏水的PH 值和硫酸铜浓度对化验血清白蛋白的影响,采用交叉分组,用同一种血清。每一水平组合各做一次化验,测得白蛋白与球蛋白之比例于下表,试作方差分析。

表4—4 PH 值及硫酸铜浓度对血清蛋白的影响

1 编程法分析

(1)程序

options nodate nonumber;

data xu4d;

do a=1 to 4;

do b=1 to 3;

input x @@;

output;end; end;

cards;

3.5 2.3 2.0

2.6 2.0 1.9

2.0 1.5 1.2

1.4 0.8 0.3

;

proc glm;

class a b;model x=a b / ss3;

means a b;means a b /snk;

run;

(2)输出结果

①Dependent V ariable: x

Source DF Sum of Squares Mean Square F Value Pr > F Model 5 7.51083333 1.50216667 34.89 0.0002 Error 6 0.25833333 0.04305556

Corrected Total 11 7.76916667

R-Square Coeff V ar Root MSE x Mean

0.966749 11.58130 0.207498 1.791667

Source DF Type III SS Mean Square F Value Pr > F

a 3 5.28916667 1.76305556 40.95 0.0002

b 2 2.22166667 1.11083333 25.80 0.0011

②Level of -----------------------------A-------------------------------

a N Mean Std Dev SNK Grouping a

1 3 2.60000000 0.79372539 A 1

2 3 2.16666667 0.37859389 B 2

3 3 1.56666667 0.40414519 C 3

4 3 0.83333333 0.5507570

5 D 4

③Level of --------------------------------B-----------------------------

b N Mean Std Dev SNK Grouping b

1 4 2.37500000 0.89582364 A 1

2 4 1.65000000 0.65574385 B 2

3 4 1.35000000 0.78528127 B 3

【程序说明】

循环语句指明外循环A取值1—4(A因素的水平名称)B取值1—3(因素的水平名称),水平组合4×3=12,为观察值的个数。

PROC语句指明调用GLM过程,进行方差分析,若改GLM为ANOV A过程,其分析结果相同。

CLASS语句指明2个分组变量或2个自变量(即A、B两因素)。

MODEL语句定义两因素主因素模型,其效应的平方和以SS3型印出。

两个MEANS语句前者指明计算A、B两因素各水平的平均数及标准差(可有可无);后者要求计算的各水平平均数用q法进行多重比较。

【结果分析】

①方差分析结果表明,总处理(Model)均方与误差项均方之比达到极显著水平(F=34.49,P=0.0002)。说明或A、或B、或A、B两因素的主效应都非常明显。各效应的分析表明,A、B两因素各水平间都存在明显的差异(P<0.01)。②q检验结果表明A因素(PH值)各水平两两间的均数差异都达到了显著水准(P<0.05)。③B因素(硫酸铜浓度)各水平间,浓度为0.04的与0.08、0.10的均数差异达到了0.05显著水准,0.08的与0.10的差异不明显(p>0.05)。

2 非编程分析

先创建数据集work.xu4d,采用SAS/ASSIST进行分析,其步骤为:

Solutions→ASSIST→Data Analysis→ANOV A→Analysis of Variance→Table→work→xu4d→ok→Dependent→x→→ok→Classification→a、b→→ok→Additional options→

Model options→Print Type ⅢSums of Square→ok→Output statistics→Mean→a→Options for means→Comparison Tests→Student—Newman—Keuls multiple range test(SNK)→ok→ok →Goback→Goback→Run→Submit

【说明】

以上操作输出结果只显示方差分析及a的多重比较表,若要对b进行多重比较,必须重复上述操作把其中a改为b即可。若未关闭SAS/ASSIST窗口,可在SAS MWS窗口底部的状态栏中点击SAS/ASSIST:Ana…后,沿Additional options及以后的步骤操作,把其中a改为b即可。输出结果与编程法的相同。

例4—5为探明猪在不同生育阶段(B)对饲喂不同饲料(A)的增重效果,试验按猪的生育阶段分为前(B1)、中(B2)、后(B3)三个时期,并在每期中分别选用市Ⅱ(A1)、市郊Ⅰ(A2)及常规(A3)三种饲料,每种饲料喂4头猪,试验140天结束,试验结果(日增重kg)列下表,试作方差分析。

表4—4 不同饲料对不同生育阶段猪的增重效果

1 编程法分析

(1)程序

options nodate nonumber;

data xu4e;

do a=1 to 3;

do b=1 to 3;

do r=1 to 4;

input x @@;

output; end; end;end;

cards;

0.42 0.50 0.43 0.31 0.54 0.49 0.43 0.50 0.50

0.55 0.44 0.42 0.48 0.50 0.47 0.46 0.40 0.46

0.36 0.37 0.56 0.55 0.50 0.53 0.36 0.40 0.49

0.35 0.30 0.36 0.40 0.34 0.40 0.44 0.35 0.26

;

proc glm ;

class a b ;

model x= a b a*b/ss3;

means a b /duncan;

lsmeans a*b/stderr tdiff; run;

(2)输出结果

①Dependent Variable: x

Source DF Sum of Squares Mean Square F Value Pr > F Model 8 0.12855556 0.01606944 5.44 0.0004 Error 27 0.07970000 0.00295185

Corrected Total 35 0.20825556

R-Square Coeff Var Root MSE x Mean

0.617297 12.52186 0.054331 0.433889

Source DF Type III SS Mean Square F Value Pr > F

a 2 0.07207222 0.03603611 12.21 0.0002

b 2 0.01277222 0.00638611 2.16 0.1344

a*b 4 0.04371111 0.01092778 3.70 0.0158

②Duncan Grouping Mean N a Duncan Grouping Mean N b

A 0.47000 12 2 A 0.45833 12 3

A 0.46083 12 1 A 0.43083 12 1

B 0.37083 12 3 A 0.41250 12 2

③Least Squares Means

a b x LSMEAN Standard Error Pr > |t| LSMEAN Number

1 1 0.41500000 0.02716547 <.0001 1

1 2 0.49000000 0.02716547 <.0001 2

1 3 0.47750000 0.02716547 <.0001 3

2 1 0.47750000 0.02716547 <.0001 4

2 2 0.39750000 0.02716547 <.0001 5

2 3 0.53500000 0.02716547 <.0001 6

3 1 0.40000000 0.02716547 <.0001 7

3 2 0.35000000 0.02716547 <.0001 8

3 3 0.36250000 0.02716547 <.0001 9

④Least Squares Means for Effect a*b

t for H0: LSMean(i)=LSMean(j) / Pr > |t|

Dependent Variable: x

i/j 1 2 3 4 5 6 7 8 9 1 -1.95222 -1.62685 -1.62685 0.455518 -3.12355 0.390444 1.691925 1.366555

0.0614 0.1154 0.1154 0.6524 0.0042 0.6993 0.1022 0.1830 2 1.952221 0.32537 0.32537 2.407739 -1.17133 2.342665 3.644146 3.318776

0.0614 0.7474 0.7474 0.0232 0.2517 0.0268 0.0011 0.0026 3 1.626851 -0.32537 1.44E-15 2.082369 -1.4967 2.017295 3.318776 2.993406

0.1154 0.7474 1.0000 0.0469 0.1461 0.0537 0.0026 0.0058 4 1.626851 -0.32537 -144E-17 2.082369 -1.4967 2.017295 3.318776 2.993406

0.1154 0.7474 1.0000 0.0469 0.1461 0.0537 0.0026 0.0058 5 -0.45552 -2.40774 -2.08237 -2.08237 -3.57907 -0.06507 1.236407 0.911036

0.6524 0.0232 0.0469 0.0469 0.0013 0.9486 0.2270 0.3703 6 3.123554 1.171333 1.496703 1.496703 3.579072 3.513998 4.815478 4.490108

0.0042 0.2517 0.1461 0.1461 0.0013 0.0016 <.0001 0.0001 7 -0.39044 -2.34267 -2.0173 -2.0173 0.065074 -3.514 1.301481 0.976111

0.6993 0.0268 0.0537 0.0537 0.9486 0.0016 0.2041 0.3377 8 -1.69192 -3.64415 -3.31878 -3.31878 -1.23641 -4.81548 -1.30148 -0.32537

0.1022 0.0011 0.0026 0.0026 0.2270 <.0001 0.2041 0.7474 9 -1.36655 -3.31878 -2.99341 -2.99341 -0.91104 -4.49011 -0.97611 0.32537

0.1830 0.0026 0.0058 0.0058 0.3703 0.0001 0.3377 0.7474

【程序说明】

3个循环体中,内循环把每个水平组合内4个观察值读给r,中循环和外循环各3次,把36个观察值分别读给A和B两个分组变量(自变量)。

MODEL语句定义A、B两个主效应、A*B互作效应的线性数学模型。选项指明各效应的平方和以SS3型印出。

MEANS语句要求计算A、B两因素的各水平平均数用SSR法进行多重比较。

LSMEANS语句要求依据最小误差平方法计算各水平组合的平均数(平衡资料LSM=MEAN)。选项要求印出t检验(Ho:Lsm≠0) 的分母与其显著程度、各平均数比较的t 值及显著程度。当比较的平均数较多时,可采用本语句。否则系统不印出多重比较的结果,只印出平均数和标准差。

【结果分析】

①方差分析结果(F=5.44,P<0.01) 表明,总的效应(模型)有极显著的意义,其中a、a*b效应分别达到1%和5%的显著水平,说明不同饲料对猪的日增重有明显的作用,且不同饲料在猪的不同生育阶段表现出差异性(即互作),而不同生育阶段(B) 间差异不明显(P>

0.05)。

②由SSR法多重比较结果表明,市郊Ⅰ、市Ⅱ配合饲料对猪的日增重都明显高于常规饲料,但配合饲料间的差异不明显(P>0.05)。

③为依据最小误差平方法计算互作的平均数,其t检验(Ho:Lsm≠0) 的分母与显著程度。

④在交互作用的多重比较中,A2B3、A1B2、A2B1、A1B3的增重效果较为明显,但它们彼此之间差异不显著。总体看:在猪生长的前、后期宜饲喂市郊Ⅰ配合饲料;在中期用市Ⅱ配合饲料可获较高的日增重。

2 非编程分析

先创建数据集work.xu4e,采用SAS/ASSIST进行分析,其步骤为:

Solutions→ASSIST→Data Analysis→ANOV A→Analysis of Variance→Table→work→xu4e→ok→Dependent→x→→ok→Classification→a、b→→ok→Additional options→

Model effect→Interactions→a→|→b→ok→Goback→Model options→Print Type ⅢSums of Square→ok→Output statistics→Mean→a→Options for means→Comparison Tests→Duncanˊs-range test→ok→ok→Least—squares means→a*b→Least—squares means options→Print LSM standard error and test if LSM=0→Print t values for test of all LSMs equal→ok→Goback →Goback→Run→Submit

【说明】

以上操作输出方差分析表、a及a*b的多重比较表,若需要对b作多重比较可改a为b即可(结果略)。

4.2.3系统分组资料的方差分析

系统分组,是根据试验目的把因素分为主次,次因素称为二级因素(或称次级因素),以此类推,有三级因素、四级因素等等。由于这类试验与单元内再抽样的试验类似,所以也称为样本内样本试验。因为次级因素同一水平在一级因素不同水平中有不同的效应,因此必须把一级因素不同水平中的次级因素同一水平看成是不同的水平,这样一级因素不同

水平下次级因素的水平数,可以是相等的或不相等的。据此可选用SAS系统中针对次级样本水平及其含量相等与不相等资料的分析过程。

例4—6 3头公牛与6头母牛配种,其女儿第一胎305天的产奶量(X-4000)/100列于表4—5,试作方差分析。

表4—5 3头公牛所配的女儿产奶量(kg/头)

本例属两因素系统分组次级样本含量相等的资料,一级样本(公牛组)分3个水平,次级样本(母牛组)水平数都为2,每水平样本含量相等。

1编程法分析

(1)程序

options nodate nonumber;

data xu4f;

do a=1 to 3;

do b=1 to 2;

do r=1 to 2;

input x@@;

output;

end; end; end;

cards;

17 17 29 32

15 9 35 34

6 0 13 12

;

proc nested;

class a b;

var x;

run;

proc glm;

class a b;

model x=a b(a)/ss1;

test h=a e=b(a);

means a/duncan e=b(a);

lsmeans b(a)/tdiff pdiff;

run;

(2)输出结果

①The NESTED Procedure

Coefficients of Expected Mean Squares

Source a b Error

a 4 2 1

b 0 2 1

Error 0 0 1

②Nested Random Effects Analysis of Variance for Variable x

Variance Source DF

Sum of

Squares

F Value Pr > F Term

Error Mean

Square

Variance

Component

Percent

of Total

Total 11 1482.250000 134.750000 151.104167 100.0000

a 2 662.000000 1.28 0.3974

b 331.000000 17.854167 11.8158

b 3 778.750000 37.53 0.0003 Error 259.583333 126.333333 83.6068 Error 6 41.500000 6.916667 6.916667 4.5774

x Mean 18.25000000

Standard Error of x Mean 5.25198375

③Dependent Variable: x

Source DF Squares Sum of Mean Square F Value Pr > F Model 5 1440.750000 288.150000 41.66 0.0001 Error 6 41.500000 6.916667

Corrected Total 11 1482.250000

R-Square Coeff V ar Root MSE x Mean

0.972002 14.41072 2.629956 18.25000

Source DF Type I SS Mean Square F Value Pr > F

a 2 662.0000000 331.0000000 47.86 0.0002

b(a) 3 778.7500000 259.5833333 37.53 0.0003

Tests of Hypotheses Using the Type I MS for b(a) as an Error Term

Source DF Type I SS Mean Square F Value Pr > F

a 2 662.0000000 331.0000000 1.28 0.3974

第4章方差分析

第四章方差分析 方差分析(Analysis of Variance,ANOVA)是将待分析资料的总变异剖分为不同的变异来源,以获得不同变异来源的总体方差的估计值。通过F检验,完成多个样本平均数之间的差异显著性检验(即多重比较),若处理效应为随机模型时,则进行方差组分的估计。 4.1 方差分析的SAS过程 用于方差分析的主要过程有方差分析(ANOVA)和广义线性模型(GLM)。对于无缺省(缺值、缺组等)资料,或称平衡资料,一般采用(ANOVA)过程,对缺省资料(非平衡资料)应采用(GLM)过程。事实上根据效应模型的不同,还有VARCOME(方差组分)过程,MIXED(混合模型)过程等。 4.1.1 ANOVA过程 1. 名词解释 自变量与依变量在方差分析中,自变量可称为独立变量、定性变量(Qualitative Variale)、分类变量(Classiflcation Variable)或类别变量(Categorcal Variable),相当于因素处理、水平变量。依变量又称反应变量(Response Variable),相当于观察值变量。 实验效应方差分析的目的是找出对依变量产生的实验效应,这种效应可分为3种:主效应,常以自变量的英文字母表示,如A、B等。互作效应,常以星号联接自变量表示,如A*B。嵌套效应,以小括号表示,如A(B)表示A效应嵌套在B效应之内。 2 语句说明: CLASS指令必须出现在MODEL指令之前,如选用TEST、MANOVA指令,则它们必须出现在MODEL指令之后。MEANS、TEST及MANOVA等指令可重复使用,其他指令则只能出现一次。

PROC ANOV A选项串中:⑴DA TA=输入数据集名称,指明对它执行ANOV A分析。⑵MANOV A 要求将含一个或一个以上依变量遗漏数据的观察值剔除。⑶OUTPUT=(含分析结果的)输出文件名称,包括平方和(SS),F检验值,以及各效应的显著程度。 CLASS变量名称串指明自变量,自变量可以是数值的或文字的。 MODEL指令定义分析所用的线性数学模型(见表6—1),删除号(/)后的选项:⑴NOUNI:不印出单变量方差分析的结果,适用于多变量的方差分析。⑵INT:要求SAS把线性模型内的截距(即资料的总平均数)当成一个参数,同时对这个截距作是否为零的假设检验。 MEANS指令前半部要求算出某些自变量(或互作)中各组的平均数,后半部(删除号后)共有24个选项,前17个选项分别对MEANS指令中所列的主效应平均数进行多种方法的多重比较。这些选项有:⑴BON:修正最小显著差异t检验。⑵DUNCAN:邓肯多重范围检验,即邓肯氏新复极差法。⑶DUNNETT(控制组组名):邓尼特控制差异检验。它是依据t分布由各组平均数与控制组(指定组如对照组)进行比较,采用双尾检验。⑷DUNNETTL(控制组组名):邓尼特小于控制均数检验。与控制组平均数的比较,采用单尾检验,临界值订在t分布的下端。⑸DUNNETTU(控制组组名):邓尼特大于控制均数检验。与控制组平均数的比较,采用单尾检验,临界值订在t分布的上端。⑹GABRIEL:贵博氏多重比较。⑺REGWF:R—E—G—W多重F检验。⑻REGWQ:R—E—G—W多种t检验。⑼SCHEFFE:执行沙菲氏(Scheffe)的多重比较检验。⑽SIDAK:Sidak调整T检验。⑾SUM(或⑿GTI):Sidak独立样本t检验。当两组样本含量不等时为哈氏(Hochberg)的GTI 检验。⒀SNK:纽曼—库尔多重范围检验,即q检验。⒁T(或⒂LSD):配对t检验或费歇尔最小显著差异检验。⒃TUKEY:图基固定极差检验。⒄W ALLER:娃尔—邓肯K—比率t检验。以上17种检验法最常用的为⑵、⑶、⑸、⒀、⒁。其它主要选项还有⒅ALPHA=P:界定检验的显著水准。内设值为P=0.05。当上面选项与选项⑵并用时,P值必须是0.10、0.05、0.01三者之一。与上面其他检验选项时,P可以是0.0001与0.9999间任何的值。⒆LINES:将显著性检验的平均数,由大到小排列。若某一对平均数之间无显著差异,则将它们印在同一行上,并以虚线将它们与其他有显著差异的平均数分开。当选用⑵、⑺、⑻、⒀或⒄等检验时,此选项会自动被包括在内,否则,必须附加此选项。⒇CLM:效应的各组平均数以置信区间方式表示。此项必须与⑴、⑹、⑼、⑽、⑾、⒁、⒂等联用。(21)CLDIFF:与(20)相仿,选用⑵、⑺、⑻、⒀、⒄时,附加此选项,将以置信区间方式显示各组平均数。(22)E=效应名称:它界定各显著检验的分母,缺省时以误差项的均方自动成为分母。 FREQ指令指明该变量值为各观察值重复出现的次数。 TEST指令用来指定F检验的分子与分母,H=分子,E=分母;一般而言,系统自动采用误差项的均方作为F检验的分母。但对于随机模型等,可选此项。 MANOV A指令主要用于执行多变量(多元)方差分析。 BY指令用于把数据文件分成几个小文件,然后逐一进行ANOV A分析,但文件内的数据必须先按照BY变量串的值做由小到大的重新排列。此步骤可籍PROC SORT达成。 以上指令中MODEL指令至关重要,同一资料,分析结果依模型不同而异。常用的模型定义语句有:MODEL Y=A;单因素方差分析,MODEL Y=A B两因素主效应模型,MODEL Y=A B A*B两因素带互作模型,MODEL Y=A B(A)嵌套(NESTED)模型用

第四章 方差分析

第四章 方差分析 一、填空题 1、方差分析就是通过对实验数据进行分析,检验方差 时,各正态总体的 是否相等,以判断各因素对试验指标的影响是否相等。 2、单因素方差分析的数学模型为 。 3、在单因素方差分析中,总偏差平方和分解公式为 。 4、对于具有s 个水平的单因素A 实验方差分析(水平i A 对应的总体为),(2σμi N (i =1,2,…,s ),现取样,设各水平下的样本容量之和为n ,以T e A S S S ,,分别表示因素A 的效应平方和、误差平方和、总偏差平方和,则 (1)T e A S S S ,,之间的关系是___________; (2)在s μμ==...1成立的条下, ~) /() 1/(s n S s S E A --___________; (3)在显著性水平α下,假设“s H μμ==...:10,s H μμ,...,:11不全相等”的拒绝域形式是_________ 4、方差分析的目的是_______ . 解:推断各因素对试验结果影响是否显著. 5、在一个单因子试验中,因子A 有4个水平,每个水平下重复次数分别为:5,7,6,8 那么误差平方和的自由度 ,因子A 的平方和的自由度为 。 6、单因素试验方差分析的数学模型含有的三个基本假定是_______ . 解:正态性、方差齐性、独立性.

二、简述题 1、简述方差分析解决什么问题。 2、单因素方差分析的数学模型是什么? 3、单因素方差分析中的总偏差平方和分解公式是什么? 4、单因素方差分析中,总偏差平方和、组间偏差平方和(因子平方和)、组内偏差平方和(误差平方和)分别是由什么引起的? 5、方差分析的检验一般用什么检验法? 6、方差分析的目的及思想(结合单因素)。 三、单选题 1、方差分析是一个( )问题。 A 、假设检验 B 、参数估计 C 、随机试验 D 、参数检验 2、在方差分析中,( )反映的是样本数据与其组平均值的差异 A 总离差 B 组间误差 C 组内误差 D A,B,C 全错 3、∑∑==-s i n j i ij i X X 112)(是( ) A 组内平方和 B 组间平方和 C 总离差平方和 D 4、单因素方差分析中,数据i ij n j r i X ,,2,1;,,2,1, ==可以看作是取自( )。 A 、一个总体),(~2σμN X B 、r 个总体r i N X i i ,,2,1),,(~2 =σμ C 、r 个总体r i N X i i ,,2,1),,(~2 =σμ D 、n 个总体i i i n j r i N X ,,2,1;,,2,1),,(~2 ==σμ 四、计算题

(完整word版)STATA第四章t检验和单因素方差分析命令输出结果说明

第四章 t检验和单因素方差分析命令与输出结果说明 ·单因素方差分析 单因素方差分析又称为Oneway ANOVA,用于比较多组样本的均数是否相同,并假定:每组的数据服从正态分布,具有相同的方差,且相互独立,则无效假设。 :各组总体均数相同。 原假设:H 在STATA中可用命令: oneway 观察变量分组变量[, means bonferroni] 其中子命令bonferroni是用于多组样本均数的两两比较检验。 例:测定健康男子各年龄组的淋巴细胞转化率(%),结果见表,问:各组的淋巴细胞转化率的均数之间的差别有无显著性? 健康男子各年龄组淋巴细胞转化率(%)的测定结果: 11-20 岁组:58 61 61 62 63 68 70 70 74 78 41-50 岁组:54 57 57 58 60 60 63 64 66 61-75 岁组:43 52 55 56 60 用变量x 表示这些淋巴细胞转化率以及用分组变量group=1,2,3分别表示 则用 STATA 命令: oneway x group, mean bonferroni | Summary of x group | Mean ① -------------+------------ 1 | 66.5 2 | 59.888889 3 | 53.2 ------+------------ Total | 61.25 ②

Analysis of Variance Source SS df MS F Prob > F ------------------------------------------------------------------------------- Between groups 616.311111③ 2 ④ 308.155556⑤ 9.77⑥ 0.0010⑦Within groups 662.188889⑧ 21⑨ 31.5328042⑴ ------------------------------------------------------------------------------- Total 1278.50 23 55.586956 (2)Bartlett's test for equal variances:chi2(2) = 2.1977 (3)Prob>chi2=0.333 Comparison of x by group (Bonferroni) Row Mean- | Col Mean | 1 2 -------------- --|-------------------------------------- 2 | -6.61111 (4) | 0.054 (5) | 3 | -13.3 (6) -6.68889(8) | 0.001 (7) 0.134 (9) ①对应三个年龄组的淋巴细胞转化率的均数;②三组合并在一起的总的样本 均数;③组间离均差平方和;④组间离均差平方和的自由度;⑤组间均方和(即: ⑤=③/④);⑧组内离均差平方和;⑨组内离均差平方和的自由度;(1)组内均 方和(即:(1)=⑧/⑨);⑥为F 统计值(即为⑤/(1));⑦为相应的p值;(2) 为方差齐性的Bartlett检验;(3)方差齐性检验相应的p值;(4)第二组的淋 巴细胞转化率样本均数—第一组的淋巴细胞转化率的样本均数的差;(5)第二和 第一组均数差的显著性检验所对应p 值;(6)第三组的淋巴细胞转化率样本均数—第一组的淋巴细胞转化率的样本均数的差;(7)第三和第一组均数差的显著 性检验所对应的 p 值;(8)第三组的淋巴细胞转化率样本均数—第二组的淋巴 细胞转化率的样本均数的差;(9)第三和第二组均数差的显著性检验所对应的p 值。 由上述结果可知:三组方差无显著地齐性,因此若三组数据近似服从正态 分布,无效假设Ho检验所对应的p值<0.01,可以认为这三组均数有显著差异。 由 Bonferroni统计检验结果表明:第一组淋巴细胞转化率显著地高于第三组淋 巴细胞转化率(p<0.005),其它各组之间均数无显著性差异。

SPSS第四章 方差分析

方差分析是用于两个及两个以上样本均数差别的显著性检验。由于各种因素的影响,研究所得的数据呈现波动状,造成波动的原因可分成两类,一是不可控的随机因素,另一是研究中施加的对结果形成影响的可控因素。方差分析的基本思想是:通过分析研究不同来源的变异对总变异的贡献大小,从而确定可控因素对研究结果影响力的大小。 方差分析主要用途:①均数差别的显著性检验,②分离各有关因素并估计其对总变异的作用,③分析因素间的交互作用,④方差齐性检验。 在科学实验中常常要探讨不同实验条件或处理方法对实验结果的影响。通常是比较不同实验条件下样本均值间的差异。例如医学界研究几种药物对某种疾病的疗效;农业研究土壤、肥料、日照时间等因素对某种农作物产量的影响;不同化学药剂对作物害虫的杀虫效果等,都可以使用方差分析方法去解决。 方差分析原理 方差分析的基本原理是认为不同处理组的均数间的差别基本来源有两个: (1) 随机误差,如测量误差造成的差异或个体间的差异,称为组内差异,用变量在各组的均值与该组内变量值之偏差平方和的总和表示,记作SS w,组内自由度df w。 (2) 实验条件,实验条件,即不同的处理造成的差异,称为组间差异。用变量在各组的均值与总均值之偏差平方和表示,记作SS b,组间自由度df b。 总偏差平方和 SS t = SS b + SS w。 组内SS t、组间SS w除以各自的自由度(组内dfw =n-m,组间dfb=m-1,其中n为样本总数,m为组数),得到其均方MS w和MS b,一种情况是处理没有作用,即各组样本均来自同一总体,MS b/MS w≈1。另一种情况是处理确实有作用,组间均方是由于误差与不同处理共同导致的结果,即各样本来自不同总体。那么,MS b>>MS w(远远大于)。 MS b/MS w比值构成F分布。用F值与其临界值比较,推断各样本是否来自相同的总体。 方差分析的假设检验

04方差分析(5)

第五章 方差分析 方差分析是质量管理中常用的统计技术之一。在实际工作中,经常会遇到需要比较多个总体均值的问题,这类问题往往可以用方差分析的方法解决。 〖例5-1〗现有甲、乙、丙三家工厂生产同一种零件,为了解不同工厂的零件强度有无明显的差异,现分别从每一个工厂随机抽取4个零件测定其强度,数据如表5-1所示,试问这三个工厂的零件的平均强度是否相同? 在这一问题中,我们遇到需要比较3个总体均值的问题。如果每一个总体的分布都服从正态分布,并且各个总体的方差相等,那么比较各个总体均值是否一致的问题可以用方差分析来解决。 注意:这里有两个假定,后面将要讲到第三个假定,即各个总体服从正态分布。在实际工作中我们不能盲目地使用这些假定(你不能未进行任何分析计算就假定你的过程符合这三个要求),在实际工作中这些假定需要证实。而《质量专业理论与实务(中级)》的知识是不能解决这个问题的,使用SPSS 可以很方便地解决这些问题。 第一节 几个概念 结合上述例题讲述几个概念。 称上述从每一个工厂随机抽取4个零件测定其强度为试验,在该试验中考察的指标是零件的强度,不同工厂的零件强度不同,因此可以将工厂看成影响指标的一个因素,不同的工厂便是该因素的不同状态。 为了方便起见,将在试验中会改变状态的因素称为因子,常用大写字母A 、B 、C 等表示。在〖例5-1〗中,工厂便是一个因子,用字母A 来表示。 因子所处的状态称为因子的水平,用因子的字母加下标表示,譬如因子A 的水平用A 1、A 2、…等表示。在〖例5-1〗中,因子A 有3个水平,分别记为A 1、A 2、A 3。 试验中所考察的指标通常用Y 表示,它是一个随机变量。 如果一个试验中所考察的因子只有一个,那么这是单因子试验问题,一般对数据做以下一些假设: 假定因子A 有r 个水平,在每个水平下指标的全体构成一个总体,因此共有r 个总体。假定第i 个总体服从均值为μ,方差为σ2的正泰分布,从该总体中获得一个样本量为m 的样本im i i y y y ,...,,21,其观察值便是我们观察到的数据,i=1,2,…,r ,最后假定个样本是相互独立的。 数据分析主要是要检验如下假设: r H μμμ===...:210 H μμμ,...,,:211不全相等

相关主题