搜档网
当前位置:搜档网 › 教育统计学笔记公式

教育统计学笔记公式

教育统计学笔记公式
教育统计学笔记公式

教育统计学是运用数理统计的原

理和方法研究教育问题的一门应用科学。它的主要任务是研究如何搜集、整理、分析由教育调查和教育实验等途径所获得的数字资料,并以此为依据,进行科学推断,从而揭示蕴含在教育现象中的客观规律。

统计学和教育统计学的内容:从具体应用角度来分,可以分成:描述统计、推断和实验设计三部分。

描述统计:对已获得的数据进行整理、概括,显现其分布特征的统计方法。通过教育调查和教育实验获得了大量

的数据,用归组、编表、绘图等统计方法对这进行归纳、整理,以直观形象的形式反映其分布特征;通过计算各种特征量,来反映它们分布上的数字特征。

推断统计:根据样本所提供的信息,运用概率的理论进行分析、论证,在一定可靠程度上对总体分布特征进

行估计、推测。

描述统计是推断统计的基础,推断统计是通过样本信息估计、推测总体,从已知情况估计、推测未知情况。

学习统计学和教育统计的学的意义:一、统计学为科学研究提供了一种科学方法,统计推理的方法是归纳法。

二、教育统计学是教育科研定量分析的重要工具。三、广大教育工作者学习教育统计学的具体意义:1、可以顺利地阅读运用统计方法进行定量分析的科

研报告。2、可以提高教育工作的科学性和效率。3、为学习教育测量及教育评价打下基础。

随机现象:1、一次试验有多种可能结果,其所有可能结果是已知的;2、试验之前不能预料哪一种可能结果会

出现;3、在相同的条件下可以重复试验。

随机现象的每一种结果叫做一个

随机事件。

总体:研究的具有某种共同特性的个体的总和。总体中的每个单位称为个体。样本是从总体中抽取的作为观察对象的一部分个体。

样本上的数字特征是统计量。总体上的各种数字特征是参数。在进行统计推断时,就是根据样本统计量来推断总

体相应的参数。

第二章数据的初步整理

教育统计资料的来源:经常性资

料、专题性资料(教育调查、教育实验)

数据的种类:按来源分:点计数据

和度量数据,按随机变量取值情况分:

间断型(取值个数有限的数据,一般为

整数)和连续型随机变量(取值个数无

限的不可数的数据可用小数表示)。

数据的统计分类:按照研究对象的

本质特征,根据分析研究的目的、任务,

以及统计分析时所用统计方法的可能

性,将所获得的数据进行分组归类。分

类标志按形式划分:性质类别和数量类

别。

统计表:一般由标题、表号、标目、

线条、数字、表注构成。分复合表、简

单表、分组表。某一个随机事件在次试

验中出现的次数称为随机事件的频数。

简单频数分布表:求全距、决定组

数和组距、决定组限、登记频数。

统计图:表示间断变量的统计图:

直条图、圆形图。表示连续变量的统计

图:线形图、频数分布图(直方图、多

边图、累积频数和累积百分比多边图)

第三章集中量:是代表一组数据

典型水平或集中趋势的量。

算术平均数:算术平均数是所有观

察值的总和除以总频数所得之商,它是

统计学中最易理解最常应用的一种集

中量指标。特性:观察值的总和等于算

术平均数的倍,各观察值与其算术平均

数之差的总和等于0,若一组观察值是

由两部分或几部分组成,这组观察值的

算术平均数可以由组成部分的算术平

均数而求得。优缺点:1、反应灵敏。2、

严密确定3、简明易懂,计算简单4、

适合代数运算5、只知一组观察值的总

和及总频数就可以求出算术平均数。6、

用加权法可以求出几个平均数的总平

均数。7、用样本数据推断总体集中量

时,算术平均数最接近于总体集中量的

真值,它是总体平均数的最好估计值。

8、在计算方差、标准差、相关系数以

及进行统计推断时,都要用到它。

缺点是:易受两极端数值的影响。

一组数据中某个数值大小模糊不清或

不够确切时,就无法计算。它所适用的

条件:一组数据中每个数据都比较准确

可靠;无两极端数值影响;而且还要通

过它计算其他统计量。

中位数是位于依一定大小顺序的

一组数据中央位置的数值。各有一半数

的一级数据的数据个数一分为二的数

值。是百分位数的一种。

百分位数是位于依一定顺序排列

的一组数据中某一百分位置的数值。

中位数的应用及其优缺点:不适合

代数计算,与算术平均数相比抽样偏差

相对较大。很少受两极端数值的影响,

由数据的个数所决定,反应不灵敏,适

用于:1、一组数据有特大或特小两极

端数值时2、一组数据中有个别数据不

确切、不清楚时。3、资料属于等级性

质时。

第节众数皮尔逊经验法:。

众数的应用及其优缺点:随频数分

布表上的组距变化而变化,极不准确、

极不稳定。不适合代数计算,受抽样变

动较大,较少受两极端数值的影响,反

应不灵敏。使用条件:1、当需要快速

而又粗略地找出一组数据的代表值时

2、当需要利用算术平均数、中位数、

众数三者关系来粗略地判断频数分布

的形态时3、利用众数帮助分析解释一

组频数分布是否确实具有两个频数最

多的集中点时。

当一个频数分布出现两个频数最

多一组时,可以通过合并组距的方法视

其资料的同质性。若合并后仍有两个集

中点,则表明这组数据是由两种性质不

同资料混合在一起。

算术平均数、中位数、众数三者关

系:当频数分布呈正态时,三者合为一

点:;当频数分布呈正偏态时,,负偏

态时:

加权平均数几何平均数调和平

均数

加权平均数是不同比重数据或平

均的平均数。

几何平均数:n个数值连乘积的n

次方根。当一个数列的后一个数据是以

前一个数据为基础成比率增长时,要用

它求其平均增长率,常用作速率的集中

量,在教育方面,求增加率、进步率等。

求法是n个数据连乘积的n次方根。

调和平均数:是一组数据倒数的算

术平均数的倒数。主要是用来求学习速

度。

第章差异量

表示一组数据变异程度或离散程

度的量叫差异量。差异量大大,表示数

据分布越广,越不整齐、差异量越小,

表示数据分布得越集中,变动范围越

小,(全距、四分位距、百分位距、平

均差、方差、标准差、)绝对差异量,

(差异系数。)相对差异量

全距是一组数据中最大值与最小

值之差。

四分位距是用依一定顺序排列的

一组数据中间部位50%个频数距离的一

半作为差异量指标。四分位距的应用

及其优缺点:简明易懂,计算简便,较

少受两极端数值的影响,比全距可靠的

多。但它忽略了左右共50%数据的差异,

不适合代数运算。当一组数据中用中位

数表示集中量时,就要用四分位距表示

差异量。

第节平均差每一个数据与该

组数据的中位数或算术平均数离差的

绝对值的算术平均数。

第节方差和标准差方差是指离

差平方的算术平均数,一组数据中每个

数据与该组平均数之差,平方之求其

和,再除以数据的个数。标准差即方差

的平方根

优点:反应灵敏,随任何一个数据

的变化而变化,严密确定,一组数据的

方差及标准差有确定的值,计算简单,

适合代数运算,可以将几个方差和标准

差综合成一个总的方差和标准差,用样

本数据推断总体差异量时,方差和标准

差是最好的估计量。在避免两极端数值

影响方面超过全距,在考虑到全部离差

方面,优于四分位距,在避免绝对值方

面优于平均差。缺点是不太容易理解,

易受两极端的影响,有个别数值糊涂不

清时无法计算。最直接的用途是描述一

组数据的离散程度。

第节相对差异量对两种单位不

同或单位相同而两个平均数相差较大

的资料进行差异大小的比较。

偏态量及峰态量:=,时,分布

呈对称形,正偏态负偏态。偏

态系数:峰态量时呈正态

峰,高狭峰低阔峰

第五章概率及概率分布

以随机事件在大重复试验中出现

的稳定频率值作为随机事件概率的估

计值,这样寻得的概率称为后验概率。

先验概率是在特定条件下直接计

算出来的,是随机事件的真实概率,不

是由频率估计出来的。

概率的性质:任何随机事件的概率

都是在0与1之间

不可能事件的概率等于0,必然事

件的概率等于1

第节二项分布

凡满足以下条件的试验称为二项

试验:一次试验只有两种可能结果,

即成功和失败,各次试验相互独立,即

各次试验之间互不影响。各次试验中成

功的概率相等,各次试验中失败的概率

也相等。二项分布是一种离散型随机变

量的概率分布。

二项分布函数:二项分布的平

均数和标准差:当二项分布接近正态分

布时,在n次二项试验中成功事件出现

次数的平均数为标准差为,二项分布的

应用:除了用来求成功事件恰好出现X

次的概率之外,在教育中主要用来判断

试验结果的机遇性与真实性的界限。

正态分布是一种连续型随机变量

概率分布。正态曲线的函数:

正态曲线的特点:曲线在Z=0()

处为最高点。曲线以Z=0处为中心双

侧对称。曲线最高点向左右缓慢下降,

并无限伸延,但永不与基线相交。标准

正态分布上的平均数为0标准差为1,

基线上Z从-3至+3,6个标准差距

离间几乎包含了全部(99.73%)面积,

曲线从最高点向左右延伸时,在正负1

个标准差之内既向下又向内弯,正负1

个标准差开始,既向下又向外弯。

正态曲线在测验记分方面的应用:

1、将原始分数转换成标准分数。标准

分数的优点:各科标准分数的单位是绝

对等价的;标准分数的数值大小和正

负,可以反映某一考分在团体中所处的

位置;确定录取分数线;确定等级人数;

品质评定数量化。

第章抽样分布及总体平均数推

平均数抽样分布的几个定理:1、

从总体中随机抽出容量为n的一切可能

样本的平均数之平均数等于总体平均

数2、容量为n的平均数在抽样分布上

的标准差,等于总体标准差除以n的平

方根。3、从服从正态分布的总体中,

随机抽取的容量为n的一切可能样本平

均数的分布也呈正态分布。4、虽然总

体不呈正态分布,如果样本容量较大,

反映总体和的样本平均数的抽样分布

也接近于正态分布。当总体标准差为已

知时,平均数抽样分布的标准差与样本

容量n的平方根成反比,即样本容量越

大,平均数抽样分布的标准差越小,当

样本容量n确定时,平均数抽样分布标

准差与总体标准差成正比,即总体数值

离差程度越大,平均数抽样分布的标准

差越大。抽样分布是统计推断的理论依

据。某种统计量在抽样分布上的标准差

称为该种统计量的标准误。标准误越

小,表明样本统计量与总体参数的值越

接近,样本对总体越有代表性,用样本

统计量推断总体参数的可靠度越大,所

以标准误是统计推断可靠性的指标。

样本平均数与总体平均数离差统

计量的形态:

分布与正态分布的相似之处:分布

基线上的值从--+;从平均数等于0

处,左侧值为正;曲线以平均数处为最

高向两侧逐渐下降,尾部无限伸延,永

不与基线相接,呈单峰对称形。区别之

处在于:分布形态随自由度的变化呈一

簇分布形态,分布的峰镲尖峭,尾长而

翘得高,在基线上分布的范围广,自由

度越小,分布范围越广。当自由度逐渐

3

增大时,分布逐渐接近正态分布。当自由度趋于无限大时,分布与正态分布重合。

第节总体平均数的估计根据样本信息对总体参数的有两种不同

形式:总体参数估计和假设检验。

总体参数估计的基本原理:根据样本统计量对相应总体参数所作的估计

叫总体参数估计,分为点估计(无偏性、有效性、一致性)和区间估计。当用某一样本统计量的值来估计相应总体参

数的值叫点估计。以样本统计量的抽样分布(概率分布)为理论依据,按一定概率要求,由样本统计量的值估计总体参数值的所在范围。

区间估计:

第节假设检验的基本原理利

用样本信息,根据一定概率,对总体参数或分布的某一假设作出气绝或保留

的决断,称为假设检验。

零假设是关于当前样本所属的总

体与假设总体无区别的假设。

备择假设是与零假设相反的假设,是研究者根据样本信息期待证实的假设,是根据样本信息否定了零假设时,应当采取的假设。统计推理采用的是反证法。

小概率事件:样本统计量的值(随机事件)在其抽样分布上出现的概率小于或等于事先规定的水平。显著性水平:统计学中把拒绝零假设的概率。显著性水平越高,越不容易拒绝零假设,推断的可能性就越大。统计决断的两类错误及其控制:第一类错误:假设真实而被拒绝,第二类错误:假设属伪而被保留。第一类错误的控制通过选择适当的显著性水平加以主动控制。后果非常严重的用较高的显著性水平,0.01 0.005,当拒绝一个属真的假设其后果不是严重的,选用较低的显著性水平0.05 0.1。控制第二类错误的概率的方法:利用已知的实际总体参数值与假设参数值之间大小关系,合理安排拒绝区域的位置。2、使样本容量增大。总体平均数的显著性检验

右侧检验

第章平均数差异的显著性检验

本章是根据两个样本平均数之差检验

两个相应总体平均数之差的显著性。根

据两个样本统计量的差异检验两个相

应总体参数差异的显著性,统计学上称

为差异显著性检验。

相关样本平均数差异的显著性检

验:两个样本内个体之间存在着一一对

应关系,这两个样本称为相关样本,分

为两种情况:配对组和对照组。小样本

大样本:用Z检验,公式同上。

独立样本平均数差异的显著性检

验:大样本:

独立小样本:

独立小样本方差不齐性时差异显

著性检验:

方差齐性检验:对两个总体的方差

是否有显著性差异所进行的检验。

两个独立样本的方差齐性检验:

两个相关样本的方差齐性检验:

第八章方差分

基本原理:方差分析的目的:平均

数差异的显著性检验,是对两个平均数

的比较,在比较多组平均数的时候,常

用方差分析综合性地确定几个平均数

差异的显著性。方差分析的功能就在于

对多组平均数差异的显著性进行检验

方差分析中的几个概念:实验中的

自变量称为因素。只有一个自变量的实

验称为单因素实验。有两个或两个以上

自变量的实验称为多因素实验。某一个

因素的不同情况称为因素的水平,包括

量差或质别两类情况,按各个水平条件

进行的重复实验称为各种处理。假如要

研究两种教材及三种教学法对学生学

习成绩的影响,该实验是双因素的实

验。一个因素是教材,它有两种水平,

另一个因素是教学方法,它有三种水

平。这个实验称为2*3的实验设计,共

有6种处理,若一个实验为2*2*2设计,

则表示该实验有三个因素,每个因素有

两种水平,共有8种处理。用方差分

析法检验某一因素对因变量的作用,称

为单因素方差分析。

完全随机设计的方差分析:为了检

验某一个因素多种不同水平间差异的

显著性,将从同一个总体中随机抽取的

被试,再随机地分入各实验组,施以各

种不同实验处理之后,用方差分析法对

这多个独立样本平均数差异的显著性

进行检验,称为完全随机设计的方差分

析。

相等的情况:组间平方和:

组内平方和:总平方

和:

组间自由度:

组内自由度:

总自由度:

不相等组间平方和:

组内平方和:总

平方和:

用进行组间与组内方差的F

检验

对多组平均数每对之间的差异进

行多重比较的方法,检验法最为常用。

各组n相等:

各组n不相等:

第节随机区组的设计的方差分析

在检验某一因素多种不同水平(即

不同实验处理)之间差异的显著性时,

为了减少被试间个别差异对结果的影

响,把从同一个总体中抽取的被试按条

件相同的原则分成各个组(称区组),

使每个区组内的被试尽量保持同质。在

对各区组施以多种实验处理之后,用方

差分析法对这多个相关样本平均数差

异所进行的显著性检验,称之为随机区

组设计的方差分析。

每一区组内被试的人数分配有以

下三种方式:

一个被试作为一个区组,所有的被

试都要分别接受各种实验处理。

每一区组内的被试的人数是实验

处理数的整数倍数。

区组内不是以个别被试为基本单

元,而是以一个团体为一个基本单元。

完全随机区组设计的方差分析

计算平方和:组内平方和解成区组

平方和及误差平方和

总平方和可分解成组间平方和、区

组平方和及误差平方和:

组间平方和:

区组平方和:

计算方差:组间方差:

区组方差:

误差方差:计算F

值:

区组差异显著性检验:

计算检验统计量的F值:

第节多组方差的齐性检验

哈特莱提出的最大F值检验法进

行齐性检验。

提出假

设::至少

有两个总体方差不相等

当各组n不相等时可用容量最大

一组n计算自由度。

第章总体比率的推断

总体平均数、方差的统计推断都是

对由测量而获得的、正态连续变量的数

据所进行的统计推断。对点计数据的统

计推断应采用总体比率的推断方法或

检验。

比率的抽样分布是二项分布。二项

概率分布是进行总体比率统计推断的

理论依据。总体比率标准误的估计量为

第节总体比率的区间估计

第节总体比率的假设检验一

个样本总体比率假设检验:

总体比率=为样本比率

两个独立样本比率差异的显著性

检验:

两个相关样本比率差异的显著性

检验:

第章检验

及其分布检验的特点:对样本的

频数分布所来自的总体分布是否服从

某种理念分布或某种假设分布所作的

假设检验,即根据样本的频数分布来推

断总体的分布。它与测量数据的假设检

验的不同在于:1、测量数据的假设检

验,其数据属于连续变量,而检验的数

据属于点计而来的间断变量。2、测量

数据所来自的总体要求呈正态分布,而

检验的数据所来自的总体分布是未知

的。3、测量数据的假设检验是对总体

参数或几个总体参数之差所进行的假

设检验;检验在多数情况下不是对总体

参数的检验,而是对总体分布的假设检

验。检验属于自由分布的非参数检验。

比率和比率之差的假设检验,是对

二项分布数据的假设检验。处理的是一

个因素分成两个类别,或是两个因素,

第个因素都分为两个类别的资料,它

最多只能同时比较两组比率的差异。而

检验可以同时处理一个因素分为多种

类别,或多种因素各有多种类别的资

料。所以,凡是可以应用比率进行检

验的资料,都可以应用检验。

检验统计量:

特点:1、具有可加性。2、值永

远是正值。3、值大小随实际频数与理

论频数差的大小而变化。单向表的检

一个自由度的检验:

各组的情况:

某组的情况:双向表的

检验:把实得的点计数据按两种分

类标准编制成的表就是双向表。在双向

表检验中,如果要判断两种分类特征,

即两个因素之间是否有依从关系,这种

检验称为独立性检验。在双向表检验

中,如果是判断几次重复实验的结果是

否相同,这种检验称为同质性检验。

第节四格表的检验:1、

当,或时,进行亚茨连续性校正:

第节相关样本四格表的检验:

若或时,

第十一章相关分析

第节相关的意义

正相关:两个变量的变化方向一一

致。负相关:两个变量的变化方向相

反。零相关:两上个变量值变化方向无

一定规律。从密切程度来看,无论两个

变量的变化方向是否一致,凡密切程度

高的称为强相关,一笛膜的为中度相

关,弱的为弱相关或低度相关。用来描

述两个变量相互之间变化方向及密切

程度的数字特征量称为相关系数。r

第节积差相关:当两个变量都是连

续变量,而且两者之间呈线性关系时,

表示这两个变量之间相关。使用条件

是:1、两个变量都是由测量获得的连

续性数据。2、两个变量的总体都呈正

态分布,或接近正态分布,至少是单峰

对称。3、必须是成对数据,而且每对

数据之间相互独立。4、两个变量之间

呈线性关系。5、要排除共变因素的影

响。6、样本容量。

积差相关系数:两个变量标准分数

乘积

之和除以n所得之商。

相关系数的等距转换及其合并:相

关系数不可以直接相加求和,因为它不

具有等距的单位。1、将各相关系数r

转换成Zr 2、求Zr的平均数

相关系数显著性检验的步骤及方

法:

一、条件下,

1、r的抽样分布接近于正态分

2、条件下将r转换成

Z r

、两个相对独立的样本相关系数差

异的显著性检验

第节等级相关:指以等级次序或以

等级次序表示的变量之间的相关。主要

包括斯皮尔曼二列相关及肯德尔和谐

系数。

斯皮尔曼等级相关:当两个变量值

以次序或以等级次序表示时,两个相应

总体并不一定呈正态分布,样本容量也

不一定大于30,表示这两变量之间的相

关称为等级相关。虽然X变量可视为正

态连续变量,但Y变量是按某种标准评

定的

等级,故

赋预等级。2、计算两个变量每对

所赋予的等级数之差D,及差数的平方

之和,即

检验方法:

肯德尔和谐系数:当多个(两个以

上)变量值以等级次序排列或以等级次

序表示,描述这向个变量之间的一致性

程度(即相关)的量。它常用来表示几

个评定者对同一组学生学习成绩等级

评定的一致性程度,或同一个评定者对

同一组学生的学习成绩用等级先后评

定多次之间的一致性程度。

无相同等级的情况:

3

2、有相同等

级:

相关系数的显著性检验:

第节质与量的相关:指一个变量为质,另一个变量为量,这两个变量之间的相关。主要包括二列相关、点二列相关、多系列相关。1、二列相关:当两个变量都是正态连续变量,其中一个变量被人为地划分成二分变量。使用条件:1、两个变量都是连续变量,且总体呈正态分布,或接近正态分布,至少是单峰对称分布。2、两个变量之间是线性关系。3、二分变量是人为划分的,其分界点应尽量靠近中值。4、样本容量应当大于80。

二列相关系数的计

算:检验:点二列相关:当两个变量其中一个是正态连续变量,另一个是真正的二分名义变量,有时一个变量虽然并非真正的二分变量,而是双峰分布的变量。

点二列相关系

数:检验:

3、多系列相关:当两个变量都是正态连续变量,其中一个变量按不同质被人为地分成多种类别(两类以上)的正态名义变量。表示正态连续变量与多类正态名义变量之间的相关。

第节品质相关:两个变量都是按质划分成几种类别,数据一般是点计数据。根据两个变量的性质及所分类别的多少,分为四分相关,Φ相关及列联相关。

四分相关:当两个变量都是正态连续变量,且两者呈直线关系,但两者都被人为地划分成二分变量。

Φ相关:当两个变量都是二分变量,无论是真正的二分变量还是人为的二分变量,这两个变量之间的关系,可以用Φ相关来表示,比四分相关要广泛。

检验:

列联相关:当两个变量均被人为地

分成两个以上类别,或其中一个变量被

分成两个以上类别。先求

出显著性

检验:

第十二章回归分析

相关表示两个变量之间的双向相

互关系。回归表示一个变量随另一个变

量作不同程度变化的单向关系。由一

个变量值估计、预测另一个变量值的准

确性,随这两个变量之间的相关程度而

变化。在存在相关的情况下,相关越高,

由一个变量值预测另一个变量值越准

确,误差越小。

第节一元线性回归指只有一个自

变量的线性回归。

最小二乘方法求回归系数:在配制

回归线时,回归系数(b)的确定原则

是使散布图上各点距回归线上相应点

的纵向距离平方和为最小,这种求b的

方法称为最小二乘方法。

求回归系数:由y估计

x:由x估计y:

求截距:由x估计

y:由y估计x:

一元线性回归方程检验的方法:1、

对回归方程进行方差分析。2、对两个

变量的相关系数进行与总体零相关的

显著性检验。3、对回归系数进行显著

性检验。

检验步骤:1、提出假设:H0:β

=0 H1:β≠0

计算检验统计量:由x估计y

确定检验形式:

统计决断:

测定系数:x和y

两个变量相关系数和平方等于回

归平方和在总平方和中所占的比率。

第节一元线性回归议程的应用:

回归方程主要是用来由自变量的值估

计预测因变量的值。这里的估计预测包

含两个方面,一方面是用样本的回归方

程推算因变量的回归值;另一方面是

根据样本的回归值估计预测因变量的

真值y。多元线性回归是指有两个或两

个以上自变量的线性回归。

第十三章非参数检验

假设检验的方法有两种:参数检验

(Z、t、F)根据样本的信息对相应的

总体参数(、σ、p)的假设检验。这

种检验是以样本所属的总体呈正态分

布,两个总体或几个总体方差齐性为假

定条件。它适应于等距变量和比率变量

的资料。非参数检验不仅适用于非正态

总体名义变量和次序变量的资料,而且

也适用于等距变量和比率变量的资料。

它不需要对两个总体方差作齐性的假

定,计算简单,适用于小样本资料。应

用范围较参数检验广泛,但其灵敏性和

精确度不如参数检验。

第节符号检验是通过对两个相

关样本的每对数据之差的符号进行检

验,以比较这两个样本差异的显著性。

1、小样本的情况:n<25时,可用查表

法进行符号检验。

检验步骤:

提出假设:H0:P(X1>X2)=P(X1

H1:P(X1>X2)≠P(X1

求差数,并记符号,较小的记为r,

实际的r值越大于r的临界值,差异越

不显著。

大样本的情况:当n>25时,二项

分布接近于正态分布。检验步骤:

提出假设:

H0:P(X1>X2)=P(X1

H1:P(X1>X2)≠P(X1

当r>时,则r-0.5,当r<时,

r+0.5,r表示n+与 n-中数值较小的一

个。

符号检验的优点是无须对所要检

验的两个总体分布形态以及方差的齐

性作任何假定,并且计算简单迅速,但

是它只考虑符号的正负,不考虑差数数

值的大小,因而失去了一部分样本所提

供的信息。对于同一组数据,除小样本

外,一般不采用符号检验。

第节符号秩次检验

为了克服符号检验的缺点,当比较

两个相关样本的差异时,,将两个样本

每对数据差的绝对值从小到大排列,并

赋予每一个差数以秩次(等级),然后

再给差数记上正负号。威尔科克逊

小样本:n<25时,可用查表法。

提出假设:

H0:P(X1>X2)=P(X1

H1:P(X1>X2)≠P(X1

2、计算每对数值的差数,但先不

记符号3、编秩次,差数为0不记,从

小到大顺序4、记号:按差数的正负,

给秩次记上+、-号5、求秩次和,较小

的一个用T表示。

二、大样本:n>25,二项分布接近

于正态。

1、提出假设:

H0:P(X1>X2)=P(X1

H1:P(X1>X2)≠P(X1

2、计算每对数值的差数,但先不

记符号3、编秩次,差数为0不记,从

小到大顺序4、记号:按差数的正负,

给秩次记上+、-号5、求秩次和,较小

的一个用T表示。

第三节秩和检验

当比较两个独立样本的差异时,可

以采用曼-惠特尼U检验法

小样本:当两个独立的样本容量

n1与n2都小于10,并且n1≤n2时,可将

两个样本的数据合在一起按数据从小

到大的顺序给每一个数据编秩次。计算

样本容量较小一组的秩次和,并用T表

示。

大样本:当两个独立的样本容量

n1与n2都大于10,T分布接近于正态。

提出假设:

H0:相同H1:不相同

将二者数字合在一起编秩次。3、

求秩和

中位数检验:次序变量数据常以中

位数作为集中量,以中分位距作为差异

量。对两个或几个独立样本中位数的比

较,可以采用非参数检验法。中位数的

检验将各组样本数据合在一起找出共

同的中位数,然后分别计算每个样本

在共同中位数上下的频数,再进行rc

表X2 检验。

两个样本中位数的检验

提出假设:

H0:相等H1:不相等2、求共

同的中位数3、统计中位数上下的频数

计算X2值:df=1,N<30可采用四格

表缩减校正公式

统计决断

二、多组中位数的检验:用3*2表的X2

缩减公式检验

1、提出假设:

H0:相等H1:不相等

求共同的中位数3、统计中位数上

下的频数4、计算X2值:

第节单向秩次方差分析

对于几个独立样本差异的显著性,

可以用克鲁斯尔和沃利斯所提出的单

向秩次方差分析进行检验。这种方法又

称H检验法。它相当于对多组平均数所

进行的参数的方差分析。它是用秩次进

行的非参数的方差分析。

样本容量较小或组数较小的情况:

当各组容量n≤5,或者样本组数K≤3,

可用下式作为检验统计量。

N表示各组频数总和,n

(n1= n2= n3= )表示每个小组频数总

和.R表示每个组的秩次和

(R1= R2= R3= )

提出假设:

H0:相等H1:不相等

2、编秩次,求其和,分别计算各

组的秩次和,

样本容量较大或组数较多的情况

当样本容量n>5或样本组数K>3时,可

进行X2检验

与X

2值比较。(df=K-1)

第节双向秩次方差分析:单向秩

次方差分析是处理几个独立样本的资

料,双向秩次方差,是处理几个相关样

本的资料。

样本容量较小及实验次数较少的

情况当样本容量n≤9,K=3;n≤4,K=4

时,用公式:

1、提出假设:H0:相等H1:不

相等

2、编秩次,求其和,分别计算各

组的秩次和,

样本容量较大或实验次数较多的

情况

当K=3,n<9;K=4,n>4,或K>4

时,X2r的抽样分布接近于df=K-1的

X2的分布。于是可以用X2近似处理:

X

2(df=K-1)

第十四章抽样设计:推断的可靠

性与以下几种因素有关:①数据的质

量,即所获得数据能否准确映所观察或

测试的某种属性的实际情况;②运用统

计方法及数据处理的准确性;③样本对

总体的代表性。可见,抽样设计既是教

育科研定量分析中的首要环节,又是关

系到统计推断可靠性的重要因素。而样

本对总体的代表性,既涉及到抽样的方

式,又涉及到样本的容量。

第节抽样的方法:

单纯随机抽样:如果总体中每个个

体被抽到的机会是均等的,(即抽样的

随机性),并且在抽取一个个体之后总

体内成份不变(抽样的独立性)。这种

抽样方法称为单纯随机抽样。

抽签法:先将总体中每一个个体都

编上号码,再将每个号码写在签上,将

签充分混合后,从中抽取n个(样本容

量)签,与被抽到的签号相应的个体就

进入样本。随机数目表法随机数骰子

法,计算器随机数法。

机械抽样:把总体中的所有个体按

一定顺序编号,然后依固定的间隔取样

(间隔的大小视所需样本容量与总体

中个体数目比率而定)。机械抽样比单

纯随机抽样能够保证抽到的个体在总

体中的分布比较均匀,而单纯随机抽样

比机械抽样的随机性强。

分层抽样:按与研究内容有关的因

素或指标,先将总体划分成几部分(即

几个层),然后从各部分(即几个层)

中进行单纯随机抽样或机械随机抽样。

原则是各层内部的差异要小,层与层之

间的差异差异要大。1、按各层的人数

比率分配:当总体σ未知时,从各层

所抽的人数比率都应当等于样本容量n

与总体

N之比:2、最优配置法:在从各

层抽取对象时,既考虑各层人数比率,

又考虑各层标准差大小。

3

在标准差大的层里所抽的人数比

率大,标准差小的层里抽到的人数比率小。

整群抽样:从总体中抽出来的研究对象,不是以个体作为单位,而是以整群为单位的抽样方法。

第节总体平均数统计推断时样本容量的确定:统计推断的可靠度及准确性的提高与样本容量的增大不呈直线

关系。推断的可靠度及准确性不是随样本容量的增大按比率增设。样本容量增到一定程度,可靠度及准确性增高的速度开始放慢。

由样本平均数估计总体平均数时

样本容量的确定

当总体σ已知时,样本平均数离差的统计量呈正态分布其统计量为

样本容量计算公式为:

总体σ未知的情况:当总体标准差未知,样本平均数与总体平均数离差统计量呈t分布

df=n-1

样本平均数与总体平均数差异显

著性检验时样本容量的确定

总体σ已知的情况:(单侧)

(双侧)

第节总体比率统计推断及相关系数显著性检验时样本容量的确定:

当总体比率接近0.5,随n的增大,样本比率的抽样分布趋向正态,这时总体比率可近似下式进行估计:

第章因素分析

因素分析是一种多元统计分析方法。由英国心理学家斯皮尔曼率先提出。目的在于用最少的因素来最大限度地概括、解释原观测变量间的关系及结构,以提示事物间的内在本质联系。根据因素分析的不同目的,可分为探索性及验证性因素分析。探索性因素分析对于所抽取的因素个数、内容、性质、结构事先没有预定的假设,而是根据因素分析的结果,建立新的理论构架。验证性因素分析是依据一定的理论对于所

抽取的因素内容、性质、结构事先提出明确的预期假设,分析的目的是对某种理论经构架的验证。

因素分析的根本任务就在于求由

因素负荷构成的因素负荷矩阵A。初始

因素负荷矩阵的求法:对角因素分析、

群因素分析、开心因素分析、主因素法、

主成分析等,最普遍的是主因素法。求

因素负荷A涉及到因素负荷的求解、变

量共同度的估计及公共因素个数的确

定。变量共同度最常用的的估计方法:

最大相关估计法、复相关系数平方估计

法。公共因素个数的确定:1、根据几

个公共因素所对应的特征值的累积百

分比来确定。2、以特征值是否大于或

等于1为标准,小于1者不选。3、碎

石检验。

旋转变换及因素:旋转的方式有两

种:正交旋转及斜交旋转,正交旋转就

是在因素轴旋转之后,因素轴之间仍保

持互相正交(垂真),它们间的夹角为

90度,。正旋转的方法有:四次方最大

法,方差最大法,等量最大法。最广泛

的是方差最大法。

因素斜交是普遍的,因此对因素进

行斜交旋转符合自然规律。在斜交旋转

中因素间的夹角可以是任意的,即因素

之间可以是相关的。一个完全的斜交解

必须包括模型矩阵和结构矩阵。在斜交

旋转中目前使用最为广泛的是普洛克

斯斜交旋转法。

因素计分:因素分析可划分为两类

问题,一类问题是研究如何以假设的公

共因素的线性组合来表示观测变量,在

于将多变量Z综合成少数指标F。另一

类问题是研究如何以已知的观测变量

的线性组合来表示假设的公共因素。这

种由变量的观测值来估计被试个体在

公共因素上得分的方法称为因素计分。

其估计方法一般用多元线性回归。

3

相关主题