医学统计学总结
绪论
1、随机现象:在同一条件下进行试验,一次试验结果不能确定,而在一定数量的重复试验之后呈现统计规律的现象。
2、同质:统计学中对研究指标影响较大的,可以控制的主要因素。
3、变异:同质基础上各观察单位某变量值的差异。
数值变量:变量值是定量的,由此而构成的资料称为数值变量资料或计量资料,其数值是连续性的,称之为连续型变量。
变量无序分类变量:所分类别或属性之间无顺序和程度上的差异分类变量:定性变量
有序分类变量:有顺序和程度上的差异
4、总体:根据研究目的确定的同质研究对象中所有观察单位某变量值的集合。可以分为有限总体和无限总体。
5、样本:是按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。样本代表性的前提:同质总体,足够的观察单位数,随机抽样。
统计学中,描述样本特征的指标称为统计量,描述总体特征的指标称为参数。
6、概率:描述随机事件发生的可能性大小的一个度量。若P(A)=1,则称A为必然事件;若P(A)=0,则称A为不可能事件;随机事件A的概率为0<P<1.
小概率事件:若随机事件A的概率P≤α,则称随机事件A为小概率事件,其统计学意义为:小概率事件在一次随机试验中认为是不可能发生的。
统计描述
1、频数分布有两个重要的特征:集中趋势和离散程度。频数分布有对称分布和偏态分布之分。后者是指频数分布不对称,集中趋势偏向一侧,如偏向数值小的一侧为正偏态分布,如偏向数值大的一侧为负偏态分布。
2、常用的集中趋势的描述指标有:均数,几何均数,中位数等。
均数:适用于正态或近似正态的分布的数值变量资料。样本均数用x表示,总体均数用μ表示。
几何均数:适用于等比级数资料和对数呈正态分布的资料。注意观察值中不能有零,一组观察值中不能同时有正值和负值。
中位数:适用于偏态分布资料以及频数分布的一端或两端无确切数据的资料。
3、常用的离散程度的描述指标有:全距,四分位数间距,方差,标准差,变异系数。
全距:任何资料,一组中最大值与最小值的差。
四分位数间距:适用于偏态分布以及分布的一端或两端无确切数据资料。
方差和标准差:正态分布资料。标准差表示观察值的变异度的大小。
变异系数:比较度量单位不同或均数相差悬殊的两组资料的变异度。
4、标准正态分布:对正态分布的(X-μ)/σ进行u的变换,u=(X-μ)/σ,则正态分布变换为μ=0,σ=1的标准正态分布,亦称u分布。u被称为标准正态变量或标准正态离差。
两个参数:μ是位置参数,σ是形状参数。用N(0,1)表示标准正态分布。
常用估计医学参考值范围的方法有:
(1)正态分布方法:适用于正态或近似正态分布的资料。
双侧界值:X±uσ/2S 单侧上界:X+uσS,或单侧下界:X-uσS
(2)对数正态分布方法:适用于对数正态分布资料。
双侧界值:Lg-1(X lgx±uσ/2S lgx )单侧上界:Lg-1(X lgx +uσS lgx),
或单侧下界:Lg -1(X lgx -u σS lgx )
(3)百分位数法:用于偏态分布资料以及资料中一端或两端无确切数值的资料。
双侧上界:P 2.5和P 97.5;单侧上界:P 95,或单侧下界:P 5
常用的u
值表 5、分类变
量资料的统计描述:常用相对数指标描述,包括:率,构成比,相对比。
率:说明某现象发生的频率或强度。(病死率不等于死亡率)
构成比:说明某现象内部组成部分所占的比重或分布,常以百分数表示。
相对比:亦称比,是A 、B 2个有关指标之比,说明A 为B 的若干倍或百分之几。两个
指标可以性质相同,也可以性质不同。
应用相对数时的注意事项:
1、计算相对数的分母不宜过小;
2、分析时不能以构成比代替率;
3、对观察单位数不等的几个率,不能直接相加求其平均率;
4、比较相对数时应注意其可比性;
5、对样本率(或构成比)的比较应遵循随机抽样,并做假设检验。
6、标准化法:标准化的目的在于消除混杂因素对结果的影响,使资料更具有可比性。其基本思想是:将所比较的两组或多组资料的构成按统一的“标准”调整后,计算标化率,使其更具有可比性。
标准化率的计算方法:亦称标化率,直接法用于已知被标化组的年龄别率,以及已知标准组的
参考值范围(%) 单侧 双侧
80 0.842 1.282
90 1.282 1.645
95 1.645 1.96
99 2.326 2.576
年龄别人口数或年龄别人口构成比时;间接法用于已知被标化组的年龄别人口数与发病(死亡)总数,但年龄别率未知,以及已知标准组年龄别发病(死亡)率与总发病(死亡)率时。
通常可从下列3种方法选用标准组:①以两组资料中任一组的年龄别人口数或构成比作为标准组;②以两组资料合并的各年龄组的人口数或构成比作为标准组;③以公认的或便于与他人资料比较的标准作为标准组。
7、统计表:
结构:由标题、标目、线条和数字构成。
编制统计表的要求:
①标题:概括表的内容,列于表的上方居中,应注明时间和地点;
②标目:主语和谓语分别列于横、纵标目,文字简明,层次清楚。横标目列于表的左侧,通常为被研究的事物,纵标目列于表的上端,为说明横标目的统计指标。
③线条:通常,除表的顶线、底线、纵标目下以及合计上的横线外,其余线条均省去,顶线和底线应略粗些,表的左上角不宜用斜线。
④数字:用阿拉伯数字表示,同一指标的小数位数要一致并对齐,数字暂缺或无数字者分别用“…”或“-”表示,数字为0者要记作“0”,不应空项,为方便核实和分析,应有合计。
⑤备注:一般不列入表内,必要时可用“*”标出,列于表下。
8、统计图:
①条图:用于相互对比关系的资料;
②圆图与百分条图:适用于百分构成比资料,表示事物各组成部分所占的比重或构成;
③线图:用于连续性资料,用于说明事物在时间上的发展变化,或某现象随另一现象而变动的情况;
④直方图:表示连续性资料的频数分布;
⑤散点图:适用于直线相关分析,说明两个变量间的数量关系和变化趋势。
抽样分布与参数估计
抽样研究的目的是用样本信息来推断总体特征,即统计推断,包括两个内容:一是总体参数的估计,二是假设检验。
1、抽样误差:由于变异的存在,抽样研究所造成的样本统计量与总体参数之间的差异或各样本统计量之间的差异称为抽样误差。
常用标准误x σ反映均数抽样误差的大小;用率的标准误σp 反映率的抽样误差的大小;用Possion 计数的标准误μ反映其抽样误差的大小。
2、中心极限定理和正态分布推理:从正态分布N (μ,σ2)总体中以固定n 随机抽取样本,样本均数x 的分布仍服从正态分布,即使是从偏态分布总体中随机抽样,只要n 足够大,x 的分布也近似正态分布。样本均数的均数仍为μ,样本均数的标准差为x σ。 样本均数的抽样误差x σ(简称标准误)是反映均数抽样误差大小的指标。
x σ =n σ
用样本均数S 作为σ的估计值,则x s =n S
3、t 分布:将x 看成变量值,那么可将正态变量进行u 变换(u=x -μ/σ)后,也可将N (μ,σ2
x )变换成标准正态分布N (0,1)。常用s 作为σ的估计值,统计量为t ,此分布为t 分布。
统计量 t=x
s x μ- t 曲线的形态变化与自由度v 的大小有关。v 越小,t 值越分散,曲线越低平,v 逐渐增大时,则t 分布逐渐逼近正态分布,当v=无穷大时,t 分布即为u 分布。
x 估计总体均数μ;二是区间估计,亦称可信区间。
(1)σ未知且n 小:x -t α/2,v s x <μ<x +t α/2,v s x
(2)σ未知,但n 足够大,t 分布逼近u 分布:x -u α/2s x <μ<x +u α/2s x
(3)σ已知:x -u α/2σx <μ<x +u α/2σx
标准差和标准误的比较
标准差 标准误 S=1)
(2--∑n x x x s =n s
表示观察值的变异程度大小 估计均数的抽样误差大小
计算变异系数CV=?x
s 100% 估计总体均数可信区间 x -t α/2,v s x <μ<x +t α/2,v s x
确定医学参考值的范围 进行假设检验
计算标准误
数值变量资料的假设检验
1、假设检验的原理:假设在一次抽样研究中得出了u ≥1.96,则P ≤0.05,此为小概率事件,依据“小概率事件在一次随机试验中认为是不可能发生的”的定理,可认为此样本不是来自该总体。
2、步骤:①建立假设和确定检验水准;假设有两种,一种是检验假设,常称无效假设或零假设,记为H 0,假设样本所代表的总体参数与已知总体参数相等;另一种是备择假设,记为H 1,是与H 0相联系且对立的假设;检验水准,亦称显著性水准,是判断拒绝或不拒绝H 0,也是允许犯Ⅰ型错误的概率,通常用0.05。
②选定检验方法和计算统计量③确定P 值,做出推断结论。P 值是指从H 0所规定的总体中随机抽样时,获得等于及大于现有样本统计量的概率。
3、t 检验:适用于:①样本均数与总体均数比较(σ未知且n <50或n <30);②成组设计的
两小样本均数的比较(n 1,n 2均小于30或50);③配对设计的两样本均数比较。
应用条件:①当样本含量较小(n <50或n <30)时,要求样本来自正态分布总体;②用于成组设计的两样本均数比较时,要求两样本来自总体方差相等的总体。
4、单样本t 检验:用于样本均数与已知总体均数的比较,研究目的是推断样本所代表的总体均数μ与已知总体均数μ0有无差别。统计量t= n /s 0
μ-x v=n-1
5、配对t 检验:用于配对设计资料的两均数的比较。其研究目的是推断某种处理有无作用,或两种处理的效果有无差别。
配对设计类型有3种:①先将受试对象按配比条件配对,然后用随机分组方法将各对中的2个受试对象分别分配到不同的处理组;②同一对象分别接受2种不同处理;③同一对象处理前后。t=n /s d
d (d 是差值的样本均数)v=n-1
6、两样本t 检验:用于完全随机设计的两样本均数的比较,两个样本来自两个总体,其研究目的是推断两样本所分别代表的总体均数是否相等。 t=2121x x S x x --=)11(21221n n s x x c +-=)11(2)1()1(212122212121n n n n n s n s x x +-+-+-- v=n 1+n 2-2
7、单样本u 检验:用于样本均数与已知总体均数比较,其研究目的同t 检验。研究目的是推断样本所代表的总体均数μ与已知总体均数μ0有无差别。其统计量 u=n /s 0
μ-x
8、两样本的u 检验:用于完全随机设计的两样本均数的比较,两个样本来自两个总体,其研究目的是推断两样本所分别代表的总体均数是否相等。其统计量为: u=2
121x x s x x --=22212121//n s n s x x +- 9、正态性检验和方差齐性检验:资料在做假设检验之前首先应该检验资料是否来自正态总体,
并且它们的方差是否齐。
10、两类错误:
Ⅰ型错误:拒绝了实际上成立的H0,即样本来自μ=μ0的总体,由于抽样的偶然性,按α=0.05检验水准拒绝了H0,接受H1。这类在假设检验中拒绝了原本正确的H0的错误称为Ⅰ型错误。,理论上犯Ⅰ型错误的概率为α,α值得大小视研究目的而定。通常设α=0.05。
Ⅱ型错误:不拒绝了实际上不成立的H0, 即样本来自μ≠μ0的总体,由于抽样的偶然性,按α=0.05检验水准不拒绝H0,这类在假设检验中不拒绝原本不正确的H0的错误称为Ⅱ型错误。犯Ⅱ型错误的概率为β,它只有与特定的H1结合起来才有意义。
同时减少α和β的方法是增加样本含量。1-β称为检验效能或把握度,即两总体确有差别时,按α水准能识别该差别的能力。如1-β=0.95表示:若两总体确有差别,理论上平均100次抽样中,有95次能得出两总体有差别的结论。
11、假设检验时应注意的事项:
①要有严密的抽样研究设计---假设检验的前提
②正确选用检验方法:完全随机的设计的两数值变量资料比较时,若n小且方差齐,则选用两样本t检验;若方差不齐,则选用t检验或成组设计的两样本比较的秩和检验;若n1,n2均大于50,则选用两样本u检验。
③正确理解“显著性”的含义
④对差别有无统计学意义的判断不能绝对化。
方差分析
1、基本思想:按研究目的和设计类型,将总变异的离均差平方和SS和自由度v分别分解成若干部分,并求得各相应部分的变异。其中的组内变异或误差主要反映个体差异或抽样误差,其它部分的变异与之比较得出统计量F值,由F值的大小确定P值,并作出推断,从而了解
该因素对观测指标有无影响。
组内变异主要由个体差异所致,组间变异可能由两种原因所致:一是抽样误差,二是由于接受的处理不同。
2、总离均差平方和SS 和自由度v
SS 总=∑∑==-k i n j ij i x x 12
1)(=n x x /)(22∑∑-
v 总=n-1
3、组间离均差平方和SS 组间,自由度v 组间和均方MS 组间
SS 组间=n x n x k i i n j ij i ∑∑∑-==211)()(2 v 组间=k-1 MS 组间=组间组间
v SS
4、组内离均差平方和SS 组内,自由度v 组内和均方MS 组内
SS 组内=SS 总-SS 组间 v 组内=n-k MS 组内=SS 组内/v 组内
多样本均数比较的方差分析的应用条件:①各样本是相互独立的随机样本;②各样本来自正态分布总体;③各总体方差相等,即方差齐。
5、完全随机设计资料的方差分析:亦称单因素的方差分析,可用于完全随机设计的多个样本均数比较的资料,研究目的是推断各个样本所代表的总体均数是否相等。
单因素方差分析的计算公式
变异来源 SS v MS F
总变异 C x
-∑2 n-1 组间变异 C n x k i i n j ij i -∑∑==121)( k-1 组间组间v SS 组内组间MS MS
组内变异 SS 总-SS 组间 n-k SS 组内/v 组内
*C 为校正系数 C=n x /)(2∑
6、配伍组设计资料的方差分析:亦称两因素的方差分析,用于配伍组设计的多个样本均数比较的资料,其研究目的是推断各样本所代表的总体均数是否相等,但考虑了个体差异对试验效应的影响。
两因素方差分析的计算公式
变异来源 SS v MS F
总变异 C x
-∑2 n-1 处理组 C b x k i b
j ij -∑∑==121)( k-1 SS 处理/v 处理 MS 处理/MS 误差
配伍组 C k x b j k i ij -∑∑==121)( b-1 SS 配伍/v 配伍 MS 配伍/MS 误差
误差 SS 总-SS 处理-SS 配伍 (k-1)(b-1) SS 误差/v 误差
*C 为校正系数 C=n x /)(2∑ b 为配伍组数
分类资料的假设检验
1、二项分布:应用条件:
⑴各观察单位只能具有两种相互对立的结果
⑵已知发生某结果的概率为π,其对立结果的概率为1-π
⑶n 次试验是在相同的条件下进行的。
性质:μ=n π σ=π)π(-1n