搜档网
当前位置:搜档网 › 医学统计学公式总结

医学统计学公式总结

医学统计学公式总结
医学统计学公式总结

一 资料的描述性统计

(一)算术均数(mean)

(1)简单算术平均值定义公式为(直接法):

(2)利用频数表计算均数(加权法):

(二)方差(即标准差的平方)

(三)变异系数

二 参数估计与参考值范围

(一)均数的标准误 (二)样本率的标准误 (p 为样本率)

(三)T 分布 (u 为总体均数)

(四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间)

(五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围:

s u x a 2/±

单侧1-a 参考值范围:

s u x a ->或s u x a +<

(可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书)

三 T 检验与方差分析

(一)T 检验

(1)单样本T 检验

n

x

n x x x x x n ∑=

++++=

321∑∑=

++++++++=f fx

f f f f x f x f x f x f x k k k 3213322111

)(2

2--=

∑n x x s 22

2()/1

x x n

s n -=

-∑∑%100?=

x

s

CV n

s s x =

n

p p s p )

1(-=n s x t μ-=x

x s t x s t x ναναμ,2/,2/+<<-p

p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0

u 的正态总体)

统计量t 值的计算:

(2)配对T 检验

检验假设:

统计量t 值的计算:

(d 为两组数据

的差值,Sd 为差值的标准差) (3)两样本T 检验

检验假设:

统计量t 值的计算:

其中

两样本方差齐性检验 (即为两样本方差的比值)

(二)单因素方差分析

SS MS F SS MS νν=

=

B B B

W W W

(1)完全随机设计资料的方差分析

这里 (T 即为该组数据之和)

(2)随机单位组设计资料的方差分析

SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差

μμ=:H 1

,/0

0-=-=-=

n n

s x s x t x νμμ0210==-μ

μμ:H d d t s μ-==

1

-=n ν210μμ=:H 2

1)()(2121x x s

x x t ----=μμ2

21-+=n n ν

?

??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1

2

2-=n ν组内组间总SS SS SS +=组内

组间总ννν+=2()/C x N =∑ij j

T x =

(两种方差分析的主要区别在于:从组内变异中分解出单位组变异与误差变异。)

四 列联表分析 卡方检验

基本公式 其中 ν=(R-1)(C-1)

(不太常用,理解)

(一)四格表资料的卡方检验

(1)两样本率的比较 四格表专用公式

校正公式

(后面为四格表专用校正公式,注意使用条件) Fisher 确切概率法大家自己掌握

(2)配对四格表 (校正公式)

(二)行×列表的 卡方检验

基本公式 ν=(R-1)(C-1)

(三)双向无序资料的关联性检验

列联系数C 取值范围在0~1之间。0表示完全独立;1表示完全相关;愈接近于0,关系愈不密切;愈接近于1,关系愈密切。

(四) 多个样本率间的多重比较

每一个两两比较的检验水准:

注意:1、有1/5以上格子的理论频数小于5;

2、一个理论频数小于1;

3、总样本例数小于40

当有以上三种情况或之一存在时,均不适宜进行卡方检验

表5-7 随机单位组设计资料的方差分析表 来源

SS ν MS

F

处理组间 C T SS i

n B -∑=2

11 11-=k B ν 11B B SS ν E B MS MS 1 单位组间 C B SS j k B -∑=212 12-=n B ν 22B B SS ν E B MS MS 2 合计 C x SS T -∑= T

T T A 2

2

)(-∑=χN

n n T C R RC ?=)

)()()(()(22

d b c a d c b a N bc ad ++++?-=

χT

T A 2

2

)

5.0(--∑

=χ)

)()()(()2/(22d b c a d c b a N N bc ad ++++?--=

χ1

,)(22

=+-=νχc b c b 1,)1(22

=+--=νχc b c b )1(22

-=?∑C

R n n A N χ2

2

χχ+=

n C 比较的次数

α

α='

()()

122

/1'-=

-=

k k k k α

α

α

五 非参数统计 秩和检验

(一)配对样本比较的秩和检验

当n ≤25时,按秩和检验结果查表可得

当n>25时,正态近似法做u 检验

绝对值相同的数较多时,用校正公式 (j t 为第j 个差值的个数)

(二)两独立样本比较的秩和检验

超出附表范围时,按正太近似法计算

平均秩次较多时,应进行校正

(三)H 、M 检验属于理解内容

六 回归与相关

(一)直线回归方程的求法

yy l 的分解: 222

)?()?()(Y Y Y Y

Y Y -+-=-∑∑∑

方差分析

T 检验

24

)12)(1(5.04)1(++-+-=

n n n n n T u 48

)

(24)12)(1(5.04)1(3

∑--

++-+-=

j j t t n n n n n T u 12

/)1(5

.02/)1(211+-+-=

N n n N n T u c

u u c

=

)()(13

3N N t t c j

j ---=∑

XX

XY l l

X X Y Y X X b =---=

∑∑)

())((X

b Y a -=XX XX XY XY l b l l bl SS 22

/===回XX

XY l l b /=剩

剩剩回回MS MS SS SS F =

=υυ2

1-==n 剩回,υυ

b

S b t 0-= , 2-=n υ

b S =

Y X S ?=

=

SY.X 为回归的剩余标准差,反映了y 在扣除x 的影响后的离散程度;Sb 为样本回归系数标准误。

(二)直线回归方程的区间估计

(1)总体回归系数β的可信区间 b n S t b )2(,2/-±α

(3)个体Y 值的容许区间

公式中Y X

S ?为剩余标准差,为了简化计算,当

X 与X 接近且n 充分大时,可用

Y X

S ?代替

?

Y Y S -。

(三)相关系数的计算

这里

(1)相关系数的假设检验

(2)总体相关系数r 的可信区间

(2) 的估计

Y

?

μ?Y X

Y S S ?=??/2,2/2,2??(,)n n Y Y

Y t S Y t S αα---+YY

XX XY l l l y y x x y y x x r =

----=

∑∑∑2

2

)

()())((n

X X

X X /)()(22

2

∑∑∑-=-n

Y

X XY Y Y X X ∑∑∑∑-

=--)()(2

102

--=-=

n r r

S r t r 2

-=n υ??/2,2/2,2??(,)n n Y Y

Y Y Y t S Y t S αα-----

+?Y X

Y Y S S ?-=

1)首先对r(r不是正态分布)作如下Z转换

2)计算Z 的(1- α)可信区间

3)对计算出的Z 的上下限作如下变换,得到r 的(1- α)可信区间

(3)相关系数与回归系数的相互换算

(4)等级相关系数的计算

d --每对观察值Xi 、Yi 所对应的秩次Ui 、Vi 之差; n --对子数。

等级相关系数的假设检验

当 查rs 界值表 当 按下式计算统计量

服从自由度为n-2的t 分布,查t 界值表。

(注:文档可能无法思考全面,请浏览后下载,供参考。可复制、编制,期待你的好评与关注)

)

1()1(ln

21tanh 1r r z r z -+=

=-或)

3/,3/(2/2/-+--n z n z ααμμ1

1

)tanh(22+-==z

z e e r z r

或r =YX

XY b b r =2)

1(6122--

=∑n n d r s 2

/12--=

n r r t s s

r s 50≤n 50>n s

r t

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计学-名词解释

统计学 1.医学统计学: 是运用统计学原理和方法研究生物医学资料的搜集、整理、分析和推断的一门学科。(医学研究的对象主要是人体以及与人体的健康和疾病相关的各种因素) 2.同质: 性质相同的事物成为同质的,否则成为异质的或间杂的。 (观察单位间的同质性的进行研究的前提,也是统计分析的必备条件,缺乏同质性的观察单位的不能笼统地混在一起进行分析的) 3.变异: 是指在同质的基础上各观察单位(或个体)之间的差异。 4.总体: 总体是根据研究目的所确定的同质观察单位的全体。 5.样本: 样本是从总体中随机抽取的部分个体。(样本中包含的个体数称为样本含量) 6.随机: 即机会均等,是为了保证样本对总体的代表性、可靠性,使各对比组间在大量不可控制的非处理因素的分布方面尽量保持均衡一致,而采取的一种统计学措施。(包括抽样随机、分组随机、实验顺序随机) 7.统计量: 由样本所算出的统计指标或特征值称为统计量。(反映样本特性的有关指标) 8.参数: 总体的统计指标或特征值称为参数。 (总体参数是事物本身固有的、不变的,为常数) 9.抽样误差: 从某总体中随机抽取一个样本来进行研究,而所得样本统计量与总体参数常不一致,这种由抽样引起的样本统计量与总体参数间的差异称为抽样误差。这种在抽样研究中不可避免。(抽样误差有两种表现形式:①样本统计量与总体参数间的差异②样本统计量间的差异)10.概率: 描述事件发生可能性大小的一个度量,常用P表示,取值为0≤P≤1。 11.频率: 用随机事件A发生表示观察到某个可能的结果,则在n次观察中,其中有m次随机事件A发生了,则称A发生的比例0≤f≤1为频率。显然有 f = m / n 12.小概率事件: 当某事件发生的概率小于或等于0.05时,统计学上称该事件为小概率事件,其涵义为该事件发生的可能性很小,进而认为其在一次抽样中不可能发生。(为进行统计推断的依据) 13.定量资料: 以定量值表达每个观察单位的某项观察指标,如血脂,心率等。 14.定性资料: 以定性方式表达每个观察单位的某项观察指标,表现为互不相容的类别或属性,如血型、性别等。 15.等级资料: 以等级表达每个观察单位的某项观察指标,如疗效分级、血粘度、心功能分级等。

医学统计学

第一单元概述 1. 研究设计应包括那几方面内容?答:包括:专业设计和统计设计。专业设计是针对专业问题进行的研究设计,如选题、形成假说等。统计设计是针对统计数据 收集和分析进行的设计,如样本来源、样本量等。统计设计是统计分析的基础。任何设计上的缺陷,都不能在统计分析阶段弥补和纠正。 第二单元资料描述性统计 1. 描述计量资料的集中趋势和离散趋势的指标有哪些?各指标的适用范围如何?答:集中趋势的指 标有:算术均数、几何均数、中位数。算术均数适用于描述对称分布资料的集中位置,尤其是正态分布资料;几何均数用来描述等比资料和对数正态分布资料的集中位置;中位数可用于任何资料。描述离散趋势有:极差、四分位数间距、方差、标准差和变异系数。极差和四分位数间距可用于任何分布,但两个指标都不能反映变异程度;方差和标准差常用于资料为近似正态分布;变异系数可用于多组资料间量纲不同或均数相差较大时变异程度间的比较。 2. 变异系数和标准差有何区别和联系? 答:区别: 1.计算公式不同:CV=S/X*100% ,标准差是方差的平方根。 2.单位不同:变异系数无量纲,标准差量纲和原指标一致。 3.用途不同。联系:都是适用于对称分布的资料,尤其是正态分 布的资料,并且由公式所知,在均数一定时,CV 与s 呈正比。 3. 频数表的用途有哪些? 答: 1.描述资料的频数分布的特征; 2.便于发现一些特大或特小的可疑值; 3.将频数表作为 陈述资料的形式,便于进一步的统计分析和处理; 4.当样本量足够大时,可以以频数表作为 概率的估计值。 4. 用相对数时应注意哪些问题? 答:1.在实践工作中,应注意各相对数的含义,避免以比代率的错误现象。2.计算相对数时分母应该有足够的数量,如资料的总数过少,直接报告原数据更为可取。 3.正确计算频数指 标的合并值。4.相对数的比较具有可比性。5.在随机抽样的情况下,从样本估计值推断总体相对数应该考虑抽样误差,因此需要对相对数指标进行参数估计和假设检验。 第三单元医学统计推断基础 1. 正态分布和标准正态分布的联系和区别?答:联系:均为连续型随机变量分布。区别:标准正态 分布是一种特殊的正态分布(均数为0,标准差为1)。一般正态分布变量经标准化转换后的新变量服从标准正态分布。 4. 简述二项的应用条件? 答:条件为: 1.每次试验只会发生两种互斥的可能结果之一,即两种互斥结果的概率之和为1;2.每次试验产生某种结果固定不变; 3.重复试验是相互杜立的,即任何一次试验结果的出现不会影响其他试验结果的概率。 5. 简述Q-Q 图法的基本原理? 答:U-变换可以把一个一般正态分布变量变换为标准正态分布变量,反之,U-变换的逆变 换也可以把一个标准正态分布变量变换为一个正态变量。Q-Q 图法实际上就是首先求的小于某个x 的积累频率,再通过该积累频率求得相应的u 值,如果该变量服从正态分布,则点(u,x)应近似在一条直线上(u —变换直线),否则(u, x)不会近似在一条直线上。Q —Q图法正是根据(u, x)是否近似在一条直线上来判断是否为正态分布。 第四单元参数估计与参考值范围的估计 1. 均数的标准差和标准误的区别和联系?答:区别和联系:标准差是描述个体值变异程度的指标, 为方差的算术平方根,该变异不能 通过统计方法来控制;而标准误则是指样本统计量的标准差,均数的标准误实质上是样本均

医学统计学总结

医学统计学总结 一、绪论 1,医学统计学:运用概率论与数理统计学得原理与方法,研究医学领域中随机现象有关数据得搜集、整理、分析与推断,进而阐明其客观规律性得一门应用科学。 2,医学统计学得主要内容: 1) 统计研究设计调查研究设计与实验研究设计 2) 医学统计学得基本原理与方法研究设计与数据处理中得基本统计理论与方法。A:资料得搜集与整 理 B:常用统计描述,集中趋势与离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计与假设检验。 3)医学多元统计方法多元线性回归与逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、 logistic回归与Cox回归分析。 3,统计工作步骤: 1) 设计明确研究目得与研究假说,确定观察对象与观察单位,样本含量与抽样方法,拟定研究方案,预 期分析指标,误差控制措施,进度与费用。 2) 搜集材料 A, 搜集材料得原则及时、准确、完整 B, 统计资料得来源医学领域得统计资料得来源主要有三个方面。一就是统计报表,二就是经常性工作记录,三就是专题调查或专题实验。 C, 资料贮存 3) 整理资料 a检查核对b设计分组c拟定整理表d归表 4) 分析资料统计分析包括统计描述与统计推断 4,同质(homogeneity):指被研究指标得影响因素相同。 变异(variation):同质基础上得各观察单位间得差异。 变量(variable):收集资料过程中,根据研究目得确定同质观察单位,再对每个观察单位得某项 特征进行测量或观察,这种特征称为变量 变量值:变量得观察结果或测量值。 5,总体(population) 根据研究目得所确定得同质研究对象中所有观察单位某变量值得集合。总体 具有得基本特征就是:同质性 样本(sample) 从总体中随机抽取部分观察单位,其变量值得集合构成样本。样本必须具有代表 性。代表性就是指样本来自同质总体,足够得样本含量与随机抽样得前提。 统计量(statistics)描述样本变量值特征得指标(样本率,样本均数,样本标准差)。 参数(parameter)描述总体变量值特征得指标(总体率,标准差,总体均数)。

医学统计学符号-公式-重点

第一章 医学统计中的基本概念 1、医学统计学是研究医学数据的收集、整理、分析、解释和呈现其结果的一门学科。 2、个体:研究的基本观察单位。 3、变量:用于观察研究对象的指标。 4、观察值:个体变量的数值。 5、资料:又称为数据,由变量的观察值构成。 变异:个体观察值之间具有 的差异。 变异和同质是对统计学数据 的要求! 变异是统计学研究的真正对 象! 统计学是研究变异规律的科 学! 同质:个体观察值之间的变 异在允许范围内。 异质:个体观察值之间的变 异超出允许范围。 一、总体、抽样、样本、参数、统计量 总体:同质的个体所构成的全体研究对象。总体同时具有同质和变异两个特点。 有限总体:总体中的个体 数量是有限的。 无限总体:总体中的个体 数量是无限的。 样本:从总体中随机抽取 的部分个体。 样本量:样本所包含的个

体数目。 参数:刻画总体特征的指标。 统计量:刻画样本特征的指标。 抽样:从总体中随机抽取部分个 体的过程。抽样具有代表性、随机性、可靠性、可比性; 原则:代表性:样本能充分反映 总体特征。 随机性:保证总体中每个个体都有相同的几率被抽样。 随机性是代表性的保证; 生活中随机性的例子(思考题); 计数资料计量资料 (分类资料)资料 等级资料(有序多分类资料) 二分类资料 无序多分类资料 计量资料:由连续变量的观察值构成的资料。对每个观察对象的观察指标用定量方法测定其数值大小 所得的资料,一般有度量衡单位,例如年龄、身高、 血糖。 计数资料:由离散变量的观察值构成的资料。先将 观察对象的观测指标按性 质或类别进行分组,然后 计数各组的数目所得的资料,例如性别、患病、血型。 等级分组资料:由等级变量的观测值构成的资料。具有计数资料的特征,同

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity):对研究指标有影响的非实验因素相同。 4 总体(population):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter):总体的设计指标称为参数。 统计量(statistic):样本的统计指标称为统计量。 6 变量(variable):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean)简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G)适用于倍数关系变化,经对数转换后呈正态分布(如:抗体滴度, 血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -( n x f ∑lg ) 三 中位数(M)与百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距与频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距与频数,L f 为x P 所在组段之前各组段的累积频数

预防医学与医学统计学总结

绪论 进和维护健康,预防疾病、失能和早逝 二.预防医学特点:1.工作对象包括个体及确定的群体,主要着眼于健康和无症状患者;2研究方法注重微观和宏观相结合,但更侧重于影响健康的因素与人群的关系;3.采取的对策更具积极的预防作用,具有较临床医学更大的人群健康效应。 三.健康决定因素:指决定个体和人群健康状态的因素。包括:1、社会经济环境。2、物质环境3.个人因素。4卫生服务。 四.三级预防策略:1.第一级预防:又称病因预防,即防止疾病的发生。2.第二级预防:在疾病的临床前期做好早起发现、早期诊断、早起治疗的“三早”预防工作,以控制疾病的发展和恶化。3.第三级预防:对已患某些病者,采取及时的、有效的治疗措施,防止病情恶化,预防并发症和伤残,延长生命。 第一章流行病学概论 进健康的策略和措施的科学。 流行病学定义涵:1.流行病学的研究对象时人群。2.流行病学关注的事件包括疾病与健康状况。3.流行病学主要研究容是:(1)揭示现象(2)找出原因(3)评价效果。4.流行病学研究和实践的目的是防治疾病、促进健康。 二.流行病学基本原理:1.分布论。2.病因论。3.健康-疾病连续带。4预防控制理论(三级预防理论)5.数理模型。6.流行病学的几个基本原则:(1)群体原则(2)现场原则(3)对比原则(核心)(4)代表性原则 三.流行病学的用途:1.描述疾病及健康状况的分布。2.探讨疾病的病因。3.研究疾病自然史,提高临床诊断、治疗水平和预后评估。4.疾病的预防控制及其效果评价。5.流行病学分支。 第二章疾病分布 的存在方式及其发生、发展规律。 二.疾病分布的测量指标:1.发病率:指在一定期间(一般为1年)特定群中某病新病例出现的频率。 病频率的测量(日、周、旬、月),常用于疾病暴发或流行时的调查。 例。患病率=发病率*病程。 病的人数占所有易感接触者总数的百分率。 5.死亡率:指在一定时间期间(通常为1年),某人群中死于某病(或死于所有原因)的频率。死亡率是测量入群死亡危险最常用的指标。 6.病死率:表示一定时期,患某病的全部病人中因该病死亡者所占的比例。 三.疾病的分布形式(“三间分布”) 1.地区分布:疾病的地方性:由于自然环境和社会因素的影响而使一些疾病无需从外地输入,只存在于某一地区,或在某一地区的发病率水平总是较高,这种现象称为疾病的地方性。 2.时间分布 3.人群分布:出生队列分析:将同一时期出生的人划归为一组称为一个出生队列,对其随访观察若干年,观察死亡等情况。 4.判断疾病地方性的依据:(1)该病在当地居住的各群组

医学统计学总结

医学统计学总结 一。绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学. 2,医学统计学的主要内容: 1) 统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法.A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验. 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析. 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B, 统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项 特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 变量类型变量值表现实例资料类型 数值变量离散型 定量测量值,有计量单位产前检查次数 计量资料 连续型身高 分类变量无 序 二分类对立的两类属性性别(男女) 计数资料多分类不相容的多类属性血型(A,B,O,AB) 有 序 多分类类间有程度差异的属性受教育程度(小学,中 学,高中,大学…)等级资料5,总体(population) 根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代表性.代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

常用医学统计学方法汇总

选择合适的统计学方法 1 连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t 检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t 检验;(2)采用非参数检验,如Wilcoxon 检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t '检验;(2)采用非参数检验,如Wilcoxon 检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t 检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon 的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果 为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe 法,SNK 法等。 1.3.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal -Wallis 法。如 果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用成组的Wilcoxon 检验。 1.4 多组随机区组样本比较 1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。 1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman 检验法。如果 检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用符号配对的Wilcoxon 检验。 **** 需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。** 绝不能对其中的两 组直接采用t检验,这样即使得出结果也未必正确**

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某项特 征进行测量或观察,这种特征称为变量 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。

医学统计学-知识梳理

均数±标准差:表示集中位置、离散程度均数±标准误:表示平均水平、抽样误差大小P75 一、标准差的主要作用是估计正常值的范围 实际应用中,估计观察值正常值范围应该用标准差(s),表示为“Mean±SD”。此写法综合表达一组观察值的集中和离散特征的变异情况,说明样本平均数对观察值的代表性。s 的大或小说明数据取值的分散或集中。s与样本均数合用, 主要是在大样本调查研究中, 对正态或近似正态分布的总体正常值范围进行估计。如果不是为了正常值范围估计,一般不用。当数据与正态分布相差很大,或者虽为正态分布, 但样本容量太小(小于30 或100),也不宜用估计正常值范围。 二、标准差还可用来计算变异系数(CV) 当两组观察值单位不同, 或两均数相差较大时,不能直接用标准差比较其变异程度的大小, 须用变异系数系数来做比较。: 标准误的正确使用 一、标准误用来衡量抽样误差的大小和了解用样本平均数来推论总体平均数的可靠程度。在抽样调查中,往往通过样本平均数来推论总体平均数,样本标准误适用于正态或近似正态分布的数据, 是主要描述小样本试验中,样本容量相同的同质的多个样本平均均数间的变异程度的统计量。即如果多次重复同一个试验, 它们之间的变异程度用。显然它越小,样本平均数变异越小,越稳定,用样本平均数估计总体均数越可靠。因此,为说明它的稳定性、可靠性或通过几个对几组数据进行比较(这是科研论文中最常见的),应当用描述数据。实际应用中应该写成“平均数±标准误”或而英文表示为“Mean±SE”的形式。 二、标准误还可以进行总体平均数的区间估计与点估计(置信区间)。 根据正态分布原理,与合用还可以给出正态总体平均数的可信区间估计即推论总体平均数的可靠区间,例如常用(其中 (n-1) 为样本容量是n的t界值)表示总体均值的95%可信区间, 意指总体平均数有95%的把握在所给范围内。 三、标准误还可用来进行平均数间的显著性检验,从而判断平均数间的差别是否是由抽样误差引起的。例如:某当地小麦良种的千粒重=34克,现在从外地引入一新品种,通过多小区的田间试验得到千粒重的平均数=克,问新引进品种千粒重与当地良种有无显著差异新引进品种千粒重与当地良种有无显著差异实质是判断与的差别是否是有田间试验是抽样误差引起,所以要进行显著性检验,这里用t测验进行检验,而,由于,故,所以认为新引进品种千粒重与当地良种千粒重的不同是由于田间试验是抽样 误差引起,因此他们之间无显著差异。所以在进行平均数间的显著性检验是必须用到。 总之,标准差和标准误最常用的统计量,二者都是衡量样本变量(观察值) 随机性的指标,只是从不同角度来反映误差,二者在统计推断和误差分析中都有重要的应用。如果没有标准差,人们就无法看出一组观察值间变异程度有多大,这些数字到底有无代表性,如果没有标准误又很难看出我们的样本平均数是否可以代表总体平均数。所以二者都非常重要。 定量资料的统计描述:

医学统计学公式整理 简洁版

集中趋势的描述 算术均数: 频数表资料(X0为各组段组中值) n fX f fX x O O ∑∑∑== 几何均数: n n X X X G ...21= 或 ) log ( log 1 n X G ∑-= 频数表资料: ? ?????=????????=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)* 2 1 +=n X M (2) ) (21* 12*2++= n n X X M 百分位数 ?? ? ??-?+ =L X X f n X f i L P 100其中:L 为欲求的百分位 数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为 该组段的的频数 , L f 为该组段之前的累计频数 方差: 总体方差为:式(1); 样本方差为 式(2) (1) N X 2 2 )(μσ-∑= (2) 1)(2 2--∑= n X X S 标准差: 1)(2--∑= n X X S 或 1/)(22-∑-∑= n n X X S 频数表资料计算标准差的公式为 1/)(22-∑∑∑-∑= f f fx fx S 变异系数:当两组资料单位不同或均数相差较大时,对变异 大小进行比较,应计算变异系数 %100?= X S CV 常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化 N p N p i i ∑= ' ∑=i i p N N p )(' 2.间接法标准化 预期人数实际人数= SMR ∑=i i P n r SMR S M R P P ?=' 正态分布:密度函数: )2/()(2221)(σμπ σ--= X e X f 分布函数: 小于X 值的概率,即该点正态曲线下左侧面积 )()(x X P x F <= 特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。(5)曲线下面积分布有一定规律 标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换 σ μ-= X u ,u 服从总体均数为0、总体标准 差为1的正态分布。 u 值左侧标准正态曲线下面积为标准正态分布函数,记作 )(u Φ 医学参考值的确定方法:(1)百分位法:双侧(P 25,P 975),单侧P 95以下或P 5以上,该法适用于任何分布型的资料。(2)正态分布法:若X 服从正态分布,双侧医学参考值范围为 S X 96.1± 样本均数标准误的估计值为 X s = t 分布的概念:小样本总体标准差未知时,服从自由度为n-1 的t 分布 X X X t s μ-= 总体均数可信区间的计算: 大样本或总体标准差已知:式(1); 小样本:式(2) (1)n S X ? ±96.1 (2)n S n t t ?±-)1(,05.0(前一个t 表示均数) 单样本t 检验: n S X t /0 μ-= 自由度为 n-1; 配对样本t 检验: 检验统计量: n S d t d /0-= 自由度为n-1(n 为对子数) 两样本t 检验:检验统计量: ) 11(2 12 1n n S X X t c +-= (错: Sc 的平方) 2 )()(2)1()1(21222211212 222112-+-+-= -+-+-= ∑∑n n X X X X n n S n S n S c 方差齐性检验:H 0:两总体方差齐,H 1:两总体方差不齐,α=0.1 检验统计量: (较小)(较大)2 2 2 1 S S F = 分子自由度为n 1-1,分母自由度为n 2-1 方差分析的基本思想: 1、总变异:总离均差平方和: 2() 1 T ij i j SS SS X X N νν=-==-∑∑总总= ∑∑-=N X X ij ij /)(22 ∑=N X C ij /)( 2 2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。 21() 1 B i i i SS SS n X X k νν-==-∑组间组间== = C n X i i ij -∑ ∑2 )( 3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。 222()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 2()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 1(1)()N k N k ννν=-=-+-=+总组间组内 组间均方与组内均方比值一般地服从分子自由度为ν1,分母 自由度为ν2的F 分布 12 1 MS F k N k MS νννν= ==-==-组间 组间组内组内 , 二项分布的概率函数P (X ): X n X X n C X P --=)1()(ππ; )! (!!X n X n C X n -= 二项分布的均数和标准差:进行n 次独立重复试验,出现X 次阳性结果 X 的总体均数为πμn = 总体方差为)1(2ππσ-=n 总体标准差为)1(ππσ -=n 如果将阳性结果用频率表示 n X p = 率的总体均数 π μ=p 标准差 n p ) 1(ππσ-= n p p n p p S p )1(1 ) 1(-≈--= 又称率的标准误它反映率的抽样误差的大小。 单侧累积概率计算:出现阳性的次数至多为k 次的概率为 ∑∑ ==---==≤k X k X X n X X n X n X P k X P 0 0)1()! (!! )()(ππ 出现阳性的次数至少为k 次的概率 ∑∑ ==---==≥n k X n k X X n X X n X n X P k X P )1()! (!! )()(ππ 率的可信区间的估计 正态近似法:当)1(,p n np - 均大于等于5时 n p p p n p p P )1(96.1,)1(96.1-+-? - 样本率与总体率的比较: 检验假设H 0:π=π0,H 1:π≠π0 1 . 满足正态近似时,计算检验统计量 ) 1(000 πππ--= n n X Z 或 n p Z ) 1(000 πππ--= 2. 不满足正态近似时用直接概率计算法 两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量: ) 1 1)(1(| |2121n n p p p p Z c c +--= 2121n n X X p c ++= Poisson 分布的概率函数为 ! )(X e X P X λλ -= POISSON 分布的应用: 单侧累计概率计算:稀有事件发生次数至多为k 次的概率为 ∑∑==-==≤k X k X X X e X P k X P 0 ! )()(λλ 发生次数至少为k 次的概率为 )1(1)(-≤-=≥k X P k X P 总体均数的区间估计:正态近似法 95%总体均数的可信区间为X X X X 96.1,96.1+- 样本率和总体率的比较 正态近似法: 当满足正态近似条件时, 对检验假设 H0:λ=λ0,H1:λ≠λ0, 检验统计量为 λ λ-= X Z 两组独立样本资料的Z 检验 :当两总体均数都大于20时, 对检验假设H0:λ1=λ2, H1:λ1≠λ2,当两样本观测单

医学统计学选择题大全

医学统计学常见考题 1. 要反映某市连续5年甲肝发病率的变化情况,宜选用 C A.直条图 B.直方图 C.线图 D.百分直条图 2. 下列哪种统计图纵坐标必须从0开始,D A. 普通线图 B.散点图 C.百分分直条图 D.直条图 3. 关于统计表的列表要求,下列哪项是错误的?A A.横标目是研究对象,列在表的右侧;纵标目是分析指标,列在表的左侧B.线条主要有顶线、底线及纵标目下面的横线,不宜有斜线和竖线 C.数字右对齐,同一指标小数位数一致,表内不宜有空格 D.备注用“*”标出,写在表的下面 4. 医学统计工作的基本步骤是 C A.统计资料收集、整理资料、统计描述、统计推断 B.调查、搜集资料、整理资料、分折资料 C.设计、搜集资料、整理资料、分析资料 D.设计、统计描述、统计推断、统计图表

5. 统计分析的主要内容有B A. 描述性统计和统计学检验 B.统计描述和统计推断 C.统计图表和统计报告 D.描述性统计和分析性统计 6 制作统计图时要求D A.纵横两轴应有标目。一般不注明单位 B. 纵轴尺度必须从0开始 C.标题应注明图的主要内容,一般应写在图的上方 D. 在制作直条图和线图时,纵横两轴长度的比例一般取5:7 7. 痊愈、显效、好转、无效属于C A. 计数资料 B. 计量资料 C. 等级资料 D.以上均不是 8. 均数和标准差的关系是D A.愈大,s愈大 B.愈大,s愈小 C.s愈大,对各变量值的代表性愈好 D.s愈小,对各变量值的代表性愈好 9. 对于均数为,标准差为的正态分布,95%的变量值分布范围为B A. - ~ + B. -1.96~ +1.96 C. -2.58 ~ +2.58 D. 0 ~ +1.96

医学统计学公式总结

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间) (五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围: s u x a ->或s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 n x n x x x x x n ∑= ++++= 321∑∑= ++++++++=f fx f f f f x f x f x f x f x k k k 3213322111 )(2 2--= ∑n x x s 22 2()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ-=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 其中 两样本方差齐性检验 (即为两样本方差的比值) (二)单因素方差分析 SS MS F SS MS νν= = B B B W W W (1)完全随机设计资料的方差分析 这里 (T 即为该组数据之和) (2)随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 μμ=:H 1 ,/0 0-=-=-= n n s x s x t x νμμ0210==-μ μμ:H d d t s μ-== 1 -=n ν210μμ=:H 2 1)()(2121x x s x x t ----=μμ2 21-+=n n ν ? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内 组间总ννν+=2()/C x N =∑ij j T x = ∑

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

几则很有趣的医学统计学故事

几则很有趣的医学统计学故事 医学统计学是一门很奇妙的科学。要说它简单吧,其实也挺简单的,常见的统计方法也就十余种,在教科书上都能找到,只要熟练掌握了,虽不敢夸下海口说可以“以秋风扫落叶的气概横扫四海之内的杂志”,但足以轻车熟路地应付99%的科学研究。要说它复杂吧,也挺复杂的,毫不夸张地说,绝大部分国内期刊,甚至在很多低分SCI杂志上,乱用统计学的现象多如牛毛。 很多同行在学习医学统计学时,都在抱怨自己很难走出“一学就会,一会就用,一用就错,一错就懵”的怪圈。究其原因,主要是部分同行学习医学统计学时都抱着一副“依葫芦画瓢”的态度,试图“套用统计学方法”来解决自己面临的问题,而不去仔细思考统计学方法的来龙去脉。本文拟谈几则与医学统计学相关的故事,希望能帮助大家从宏观上正确认识医学统计学这门科学。 1、两个指标诊断疾病的问题 路人甲做了一个研究,旨在比较两个指标(A和B)对肝癌的诊断价值。路人甲以A和B 的参考范围上限作为诊断界值,得出了A和B在该界值下对应的诊断敏感性和特异性。结果表明,A的诊断敏感性为0.80,特异性为0.90;B的诊断敏感性为0.85,特异性为0.87。路人甲很快撰写论文报道了自己的研究成果,指出B诊断肝癌的敏感性高于A,而特异性低于A。 路人乙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见中写道:就敏感性而言,B高于A;就特异性而言,A高于B。诊断敏感性和特异性与所采用的界值密切相关,作者得出的敏感性和特异性仅仅代表了一个诊断界点下面的诊断效能,无法从全局上反映A和B的诊断价值。文章的结论到底是想说明A优秀还是B优秀呢?Reject! 这个故事说明:统计指标选错了,统计出来的东西往往难以“自圆其说”。 稿件被退了,路人甲有些许郁闷。经过认真学习科研设计与统计学知识后,路人甲终于明白了一个问题:两个指标诊断性能的比较是不能比较敏感性和特异性的,而应该比较ROC的曲线下面积,因为曲线下面积才是衡量整体诊断效率的最佳指标。路人甲很快绘制了ROC 曲线,统计结果表明,A的曲线下面积为0.80,B的曲线下面积为0.82。路人甲欣喜若狂,赶紧动笔写论文,并且理直气壮地给文章定了一个结论:B的诊断效率是优于A的,其理由就是因为B的曲线下面积大于A。 路人丙是这篇文章的审稿人,当他看见这个结论后,脸色铁青,毫不犹豫地在审稿意见中写道:从表面上看,B的曲线下面积高于A,但是导致这种差异的原因有两种,一种是抽样误差,一种是试验效应,即B确实是高于A的。你怎么能确定这不是抽样误差呢?在统计学上,要确定0.82是否高于0.80,就一定要经过统计学检验的。Reject! 这个故事说明:在医学科研中,没有经过统计学检验的结论多半是不科学的。

相关主题