搜档网
当前位置:搜档网 › 常用医学统计学方法汇总

常用医学统计学方法汇总

常用医学统计学方法汇总
常用医学统计学方法汇总

选择合适的统计学方法

1连续性资料

1.1 两组独立样本比较

1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。

1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。

1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon 检验。

1.2 两组配对样本的比较

1.2.1 两组差值服从正态分布,采用配对t检验。

1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。

1.3 多组完全随机样本比较

1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。

1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。

1.4 多组随机区组样本比较

1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果

为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。

1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。

****需要注意的问题:

(1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。

(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**

(3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。2.分类资料

2.1 四格表资料

2.1.1 例数大于40,且所有理论数大于5,则用普通的Pearson 检验。

2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的检验或Fisher’s确切概率法检验。

2.1.3 例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验。

2.2 2×C表或R×2表资料的统计分析

2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。

2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的Wilcoxon秩和检验。

2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。

2.3 R×C表资料的统计分析

2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。(3)如果要作相关性分析,可采用Pearson相关系数。

2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。

2.2.3 列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。

2.2.4 列变量&行变量均为有序多分类变量,(1)如要做组间差别分析,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差别,还可进一步作两两

比较,以说明是否任意两组之间的差别都有统计学意义。(2)如果要做两变量之间的相关性,可采用Spearson相关分析。

2.4 配对分类资料的统计分析

2.4.1 四格表配对资料,(1)b+c>40,则用McNemar配对检验。(2)b+c<40,则用校正的配对检验。

2.4.1 C×C资料,(1)配对比较:用McNemar配对检验。(2)一致性检验,用Kappa检验。

在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同

两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.

Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;

计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。

计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用spearman或kendall相关

Pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析Kendall 复选项等级相关计算分类变量间的秩相关,适用于合并等级资料

Spearman 复选项等级相关计算斯皮尔曼相关,适用于连续等级资料

注:

1若非等间距测度的连续变量因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关

2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用Spearman 或Kendall相关。

3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。

在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:

Pearson

Kendall's tau-b

Spearman:Spearman

spearman(斯伯曼/斯皮尔曼)相关系数

斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”

斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对

的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究

Kendall's相关系数

肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。

肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记0.5。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。

正态分布的相关检验

对来自正态总体的两个样本进行均值比较常使用T检验的方法。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时用的计算T值的公式不同。

进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。P值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。

U检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体方差通常是已知的。

虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。

均值检验时不同的数据使用不同的统计量

使用MEANS过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与Descriptives过程不同之处。

检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程。

检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程。

如果分组样本不独立,用Paired Sample T test 配对t检验。

如果分组不止两个,应使用One-Way ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。

如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test.

如果用户相比较的变量是分类变量,应该使用Crosstabs功能。

当样本值不能为负值时用右侧单边检验

医学科研中常用医学统计学方法

统计学是一门透过同质事物的变异性、揭示内在事物规律性和实质性的科学,确切地讲,是一门关于客观数据分析的科学,研究数据的收集、整理和分析,包括理论和应用两个方面。医学应用统计学,侧重于实际应用,是在传承和借鉴传统医学统计学“理论·原理·公式·应用”模式基础上,创造性地以“目的·数据库一变量类型一变量间关系”模式为指导的统计学。

它遵循简单实用的原则,力避复杂的数学原理和公式推导,以解决实际问题为导向,以建立统计数据库、分清变量类型为基础,以分析变量与变量间关系为核心阐述统计学分析方法,对于广大医学科研工作者,具有内容简单、思维明确、操作可行、方法实用的特点。因此,学好用好医学应用统计学需要掌握如下一些基本方法。

一、明确研究目的和研究设计

研究目的是研究设计的目标和方向,科学研究的基本要素及其基本原则是科研设计的基础和指南。完整的科研设计包括专业设计和统计设计两部分:专业设计是指课题的实际意义和研究价值,入选对象的诊断标准、纳入标准及排除标准等,决定研究课题的先进性和实用性;统计设计包括选择研究类型与设计方案,确定研究总体、样本量、观察指标、随机化分组或抽样方法,以及数据的质量控制和统计分析方法等,影响课题的可信度和科学价值。

因此,正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。

在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。

所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。

二、建好分析用的数据库

数据库即存放数据的“仓库”,是指将不同研究对象不同观测指标的观察结果逐一有序记录的二维表格形式。二维表中除第一行属于观察指标外,其余每一行代表一个观察对象的所有观察指标值(即数据);每一列代表某项观察指标所有观察对象的观察值。严格的数据库数据可以直接应用相关软件进行统计分析。

由于不同软件对文字存在可识别性问题,一般在统计分析时要求数据库的数据值全部用阿拉伯数字表示,必要时可在适当位置附加批注。对于论文作者来讲,统计分析需要借助于统计分析软件计算,而统计分析软件都要有完整、符合要求的数据或数据库,所以建好分析数据库是统计分析的需要。

此外,建好分析数据库还可以理清分析思路。在试验或调查研究中获取的数据有时多而零散,如果不能进行科学的整理汇总,就会显得杂乱无章,理不清头绪,抓不住要点,甚至无所适从,最后可能束之高阁、弃之不用,造成数据的极大浪费。相反,建好数据库,可以使观察对象的研究指标一目了然,使研究思路清晰明确。

因此,建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数x、标准差s 或中位数M、百分位数Px 的“二手”数据,或将研究对象的某一指标按其数值大小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。

无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求

作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义。

三、分清楚指标(或变量)的性质和类型

指标,即观察指标,是由研究目的确定的观察对象的内在属性特征或其相关的影响因素。例如,需要研究本体感觉训练对脑卒中偏瘫患者运动功能(本体感觉、平衡功能)的影响,那么本体感觉、平衡功能反映了脑卒中偏瘫患者运动功能的特征,分别称为研究的本体感觉指标、平衡功能指标,影响本体感觉和平衡功能的有关因素,比如年龄、性别、病种、病程等,称为研究的年龄指标、性别指标、病种指标和病程指标。

变量即观察变量,也称变化的量,实际上就是观察指标,一般特指用于数学、统计或软件计算的分析指标。例如,脑卒中偏瘫患者运动功能的本体感觉、平衡功能指标,在统计计算时,分别称为本体感觉变量和平衡功能变量。

按变量是否影响其它变量或是否受到其它变量的影响有影响变量和结果变量之分。影响变量,也称自变量,是指自身变化并影响结果变量变化的量;结果变量,又称因变量,是指随影响变量变化而变化的量,看作是影响变量变化的结果。

如果分析康复训练对冠心病患者有氧运动功能的影响,那么康复训练可看作是影响变量,有氧运动功能则为结果变量;如果分析不同性别之间冠心病患者有氧运动功能是否存在统计学差异,那么性别是影响变量,有氧运动功能是结果变量。分清楚变量的性质,即什么是结果变量、什么是影响变量,是选择统计分析方法的第一步。

一般而言,那些相对固有的、不易改变的特征(如性别、籍贯等)或易于被人控制的处理因素(如实验分组、疫苗接种与否等)作为影响变量或影响因素;而那些容易变化、较难确定的观察效应或结局(如疗效、患病与否等)作为结果变量,看成是最后观察的结果。但影响变量和结果变量的划分是相对的,视研究目的和具体情况而定,有时甚至不加区分。

从数据库、数据分析的角度来看,变量是指那些能反映数据库数据的内在数量关系,可用于统计计算包括软件计算的指标。一般而言,不同的研究目的决定了不同的数据库,实际上决定了组成数据库的不同变量。变量的类型分为数值变量和分类变量。

数值变量,又称定量变量,是指能用定量方法测定的、具有数值大小、高低或多少的指标,变量值一般有度量衡单位,可以带小数点,如身高、体重、血压等;分类变量,又称定性变量,是指能用定性的方法确定的、观察单位某项属性或特征分类的指标。根据分类变量的分类项数和各项数间有无等级程度差异分为二项分类变量、多项无序分类变量、多项有序分类变量,如表1。

表1分类变量的不同类别与举例

从应用统计学选择统计分析方法的角度考虑,变量可考虑分为数值变量、多项有序分类变量、多项无序分类变量、二项分类变量四种。此外,不同类别变量可遵循下列顺序转化:数值变量一多项有序分类变量一多项无序分类变量一- 项分类变量,称为降级转化,但这种转化过程会不断丧失蕴藏的数据信息,导致统计分析过程中假阴性结果的不断增加。

至于逆向转化即升级转化,尽管理论上认同,但实际应用中不建议采用。

很多研究表明,掌握好统计分析的应用条件,正确选择统计分析方法是学习并应用统计学的一个突出难点。

对于医学论文作者而言,分清楚数据库中变量的性质(影响变量与结果变量)、类型(数值变量、多项有序分类变量、多项无序分类变量、二项分类变量)以及它们之间的降级转化关系(数值变量一多项有序分类变量一多项无序分类变量一二项分类变量)是学好用好应用统计分析的基础,可以有效避免张冠李戴、缺乏原则地选错统计分析方法;对于文章的编审和读者来说,这是判断作者正确选择统计学分析方法与否的一个简单有效的途径。

四、正确选用统计学方法

应用统计学(严格而言是指统计学的假设检验)可以简单地看作是一门关于结果变量与影响变量之间关系分析的科学。

由于结果变量(因变量)、影响变量(自变量)各有4 种类型,所以相互组合有16 种情形,相对应的有16 种首选的统计分析方法(表2 中第一个或用☆表示的方法),如,二项分类变量与二项分类变量关系的分析选用两个率比较的X2 检验(四格表X2 检验),二项分类变量与多项无序分类变量关系的分析选用多个率比较的X2 检验,多项无序分类变量与二项分类变量关系的分析选用两个构成比比较的X2 检验,多项无序分类变量与多项无序分类变量关系的分析选用多个构成比比较的x2 检验.

数值变量与二项分类变量关系的分析选用t- 检验,数值变量与多项无序分类变量关系的分析选用完全随机设计的,F- 检验,数值变量与数值变量关系的分析选用Pearson 直线相关回归分析,等等。如果首选统计方法的条件不适合,一般通过降级转化选择“低”一级或“低”二级、三级的统计方法或其它统计方法。

如,t 一检验是数值变量与二项分类变量关系分析时首选的统计方法,如果该方法的条件不适合,此时将- 检验中数值变量“降级”当作多项有序分类变量看待,故可次选Wilcoxon 秩和检验,如果再“降级”,依次低选两构成比比较的x2 检验,甚至四格表X2 检验。

又如,如果Pearson 直线相关回归分析的条件不符合,可根据情况将其中的一个或两个数值变量“降一级”,选择Spearman 等级相关,如果再“降级”,相应可以选择秩和检验、Logistic 回归或者t 一检验、X2 检验,等等。其它仿此,详见表2。它涵盖了基本统计分析的绝大部分,是应用统计分析的核心内容。

当然,应用统计分析除了单一变量分析、两变量间关系的分析以外,其它诸如一个自变量和多个因变量、多个自变量和多个因变量之间关系的分析当属多变量关系分析的内容。

由于分类变量与数值变量各不相同,不同个数不同变量的组合方式多种多样,所以相应的统计方法也有很多种,主要有:1 个数值变量与多个数值变量之间的关系,如多元相关回归分析;1 个分类变量与多个数值变量之间的关系,如多因素方差分析、重复设计方差分析;l 个数值变量与混合多个变量之间的关系,如协方差分析、COx 模型;l 个分类变量与混合多变量之间的关系,如Logistic 回归分析;多个数值变量与多个数值变量之间的关系,如典则相关等。

表2 两变量关系分析的统计方法

因此,医学论文的作者,在分清楚数据库中分析变量的性质、类型和降级转化关系时,可以应用表2 迅速确定首选的统计方法以及备选或次选的统计方法,应用相关软件或计算工具快速实现统计分析。医学论文的编审和读者也可应用该表2,准确判断作者是否正确选择了统计学分析方法,甚至分析错误选择统计方法的原因与后果。

如,欲评价某种药物的降舒张压效果,试验组用该降压药、对照组不用药,假如测量的舒张压值符合t 检验的条件(正态分布、方差齐等),很明显该数据首选 f 检验的统计方法。如果降级转化可以选择Wilcoxon 秩和检验,如果降压效果转化为有效和无效两种情况,甚至可以选择四格表X2 检验。

但需要注意的是,如此降级选择统计方法,可能出现假阴性或漏诊错误,即把差异有统计学意义的结果(有降压效果)当作差异无统计学意义的结果(无降压效果)看待,从而低估药物的作用,在论文讨论中至少要加以必要的说明,否则统计方法不能视为正确有效,可作为退修或退稿处理。

五、熟悉常用的统计分析软件

统计分析软件是统计分析的必备工具,常用的统计分析软件有:统计分析系统SAS、社会学统计程序包SPSS、微软公司电子表格系统Microsoft Office Excel 等。

SAS(statistics analysis system) 是统计分析系统的英文缩称,最早由北卡罗来纳大学的两位生物统计学研究生编制,1976 年由SAS 软件研究所正式推出。SAS 完全针对专业用户进行设计,以编程为主。

其最大特点是分析模块调用,功能强大,深浅皆宜,简短编程即可同时对多个数据文件进行分析。但对一般用户而言,人机界面不太友好,最初编写使用程序时可能会存在各种难度。SPSS(statistical package for the social science) 是社会学统计程序包的英文缩称,20 世纪60 年代末由美国斯坦福大学的3 位研究生研制,1975 年由芝加哥sPss 总部推出。sPss 系统的最大特点是菜单操作,方法齐全,绘制图形、表格较为方便,输出结果比较直观。但其统计分析功能略显逊色,特别是难以同时分析处理多个数据文件。

Microsoft Office Excel 是美国微软公司开发的电子表格系统,是目前应用最为广泛的办公室表格处理软件之一。Excel 作为Office 软件的一员被众多用户所熟知,具有数据处理、

函数运算、数据库、图表制作等功能,进行统计分析时具有易得,快速、直观、简单、运算可视等优点,是建立数据库,并进行常用统计分析的好工具。

其中,SAS、sPss 是国际通用的统计分析计算软件。即便如此,不同软件仍各有利弊、互有长短,用户可根据需求和使用习惯,选择一种或几种软件进行数据分析。特别一提的是Microsoft Office Excel.由于其独特的优势,统计计算功能也逐渐得到开发应用,如Excel 统计分析程序等,必将得到广大科技论文作者、编审和读者认可与使用。

本文作者:陈青山孟晶杨剑周亚敏刘晓玲

本文出自:《中国物理医学与康复杂志》2014 年6 月第36 卷第6 期P483~485 选择统计方法一般可遵循以下步骤:研究目的→变量个数→设计类型→资料类型→样本个数→分析目的→分析方法→运算方法→形成报告。

计量资料应考虑以下两点:资料是否满足参数检验的应用条件;判定计量资料属于何种设计类型常用的统计指标及方法有:均数、几何均数、中位数标准差、方差、均数的标准误t检验、U检验、方差分析、T检验、多元方差分析、秩和检验、直线相关与回归分析、等级相关、曲线相关、多元线性相关与回归分析等。

在交代定量资料统计分析方法之前,一定要加上实验设计的名称,例如,采用成组设计定量资料的Wilcoxon秩和检验;采用单因素多水平设计定量资料的Kruskal-Wallis秩和检验;采用随机区组设计定量资料的Friedman秩和检验;采用成组设计定量资料的t检验;采用单因素多水平设计定量资料的方差分析;采用三因素析因设计定量资料的方差分析;采用具有一个重复测量的两因素设计定量资料的方差分析。当需要对多因素设计中的某个因素各水平下的平均值进行两两比较时,若因素之间的交互作用项具有统计学意义,不应简单地采用单因素多水平设计定量资料的q检验法LSD检验法或Dunnett检验法,而应建立在相应设计定量资料的方差分析基础之上。

计数资料应先分类汇总,清点观察单位数,编制分类资料的频数表,常用的统计指标及方法有:率、构成比、相对比、率的标准误、率的标准化法、率的卡方检验、一般检验、配对检验、拟合优度检验等一致性分析(Kappa值)。计数资料的统计方法主要针对四格表和RC表利用卡方检验进行分析。卡方检验的应用条件:成组四格表的卡方检验要求样本含量40,且理论频数不小于5;成组四格表的校正卡方检验要求样本含量40,但理论频数大于1且小于5;Fisher 确切概率法要求样本含量40,或理论频数小于1。

等级资料应先按等级顺序分类清点观察单位数,编制等级资料的频数表,常用的统计指标及方法有:率、构成比、秩和检验、等级相关等。等级资料中,组间构成比的比较用行、列表卡方检验,对于组间率的比较宜采用非参数秩和检验,并注意秩和检验校正值的计

算,对于两组等级资料比较,通常采用Wilcoxon秩和检验,而多组等级资料的比较采用KruskalWallis秩和检验。

在科技论文方法中要求给出分析所采用的统计方法(t检验F检验和x2等),结果中要给出P值(现在提倡给出精确的P值大小),以及根据样本信息计算的统计量值(t值F值和x2

值等),然后根据统计量值判定P值大小,对于P值的解释一定要结合专业知识,并且用两均数(率)之差的可信区间反映出实际差别的大小。

Welcome To Download !!!

欢迎您的下载,资料仅供参考!

常用医学统计学方法汇总

选择合适的统计学方法 1连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。 1.4 多组随机区组样本比较 1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。 1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。 ****需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

医学统计学分析基本思路指南

医学统计学分析基本思路指南 医学统计学的学习一定要以理解为主。对于初学者,不必强记一大堆的公式,也不要死钻牛角尖,非要弄明白为什么这种方法叫“t检验”、“F检验”,为什么这个残差叫做“学生化残差”等等。这些都是历史遗留问题,感兴趣的读者可以查阅统计学史。对于只想应用的人来讲,你只要了解在什么情况下应该用什么方法,什么指标应该用于什么情形。尽管多数统计教材都说了数据分析应该先做假设检验,然后选定统计量,然后怎么怎么。但实际中我们拿到一堆数据的时候,不会坐在桌上先列出零假设和备择假设,也不会满座子地计算统计量。 更实际的分析思路是: (1)先确定研究目的,根据研究目的选择方法。不同研究目的采用的统计方法不同,常见的研究目的主要有三类:一是差异性研究,即比较组间均数、率等的差异,可用的方法有t检验、方差分析、χ2检验、非参数检验等。二是相关性分析,即分析两个或多个变量之间的关系,可用的方法有相关分析。三是影响性分析,即分析某一结局发生的影响因素,可用的方法有线性回归、logistic回归、Cox回归等。 (2)明确数据您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书类型,根据数据类型进一步确定方法。不同数据类型采用的统计方法也不同。定量资料可用的方法有t检验、方差分析、非参数检验、线性相关、线性回归等。分类资料可用的方法有χ2检验、对数线性模型、logistic回归等。图1.6简要列出了不同研究目的、不同数据类型常用的统计分析方法。 (3)选定统计方法后,需要利用统计软件具体实现统计分析过程。SAS中,不同的统计方法对应不同的命令,只要方法选定,便可通过对应的命令辅之以相应的选项实现统计结果的输出。 (4)统计结果的输出并非数据分析的完成。一般统计软件都会输出很多结果,需要从中选择自己需要的部分,并做出统计学结论。但统计学结论不同于专业结论,最终还需要结合实际做出合理专业结论。下面是本人简单总结的常用方法的选择,可供读者参考。

医学统计学总结

医学统计学总结 一.绪论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断 4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每个观察单位的某 项特征进行测量或观察,这种特征称为变量 变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某变量值的集合。总 体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。样本必须具有代 表性。代表性是指样本来自同质总体,足够的样本含量和随机抽样的前提。 统计量(statistics)描述样本变量值特征的指标(样本率,样本均数,样本标准差)。

医学统计学公式总结

医学统计学公式总结-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一 般要求 计算95%或99%的可信区间) (五)总体率的区间估计 n x n x x x x x n ∑= ++++= 321∑∑=++++++++= f fx f f f f x f x f x f x f x k k k 3213322111 ) (22 --=∑n x x s 222()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-= n s x t μ -= x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

(六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围:s u x a ->或 s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 0μμ=:H 1 ,/00-=-=-=n n s x s x t x νμμ0 210==-μμμ:H d d d t s μ-==1-=n ν2 10μμ=:H 2 1)()(2121x x s x x t ----=μμ221-+=n n ν? ?? ?+= -2 1121s s C x x )()(2 222112∑-∑+-= x x x x s C

医学统计学知识点

实用标准 文档大全第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB 等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。

最新医学统计学公式总结

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间) (五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围: s u x a ->或s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 n x n x x x x x n ∑= ++++= 321∑∑= ++++++++=f fx f f f f x f x f x f x f x k k k 3213322111 )(2 2--= ∑n x x s 22 2()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ-=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 其中 两样本方差齐性检验 (即为两样本方差的比值) (二)单因素方差分析 SS MS F SS MS νν= = B B B W W W (1)完全随机设计资料的方差分析 这里 (T 即为该组数据之和) (2)随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 μμ=:H 1 ,/0 0-=-=-= n n s x s x t x νμμ0210==-μ μμ:H d d t s μ-== 1 -=n ν210μμ=:H 2 1)()(2121x x s x x t ----=μμ2 21-+=n n ν ? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内 组间总ννν+=2()/C x N =∑ij j T x = ∑

医学统计学重点总结

<<医学统计学>>重点总结 1. 总体:根据研究的目的确定的同质研究对象中所有的观察单位变量值的集合。 2. 样本:按随机化原则从同质总体中随机抽取的部分观察单位某变量值的集合。 3. 同质:影响研究指标的主要因素易控制的因素基本上相同。 4. 抽样误差:在抽样研究中,由于变异的存在,即使在同一总体中抽取的几个样本,各样本统计量往往不等。样本统计量与总体参数也不等,这种由于抽样研究所至样本之间和样本与总体之间的差异称为。。。 5. 变量:观察指标在统计学上统称为指标变量,它反应的是生物个体间的变异情况,根据其性质可分为定性变量(分类)和定量变量(连续)。 6. 截尾数据:生存时间观察过程被人为的截止称为截尾,又称删失或终检。原因:失访/退出/ 终止(研究时限已到而终止观察)。 7. 卡方基本思想:X2分布是一种连续型分布,可用于检验资料的实际频数和按检验假设计算的理论频数是否相等等问题。X2反应实现了实际频数与理论频数的吻合程度。如果检验假设成立,则A-T 一般不大,X2应很小,即出现大X2值概率很小。即X2越大,P越小,若P≤a时,就怀疑假设的成立,拒绝H0。若P>a则没有理由拒绝H0。 8. X2用途: (1)实际频数与拟合频数拟合优度:A推断两个或两个以上总体率或构成比有无差别(四格表/行x 列表)。B两变量之间有无相互关系。C频数分布的拟合优度检验(判断次样本是否来自某种分布)。(2)某些分布可用X2近似。 (3)间接应用:如t分布和F分布就是在X2分布基础上推导出来的。 9. 方差分析的基本思想:根据研究目的和设计类型,把总体变异中离均差平方和分解成两部分或更多部分,也把总变异中的自由度相应分成两部分或更多部分,然后再进行比较,评价由某种因素引起的变异是否具有统计学意义。 10. 假设检验中P,a,b(倍他)的关系及统计学意义: a:检验水准,即显著性检验,在此概率之下的认为是小概率事件,统计学上以为此事件“不可能发生”,以此判断是否不拒绝H0无效假设,在假设检验中,按a检验水准,拒绝了原来正确的H0,即犯了第1类错误,犯此错误的概率为a。 b:在T假设检验中,按照a检验标准,没有拒绝原来错误的无效假设,即犯了第2类错误,犯次错误的概率是b。 P:是在H0成立时大于等于用样本计算的统计值出现的概率用P值与检验水准a比较,根据比较的结果作出统计判断。如果P≤a时,就怀疑假设的成立,拒绝H0。若P>a则接受H0拒绝H1。P值越小只能说明作出拒绝H0,接受H1的推论时犯错误的机会越小。 11.行x列表X2检验应注意: (1)行x列表中不宜有1/5以上格子的理论频数小于5或有一个格子的理论频数小于1,若发生上述情况可采用:A将理论频数过小的格子所在的行或列与性质相近的邻近行或列中的实际频数合并,使重新计算的理论频数增大。B删去理论频数过小的行或列。C增大样本含量以增大理论频数。 (2)当效应按强弱分为若干级别,则按实验结果可整理为单向有序行x列表,在比较各处理组的效应有无差别时,宜用秩和检验,ridit分析等。如作X2检验只说明各组构成比的差异有无统计学意义。

医学统计学重点图表总结

定量资料统计描述常用的统计指标及其适用场合 描述内容指标意义适用场合 平均水平均数个体的平均值对称分布 几何均数平均倍数取对数后对称分布 中位数位次居中的观察值 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 众数频数最多的观察值不拘分布形式,概略分析 调和均数基于倒数变换的平 均值 正偏峰分布资料 变异度全距观察值取值范围不拘分布形式,概略分析 标准差(方差)观察值平均离开均 数的程度 对称分布,特别是正态分布资料 四分位数间距居中半数观察值的 全距 ①非对称分布;②半定量资料;③末端开口资料; ④分布不明 变异系数标准差与均数的相 对比 ①不同量纲的变量间比较;②量纲相同但数量级相 差悬殊的变量间比较 4. 常用统计图有哪些?分别适用于什么分析目的? 常用统计图的适用资料及实施方法 条图组间数量对比用直条高度表示数量大小 直方图定量资料的分布用直条的面积表示各组段的频数或频率 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 线图定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标系 1

1 散 点 图 双变量间的关联 点的密集程度和形成的趋势,表示两现象间的相关关系 箱 式 图 定量资料取值范围 用箱体、线条标志四分位数间距及中位数、全距的位置 茎 叶 图 定量资料的分布 用茎表示组段的设置情形,叶片为个体值,叶长为频数 定性资料统计描述常用的统计指标及其适用场合 指标 计算公式 适用场合 频率 n/N 估计总体中某一结局发生的概率 频率分布 n 1/N ,n 2/N,…..,n k /N 估计总体中所有可能结局发生的概率 强度 阳性人数/总观察人时数 估计总体中单位时间内某一结局发生的概率 比 A/B 估计两个指标的相对大小 4.常用参考值范围的制定? 参考值范围(%) 正态分布法 百分位数法 双侧 单侧 双侧 单侧 下限 上限 下限 上限 90 S X 64.1± S X 1.28- S X 1.28+ P 5~P 95 P 10 P 90 95 S X 96.1± S X 64.1- S X 64.1+ P 2.5~P 97 .5 P 5 P 95 99 S X 58.2± S X 2.33- S X 2.33+ P 0.5~P 99 .5 P 1 P 99 1.标准差与标准误的区别与联系?

常用医学统计学方法汇总

选择合适的统计学方法 1 连续性资料 1.1 两组独立样本比较 1.1.1 资料符合正态分布,且两组方差齐性,直接采用t 检验。 1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t 检验;(2)采用非参数检验,如Wilcoxon 检验。 1.1.3 资料方差不齐,(1)采用Satterthwate 的t '检验;(2)采用非参数检验,如Wilcoxon 检验。 1.2 两组配对样本的比较 1.2.1 两组差值服从正态分布,采用配对t 检验。 1.2.2 两组差值不服从正态分布,采用wilcoxon 的符号配对秩和检验。 1.3 多组完全随机样本比较 1.3.1 资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果 为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe 法,SNK 法等。 1.3.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal -Wallis 法。如 果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用成组的Wilcoxon 检验。 1.4 多组随机区组样本比较 1.4.1 资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。 1.4.2 资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman 检验法。如果 检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni 法校正P 值,然后用符号配对的Wilcoxon 检验。 **** 需要注意的问题: (1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。 (2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD 检验,Bonferroni 法,tukey 法,Scheffe 法,SNK 法等。** 绝不能对其中的两 组直接采用t检验,这样即使得出结果也未必正确**

常用医学统计学方法的选择

常用医学统计学方法的选择 1. 多组率的比较用卡方检验(χ2检验,chi-square test) 直接用几个率的数值比较,与直接用原始数据录入比较,结果会有什么不同?卡方值会受样本量的影响,样本越多,卡方值越大。 2.多组计量资料比较采用方差分析(F检验) ,不能用t检验。当方差分析结果为P<0.05时,只能说明k组总体均数之间不完全相同。若想进一步了解哪两组的差别有统计学意义,需进行多个均数间的多重比较,即SNK-q检验(多个均数两两之间的全面比较)、LSD-t检验(适用于一对或几对在专业上有特殊意义的均数间差别的比较)和Dunnett检验(适用于k-1个实验组与一个对比组均数差别的多重比较)。 3.非正态分布多组数据之间比较选用非参数检验、单样本中位数检验(符号检验和Wilcoxon 检验)、双样本中位数检验(Mann-Whitney 检验)、方差分析(Kruskal-Wallis、Mood 中位数和Friedman 检验) 4.按血糖水平从低到高分成多组,进行多组之间死亡率的比较,由于死亡率同样受年龄、性别、病史、您身边的论文好秘书:您的原始资料与构思,我按您的意思整理成优秀论文论著,并安排出版发表,扣1550116010 、766085044自信我会是您人生路上不可或缺的论文好秘书血脂等因素的影响,所以需选取合适统计方法实现“调整年龄、性别等危险因素后,按血糖分组进行死亡率的比较(由血糖从低到高分成的4组)”。 ①年龄是定量变量(是数值),调整年龄的方法可在Logistic回归中运用,连续性变量年龄加入covariate中,当成协变量,就可以调整年龄,age-adjusted odds ratio就能得到了。 ②性别性别是二分类变量,不是定量变量,不可在LOGISTIC回归里比较。调整性别可在卡方检验中采取分层的方法比较。 如果为多分类LOGISTIC回归,在选择用multinomianl LOGISTIC回归中,可选入年龄等进入covariate,观察年龄的配比情况。可把性别选入factors(自变量)。这样可以实现调整年龄、性别等危险因素。 5.回顾性研究(1)临床妊娠率和女性年龄的关系+(2)男性影响临床妊娠的精子参数比较: 数据类型及变量的说明:y:计量 拟采用的分析方法:卡方检验 拟采用的分析软件:spss 原始数据附件及格式:word表 能否用其他方法统计分析:可用卡方分割,调整检验水准(根据比较的次数N,校正后的检验水准为0.05/N)。 6.重复t检验:多个样本均数间的两两比较(又称多重比较)不宜用t检验,因为重复数次,t 检验将增加第一类错误的概率,使检验效率降低。此时宜用方差分析,并在此基础上用两两比较方法(如.SNK、LSD、Duncan法等)。 对于同一对均数间的差异,用t检验无显著性,而两两比较可能有显著性,可见错误选用统计方法将推出错误结论。 统计方法的选择: 分计量、计数、等级资料三

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论真实情况拒绝H 0不拒绝H H 正确Ⅰ型错误(ɑ)推断正确(1?ɑ) H 不正确推断正确(1?β)Ⅱ型错误(β) Ⅰ型错误(ɑ错误):H 为真时却被拒绝,弃真错误 Ⅱ型错误(β错误):H 为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n 7.方差分析 方差分析:又称F检验,是通过对数据变异按设计类型的不同,分解成两个或多个样本

医学统计学相关公式汇总

医学统计学相关公式汇总 Chapter 基本概念 显著性检验(test of significance ):计算P 值 医学统计工作的内容: 1、实验设计:最关键最重要 2、收集资料:最基础 原始资料:实验数据 现场调查资料 医疗卫生工作记录 报表 报告卡 质量控制——精度和偏倚 3、整理资料 (1) 资料的逻辑检查(坏数) (2) 一致性检查 (3) 原始数据加工:频数分布表 4、分析资料:统计描述(表、图、离散趋势、集中趋势)和统计推断 统计描述类型的选择: 集中趋势 离散趋势 对称、正态 μ,x S SS ,, 对数正态 G S lgX 偏态及其他 M Q ,R 单位不同或均数差别大 CV 医学统计的资料类型:计量资料、计数资料、等级分组资料 医学统计学的对象:有变异的事物 总体和样本: 总体(population )的特性:同质性、大量性、差异性。

抽样的要求:代表性、随机性、可靠性、可比性。 样本的三性:代表性、随机性、可靠性。 可靠性(reliability ):实验的结果要具有可重复性。即由科研课题的样本得出的结论所推测总体的结论有较大的可信度。 两样本间具有:可比性。 误差的类别: 1、系统误差(system error ):在资料的收集过程中,由于仪器初始状态没有调零、标准试剂未经矫正、标准指定偏高或偏低等原因,造成的观察结果的倾向性的偏大或偏小。必须克服。 2、随机测量误差(random measurement error ):在避免系统误差的情况下,由于各种偶然因素的影响造成对同一对象多次测量值的不一致。 3、抽样误差(sampling error ):由于抽样造成的的样本统计量与总体参数之间的差别。不可避免。样本含量越大,抽样误差越小。如均数的抽样误差:|-X | 。 概率(probability ):P (A ) 小概率事件:P ≤0.05(有统计学意义)或P ≥0.01(有高度统计学意义)。 Chapter 集中趋势的统计描述 手工整理资料频数表(frequency table )的步骤: 1、求极差(全距) 2、确定组数、组距 参考组距=全距 / 组数 3、确定组段 4、手工编制划记表 直方图(histogram ): 高度:各组的频数 纵轴 宽度:组距 横轴表示组限 均数(average ): 适用:对称分布或偏度不大的资料,尤其适合正态分布。 抽样 总体 样本 推断

医学统计学重点总结

医学统计学 第一章 医学统计中的基本概念 1 医学统计工作的内容:设计,收集资料,整理资料,分析资料。 2 资料的类型:计量资料(数值变量),计数资料(无序分类),等 变异(variation ):在同质的基础上被观察个体的差异。级分组资料(有序分类)。 3 同质(homogeneity ):对研究指标有影响的非实验因素相同。 4 总体(population ):根据研究目的确定的同质的全部研究对象称总体 。 样本(sample ):根据随机化的原则从总体中抽出有代表性的一部分观察单位组成的子集称样本。 5 参数(parameter ):总体的设计指标称为参数。 统计量(statistic ):样本的统计指标称为统计量。 6 变量(variable ):观察对象的特征或指标称为变量,测量的结果即为变量值。 7 概率(probability):描述随机事件发生的可能性的大小的一个量度,其概率介于0与1之间。 第二章 集中趋势的统计描述 一 算术均法(mean )简称为均数,适用于正态或近似正态分布资料 (一)直接法 X n x n X X X n ∑= +?++= 21 (二)加权法(针对频数表)n fx n x f f f X k k ∑= +++= (21) 二 几何均数(geometic mean,G )适用于倍数关系变化,经对数转换后呈正态分布(如:抗 体滴度,血清凝集效价,细菌计数,某些物质浓度等) G= n n X X X ?21 为了计算方便,常改用对数的形式计算,即=G lg 1 -( n X ∑lg ) 对于频数表资料,可用公式 G=lg 1 -(n x f ∑lg ) 三 中位数(M )和百分位数 中位数:适用于偏态分布资料,末端无确切数值的资料及分布情况不确定 公式:M=L+( M L f f n -5.0) M i L,M i ,M f 分别为M 所在组段的下限,组距和频数,L f 为M 所在组段之前各组数的累积频数。 百分位数:用符号X P 表示,x 即百分位 公式:x P =L+( x L f f x n -%·)x i 式中L,x i ,x f 分别为x P 所在组段的下限,组距和频数,

word完整版医学统计学公式总结推荐文档

资料的描述性统计 (一)算术均数(mean ) (1)简单算术平均值定义公式为(直接法) (2)利用频数表计算均数(加权法) 计算95%或 99%勺可信区间) (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三T 检验与方差分析 (一) T 检验 (1)单样本T 检验 X 1 X 2 X 3 X n f l X i f 2X 2 f 3X 3 f k X k fx 1 f 2 f 3 方差(即标准差的平方) (X ① s- n 1 X 2 ( X )2/n 变异系数 CV 100% 均数的标准误 二参数估计与参考值范围 s Sx — In 样本率的标准误 S P P(1 P ) n (p 为样本率) (四) T 分布t X (u 为总体均数) s v n 总体均数的区间估计X t /2, s X X t /2, s x 般要求 (五)总体率的区间估计 p u /2s p U /2S p (六)参考值范围估计 双侧1-a 参考值范围: U a/2S x 单侧1-a 参考值范围: U a s 或 X U a S

统计量t 值的计算:t X 0 X 0 s x s/侖 (2)配对T 检验 检验假设: H 0: 1 2 (二) 单因素方差分析 来源 SS v MS F 组 间 2 SS B T i C B k 1 SS B B 组 内 SS V n i W N k MS B MSv sw SS B SS W, W 合计 SS T X 2 C T N 1 (2) 随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 这里 C ( X )2 /N T X (T 即为该组数据之和) ij 检验假设H o : (假设样本来自均数为 u 0 的正态总体) 统计量t 值的计算: d s d (d 为两组数据 的差值,Sd 为差值的标准差) (3) 两样本T 检验 检验假设: H : 0? 1 2 统计量t 值的计算: t (X l X 2 )( 1 2 ) n 1 n 2 2 其中X 2 X 1 (X 1 X 1)2 n 1 n 1 (X 2 乂2 )2 两样本方差齐性检验 的比值) 2 S 1_ 2 S 2 1 n 1 2 n 2 1 (即为两样本方差 SS B B B MS B F SS W W MS W (1 )完全随机设计资料的方差分析 SS 、 SS t 间 Sgt 内 总 组间 组内

医学统计学公式整理

集中趋势的描述 算术均数: 频数表资料(X0为各组段组中值) n fX f fX x O O ∑∑∑== 几何均数: n n X X X G ...21= 或 ) log ( log 1n X G ∑-= 频数表资料: ? ?????=????????=∑∑∑--n X f f X f G log lg log log 11 中位数:(1)* 2 1 +=n X M (2) ) (21* 12*2++= n n X X M 百分位数 ?? ? ??-?+ =L X X f n X f i L P 100其中:L 为欲求的百分位 数所在组段的下限 , i 为该组段的组距 , n 为总频数 , X f 为 该组段的的频数 , L f 为该组段之前的累计频数 方差: 总体方差为:式(1); 样本方差为 式(2) (1) N X 2 2 )(μσ-∑= (2) 1)(2 2--∑= n X X S 标准差: 1 )(2 --∑= n X X S 或 1/)(22-∑-∑= n n X X S 频数表资料计算标准差的公式为 1/)(22-∑∑∑-∑= f f fx fx S 变异系数:当两组资料单位不同或均数相差较大时,对变异 大小进行比较,应计算变异系数 % 100?=X S CV 常用的相对数指标 (一)率 (二)相对比(三)构成比 1.直接法标准化 N p N p i i ∑= ' ∑=i i p N N p )( ' 2.间接法标准化 预期人数实际人数= SMR ∑=i i P n r SMR S M R P P ?=' 正态分布:密度函数: )2/()(2221)(σμπ σ--= X e X f 分布函数: 小于X 值的概率,即该点正态曲线下左侧面积 )()(x X P x F <= 特征:(1)关于x=μ对称。(2)在x=μ处取得该概率密度函数的最大值,在σμ±=x 处有拐点,表现为钟形曲线。(3)曲线下面积为1。(4)μ决定曲线在横轴上的位置,σ决定曲线的形状 。(5)曲线下面积分布有一定规律 标准正态分布:对任意一个服从正态分布的随机变量,作如下标准化变换 σ μ-= X u ,u 服从总体均数为0、总体标准 差为1的正态分布。 u 值左侧标准正态曲线下面积为标准正态分布函数,记作 )(u Φ 医学参考值的确定方法:(1)百分位法:双侧(P 25,P 975),单侧P 95以下或P 5以上,该法适用于任何分布型的资料。(2)正态分布法:若X 服从正态分布,双侧医学参考值范围为 S X 96.1± 样本均数标准误的估计值为 X s = t 分布的概念:小样本总体标准差未知时,服从自由度为n-1 的t 分布 X X X t s μ-= 总体均数可信区间的计算: 大样本或总体标准差已知:式(1); 小样本:式(2) (1) n S X ?±96.1 (2)n S n t t ?±-)1(,05.0 单样本t 检验:检验统计量:式(1);样本例数估计:式(2) (1) n S X t /0μ-= 自由度为 n-1;(2)2 2/] )([δσβαZ Z N += 配对样本t 检验: 检验统计量: n S d t d /0-= 样本量计算同前 两样本t 检验:检验统计量: ) 11(2 12 1n n S X X t c +-= (错) 2 )()(2)1()1(21222211212222112-+-+-= -+-+-=∑∑n n X X X X n n S n S n S c 随机分组方法: 样本例数估计) (])([ 1 21122/--++=Q Q Z Z N δ σ βα 方差不齐的近似t 检验 检验统计量:式(1) ;校正自由度为:式(2) (1) 2 2 2 1212 1' n S n S X X t +-= (2) 11)(24142222 1 21-+-+= n s n s s s x x x x ν 方差齐性检验:H 0:两总体方差齐,H 1:两总体方差不齐,α=0.1 检验统计量:(较小)(较大)2 2 2 1 S S F =分子自由度为n1-1,分母自由度为n2-1 方差分析的基本思想: 1、总变异:总离均差平方和: 2() 1 T ij i j SS SS X X N νν=-==-∑∑总总= ∑∑-=n X X /)(2 2 2. 组间变异:组间变异反映了处理因素的影响(如处理确实有作用),同时也包括了随机误差(含个体差异和测量误差)。 21() 1 B i i i SS SS n X X k νν-==-∑组间组间== = C n X i i ij -∑ ∑2 )( 3. 组内变异:组内变异仅反映随机误差(含个体差异和测量误差),故又称误差变异。 222()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑ 组内组内 2()(1) W E ij i i i i j i SS SS SS X X n S N k νν===-=-==-∑∑∑组内组内 1(1)()N k N k ννν=-=-+-=+总组间组内 组间均方与组内均方比值一般地服从分子自由度为ν1,分母 自由度为ν2的F 分布 12 1 MS F k N k MS νννν= ==-==-组间 组间组内组内 , 多个样本间的多重比较 Dunnett 检验:用于各实验组与对照组比 i X X i S X X t --= )(误差i x x n n MS S i 11+= - 查dunnett 界值表,确定P ,自由度等于方差分析中ν误差 SNK-q 检验:用于各组间全面的两两比较 Q= )11(2/ )(B A B A X X B A n n MS X X S X X B A +-=--误差 查q 界值表确定相应的概率P ,自由度等于方差分析中ν 误差,表中a 为按均值大小排序,两对比组所包含的组数。 二项分布的概率函数P (X ): X n X X n C X P --=)1()(ππ; )! (!!X n X n C X n -= 二项分布的均数和标准差 :进行n 次独立重复试验,出现X 次阳性结果 X 的总体均数为πμn = 总体方差为)1(2ππσ-=n 总体标准差为)1(ππσ -=n 如果将阳性结果用频率表示n X p = 率的总体均数 π μ=p 标准差 n p ) 1(ππσ-= n p p n p p S p )1(1 ) 1(-≈--= 又称率的标准误它反映率的抽样误差的大小。 单侧累积概率计算:出现阳性的次数至多为k 次的概率为 ∑∑ ==---==≤k X k X X n X X n X n X P k X P 0 0)1()! (!! )()(ππ 出现阳性的次数至少为k 次的概率 ∑∑ ==---==≥n k X n k X X n X X n X n X P k X P )1()! (!! )()(ππ 率的可信区间的估计 正态近似法:当)1(,p n np -均大于等于5时 n p p p n p p P )1(96.1,)1(96.1-+-? - 样本率与总体率的比较: 检验假设H 0:π=π0,H 1:π≠π0 1 . 满足正态近似时,计算检验统计量 ) 1(000 πππ--= n n X Z 或 n p Z ) 1(000 πππ--= 2. 不满足正态近似时用直接概率计算法 两样本率的比较:H0:π1=π2,H1:π1≠π2, 检验统计量: ) 1 1)(1(| |2 121n n p p p p Z c c +--= 2 121n n X X p c ++= Poisson 分布的概率函数为 ! )(X e X P X λλ -= POISSON 分布的应用: 单侧累计概率计算:稀有事件发生次数至多为k 次的概率

相关主题