搜档网
当前位置:搜档网 › 如何合理选择统计方法——常用统计学方法汇总

如何合理选择统计方法——常用统计学方法汇总

如何合理选择统计方法——常用统计学方法汇总
如何合理选择统计方法——常用统计学方法汇总

01如何选择合适的统计学方法?

1连续性资料

1.1 两组独立样本比较

1.1.1 资料符合正态分布,且两组方差齐性,直接采用t检验。

1.1.2 资料不符合正态分布,(1)可进行数据转换,如对数转换等,使之服从正态分布,然后对转换后的数据采用t检验;(2)采用非参数检验,如Wilcoxon检验。

1.1.3 资料方差不齐,(1)采用Satterthwate 的t’检验;(2)采用非参数检验,如Wilcoxon检验。

1.2 两组配对样本的比较

1.2.1 两组差值服从正态分布,采用配对t检验。

1.2.2 两组差值不服从正态分布,采用wilcoxon的符号配对秩和检验。

1.3 多组完全随机样本比较

1.3.1资料符合正态分布,且各组方差齐性,直接采用完全随机的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。

1.3.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Kruscal-Wallis法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用成组的Wilcoxon检验。

1.4 多组随机区组样本比较

1.4.1资料符合正态分布,且各组方差齐性,直接采用随机区组的方差分析。如果检验结果为有统计学意义,则进一步作两两比较,两两比较的方法有LSD检验,Bonferroni法,tukey 法,Scheffe法,SNK法等。

1.4.2资料不符合正态分布,或各组方差不齐,则采用非参数检验的Fridman检验法。如果检验结果为有统计学意义,则进一步作两两比较,一般采用Bonferroni法校正P值,然后用符号配对的Wilcoxon检验。

****需要注意的问题:

(1)一般来说,如果是大样本,比如各组例数大于50,可以不作正态性检验,直接采用t 检验或方差分析。因为统计学上有中心极限定理,假定大样本是服从正态分布的。

(2)当进行多组比较时,最容易犯的错误是仅比较其中的两组,而不顾其他组,这样作容易增大犯假阳性错误的概率。正确的做法应该是,先作总的各组间的比较,如果总的来说差别有统计学意义,然后才能作其中任意两组的比较,这些两两比较有特定的统计方法,如上面提到的LSD检验,Bonferroni法,tukey法,Scheffe法,SNK法等。**绝不能对其中的两组直接采用t检验,这样即使得出结果也未必正确**

(3)关于常用的设计方法:多组资料尽管最终分析都是采用方差分析,但不同设计会有差

别。常用的设计如完全随即设计,随机区组设计,析因设计,裂区设计,嵌套设计等。2.分类资料

2.1 四格表资料

2.1.1 例数大于40,且所有理论数大于5,则用普通的Pearson 检验。

2.1.2 例数大于40,所有理论数大于1,且至少一个理论数小于5,则用校正的检验或Fisher’s 确切概率法检验。

2.1.3 例数小于40,或有理论数小于2,则用Fisher’s确切概率法检验。

2.2 2×C表或R×2表资料的统计分析

2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。

2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效,则可用行平均分差检验或成组的Wilcoxon秩和检验。

2.2.3 列变量为效应指标,且为二分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。

2.3 R×C表资料的统计分析

2.2.1 列变量&行变量均为无序分类变量,则(1)例数大于40,且理论数小于5的格子数目<总格子数目的25%,则用普通的Pearson 检验。(2)例数小于40,或理论数小于5的格子数目>总格子数目的25%,则用Fisher’s确切概率法检验。(3)如果要作相关性分析,可采用Pearson相关系数。

2.2.2列变量为效应指标,且为有序多分类变量,行变量为分组变量,用普通的Pearson 检验只说明组间构成比不同,如要说明疗效或强弱程度的不同,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。

2.2.3 列变量为效应指标,且为无序多分类变量,行变量为有序多分类变量,则可采用普通的Pearson 检验比较各组之间有无差别,如果有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。

2.2.4 列变量&行变量均为有序多分类变量,(1)如要做组间差别分析,则可用行平均分差检验或成组的Wilcoxon秩和检验或Ridit分析。如果总的来说有差别,还可进一步作两两比较,以说明是否任意两组之间的差别都有统计学意义。(2)如果要做两变量之间的相关性,可采用Spearson相关分析。

2.4 配对分类资料的统计分析

2.4.1 四格表配对资料,(1)b+c>40,则用McNemar配对检验。(2)b+c<40,则用校正

的配对检验。

2.4.1 C×C资料,(1)配对比较:用McNemar配对检验。(2)一致性检验,用Kappa检验。

在SPSS软件相关分析中,pearson(皮尔逊), kendall(肯德尔)和spearman(斯伯曼/斯皮尔曼)三种相关分析方法有什么异同

两个连续变量间呈线性相关时,使用Pearson积差相关系数,不满足积差相关分析的适用条件时,使用Spearman秩相关系数来描述.

Spearman相关系数又称秩相关系数,是利用两变量的秩次大小作线性相关分析,对原始变量的分布不作要求,属于非参数统计方法,适用范围要广些。对于服从Pearson相关系数的数据亦可计算Spearman相关系数,但统计效能要低一些。Pearson相关系数的计算公式可以完全套用Spearman相关系数计算公式,但公式中的x和y用相应的秩次代替即可。Kendall's tau-b等级相关系数:用于反映分类变量相关性的指标,适用于两个分类变量均为有序分类的情况。对相关的有序变量进行非参数相关检验;取值范围在-1-1之间,此检验适合于正方形表格;

计算积距pearson相关系数,连续性变量才可采用;计算Spearman秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据; 计算Kendall秩相关系数,适合于定序变量或不满足正态分布假设的等间隔数据。

计算相关系数:当资料不服从双变量正态分布或总体分布未知,或原始数据用等级表示时,宜用spearman或kendall相关

Pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析

Kendall 复选项等级相关计算分类变量间的秩相关,适用于合并等级资料

Spearman 复选项等级相关计算斯皮尔曼相关,适用于连续等级资料

注:

1若非等间距测度的连续变量因为分布不明-可用等级相关/也可用Pearson 相关,对于完全等级离散变量必用等级相关

2当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时,宜用Spearman 或Kendall相关。

3 若不恰当用了Kendall 等级相关分析则可能得出相关系数偏小的结论。则若不恰当使用,可能得相关系数偏小或偏大结论而考察不到不同变量间存在的密切关系。对一般情况默认数据服从正态分布的,故用Pearson分析方法。

在SPSS里进入Correlate-》Bivariate,在变量下面Correlation Coefficients复选框组里有3个选项:

Pearson

Kendall's tau-b

Spearman:Spearman

spearman(斯伯曼/斯皮尔曼)相关系数

斯皮尔曼等级相关是根据等级资料研究两个变量间相关关系的方法。它是依据两列成对等级的各对等级数之差来进行计算的,所以又称为“等级差数法”

斯皮尔曼等级相关对数据条件的要求没有积差相关系数严格,只要两个变量的观测值是成对的等级评定资料,或者是由连续变量观测资料转化得到的等级资料,不论两个变量的总体分布形态、样本容量的大小如何,都可以用斯皮尔曼等级相关来进行研究

Kendall's相关系数

肯德尔(Kendall)W系数又称和谐系数,是表示多列等级变量相关程度的一种方法。适用这种方法的数据资料一般是采用等级评定的方法收集的,即让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物。等级评定法每个评价者对N件事物排出一个等级顺序,最小的等级序数为1 ,最大的为N,若并列等级时,则平分共同应该占据的等级,如,平时所说的两个并列第一名,他们应该占据1,2名,所以它们的等级应是1.5,又如一个第一名,两个并列第二名,三个并列第三名,则它们对应的等级应该是1,2.5,2.5,5,5,5,这里2.5是2,3的平均,5是4,5,6的平均。

肯德尔(Kendall)U系数又称一致性系数,是表示多列等级变量相关程度的一种方法。该方法同样适用于让K个评委(被试)评定N件事物,或1个评委(被试)先后K次评定N件事物所得的数据资料,只不过评定时采用对偶评定的方法,即每一次评定都要将N个事物两两比较,评定结果如下表所示,表格中空白位(阴影部分可以不管)填入的数据为:若i比j好记1,若i比j差记0,两者相同则记0.5。一共将得到K张这样的表格,将这K张表格重叠起来,对应位置的数据累加起来作为最后进行计算的数据,这些数据记为γij。

正态分布的相关检验

对来自正态总体的两个样本进行均值比较常使用T检验的方法。T检验要求两个被比较的样本来自正态总体。两个样本方差相等与不等时用的计算T值的公式不同。

进行方差齐次性检验使用F检验。对应的零假设是:两组样本方差相等。P值小于0.05说明在该水平上否定原假设,方差不齐;否则两组方差无显著性差异。

U检验时用服从正态分布的检验量去检验总体均值差异情况的方法。在这种情况下总体方差通常是已知的。

虽然T检验法与U检验法所解决的问题大体相同,但在小样本(样本数n)=30作为大样本)且均方差未知的情况下就不能用U检验法了。

均值检验时不同的数据使用不同的统计量

使用MEANS过程求若干组的描述统计量,目的在于比较。因此必须分组求均值。这是与Descriptives过程不同之处。

检验单个变量的均值是否与给定的常数之间存在差异,用One-Sample T Test 单样本T检验过程。

检验两个不相关的样本是否来自来具有相同均值的总体,用Independent-Samples T test 独立样本t检验过程。

如果分组样本不独立,用Paired Sample T test 配对t检验。

如果分组不止两个,应使用One-Way ANOVO一元方差分析(用于检验几个独立的组,是否来自均值相等的总体)过程进行单变量方差分析。

如果试图比较的变量明显不服从正态分布,则应该考虑使用一种非参数检验过程Nonparametric test.

如果用户相比较的变量是分类变量,应该使用Crosstabs功能。

当样本值不能为负值时用右侧单边检验

医学科研中如何用好应用统计学的方法

统计学是一门透过同质事物的变异性、揭示内在事物规律性和实质性的科学,确切地讲,是一门关于客观数据分析的科学,研究数据的收集、整理和分析,包括理论和应用两个方面。医学应用统计学,侧重于实际应用,是在传承和借鉴传统医学统计学“理论·原理·公式·应用”模式基础上,创造性地以“目的·数据库一变量类型一变量间关系”模式为指导的统计学。

它遵循简单实用的原则,力避复杂的数学原理和公式推导,以解决实际问题为导向,以建立统计数据库、分清变量类型为基础,以分析变量与变量间关系为核心阐述统计学分析方法,对于广大医学科研工作者,具有内容简单、思维明确、操作可行、方法实用的特点。因此,学好用好医学应用统计学需要掌握如下一些基本方法。

一、明确研究目的和研究设计

研究目的是研究设计的目标和方向,科学研究的基本要素及其基本原则是科研设计的基础和指南。完整的科研设计包括专业设计和统计设计两部分:专业设计是指课题的实际意义和研究价值,入选对象的诊断标准、纳入标准及排除标准等,决定研究课题的先进性和实用性;统计设计包括选择研究类型与设计方案,确定研究总体、样本量、观察指标、随机化分组或抽样方法,以及数据的质量控制和统计分析方法等,影响课题的可信度和科学价值。

因此,正确的统计学分析一定要建立在明确的研究目的和研究设计的基础之上,那些事先没有研究目的和研究设计,事后找来一堆数据进行统计分析都是不可取的。

在医学论文的撰、编、审、读过程中经常遇到的问题是研究的题目与课题设计、论文内容不符,包括文章的方法解决不了论文的目的、文章的结果说明不了论文的题目、文章的讨论偏离了论文的主题;还有是目的不明确、设计不合理。如题目过小,论文不够字数,而一些无关紧要的变量指标或结果被分析被讨论;又如题目过大,论文的全部内容不足以说明研究的目的,使论文的论点难以立足。

所以,合理明确的论文题目或目的以及研究设计方案是撰、编、审、读者应当关注的首要问题。此外,样本含量是否满足,抽样是否随机,偏倚是否控制等,也是不可忽视的问题。

二、建好分析用的数据库

数据库即存放数据的“仓库”,是指将不同研究对象不同观测指标的观察结果逐一有序记录的二维表格形式。二维表中除第一行属于观察指标外,其余每一行代表一个观察对象的所有观察指标值(即数据);每一列代表某项观察指标所有观察对象的观察值。严格的数据库数据可以直接应用相关软件进行统计分析。

由于不同软件对文字存在可识别性问题,一般在统计分析时要求数据库的数据值全部用阿拉伯数字表示,必要时可在适当位置附加批注。对于论文作者来讲,统计分析需要借助于统计分析软件计算,而统计分析软件都要有完整、符合要求的数据或数据库,所以建好分析数据库是统计分析的需要。

此外,建好分析数据库还可以理清分析思路。在试验或调查研究中获取的数据有时多而零散,如果不能进行科学的整理汇总,就会显得杂乱无章,理不清头绪,抓不住要点,甚至无所适从,最后可能束之高阁、弃之不用,造成数据的极大浪费。相反,建好数据库,可以使观察对象的研究指标一目了然,使研究思路清晰明确。

因此,建好数据库是正确统计分析的前提和基础,甚至决定了论文分析结果的成败。对于编、审、读者来讲,一般由于篇幅的限制,往往得不到数据库数据,而只有作者在数据库数据基础上经统计描述计算后给出的诸如各指标均数 x、标准差s 或中位数M、百分位数Px 的“二手”数据,或将研究对象的某一指标按其数值大小或特征属性分组,清点各组观察单位出现的个数或频数的频数表数据等。

无论是否能够得到数据库数据,作者在统计分析过程中一定依据数据库数据进行计算,得出结果。如果对“二手”数据或频数表数据的结果等存在疑惑,编辑、审稿专家或读者有权要求作者提供数据库数据以检查其完整性、准确性和真实性,确保研究数据的质量。假若在投稿须知中对数据库数据作出必要的要求,无疑对于保证刊物的发表质量有着积极的意义。

三、分清楚指标(或变量)的性质和类型

指标,即观察指标,是由研究目的确定的观察对象的内在属性特征或其相关的影响因素。例如,需要研究本体感觉训练对脑卒中偏瘫患者运动功能(本体感觉、平衡功能)的影响,那么本体感觉、平衡功能反映了脑卒中偏瘫患者运动功能的特征,分别称为研究的本体感觉指标、平衡功能指标,影响本体感觉和平衡功能的有关因素,比如年龄、性别、病种、病程等,称为研究的年龄指标、性别指标、病种指标和病程指标。

变量即观察变量,也称变化的量,实际上就是观察指标,一般特指用于数学、统计或软件计算的分析指标。例如,脑卒中偏瘫患者运动功能的本体感觉、平衡功能指标,在统计计算时,分别称为本体感觉变量和平衡功能变量。

按变量是否影响其它变量或是否受到其它变量的影响有影响变量和结果变量之分。影响变量,也称自变量,是指自身变化并影响结果变量变化的量;结果变量,又称因变量,是指随影响变量变化而变化的量,看作是影响变量变化的结果。

如果分析康复训练对冠心病患者有氧运动功能的影响,那么康复训练可看作是影响变量,有氧运动功能则为结果变量;如果分析不同性别之间冠心病患者有氧运动功能是否存在统计学

差异,那么性别是影响变量,有氧运动功能是结果变量。分清楚变量的性质,即什么是结果变量、什么是影响变量,是选择统计分析方法的第一步。

一般而言,那些相对固有的、不易改变的特征(如性别、籍贯等)或易于被人控制的处理因素(如实验分组、疫苗接种与否等)作为影响变量或影响因素;而那些容易变化、较难确定的观察效应或结局(如疗效、患病与否等)作为结果变量,看成是最后观察的结果。但影响变量和结果变量的划分是相对的,视研究目的和具体情况而定,有时甚至不加区分。

从数据库、数据分析的角度来看,变量是指那些能反映数据库数据的内在数量关系,可用于统计计算包括软件计算的指标。一般而言,不同的研究目的决定了不同的数据库,实际上决定了组成数据库的不同变量。变量的类型分为数值变量和分类变量。

数值变量,又称定量变量,是指能用定量方法测定的、具有数值大小、高低或多少的指标,变量值一般有度量衡单位,可以带小数点,如身高、体重、血压等;分类变量,又称定性变量,是指能用定性的方法确定的、观察单位某项属性或特征分类的指标。根据分类变量的分类项数和各项数间有无等级程度差异分为二项分类变量、多项无序分类变量、多项有序分类变量,如表1。

表1 分类变量的不同类别与举例

从应用统计学选择统计分析方法的角度考虑,变量可考虑分为数值变量、多项有序分类变量、多项无序分类变量、二项分类变量四种。此外,不同类别变量可遵循下列顺序转化:数值变量一多项有序分类变量一多项无序分类变量一- 项分类变量,称为降级转化,但这种转化过程会不断丧失蕴藏的数据信息,导致统计分析过程中假阴性结果的不断增加。

至于逆向转化即升级转化,尽管理论上认同,但实际应用中不建议采用。

很多研究表明,掌握好统计分析的应用条件,正确选择统计分析方法是学习并应用统计学的一个突出难点。

对于医学论文作者而言,分清楚数据库中变量的性质(影响变量与结果变量)、类型(数值变量、多项有序分类变量、多项无序分类变量、二项分类变量)以及它们之间的降级转化关系(数值变量一多项有序分类变量一多项无序分类变量一二项分类变量)是学好用好应用统计分析的基础,可以有效避免张冠李戴、缺乏原则地选错统计分析方法;对于文章的编审和读者来说,这是判断作者正确选择统计学分析方法与否的一个简单有效的途径。

四、正确选用统计学方法

应用统计学(严格而言是指统计学的假设检验)可以简单地看作是一门关于结果变量与影响变量之间关系分析的科学。

由于结果变量(因变量)、影响变量(自变量)各有4 种类型,所以相互组合有16 种情形,相对应的有16 种首选的统计分析方法(表2 中第一个或用☆表示的方法),如,二项分类变量与二项分类变量关系的分析选用两个率比较的X2 检验(四格表X2 检验),二项分类变量与多项无序分类变量关系的分析选用多个率比较的X2 检验,多项无序分类变量与二项分类变量关系的分析选用两个构成比比较的X2 检验,多项无序分类变量与多项无序分类变量关系的分析选用多个构成比比较的x2 检验.

数值变量与二项分类变量关系的分析选用t- 检验,数值变量与多项无序分类变量关系的分析选用完全随机设计的,F- 检验,数值变量与数值变量关系的分析选用Pearson 直线相关回归分析,等等。如果首选统计方法的条件不适合,一般通过降级转化选择“低”一级或“低”二级、三级的统计方法或其它统计方法。

如,t 一检验是数值变量与二项分类变量关系分析时首选的统计方法,如果该方法的条件不适合,此时将- 检验中数值变量“降级”当作多项有序分类变量看待,故可次选Wilcoxon 秩和检验,如果再“降级”,依次低选两构成比比较的x2 检验,甚至四格表X2 检验。

又如,如果Pearson 直线相关回归分析的条件不符合,可根据情况将其中的一个或两个数值变量“降一级”,选择Spearman 等级相关,如果再“降级”,相应可以选择秩和检验、Logistic 回归或者t 一检验、X2 检验,等等。其它仿此,详见表2。它涵盖了基本统计分析的绝大部分,是应用统计分析的核心内容。

当然,应用统计分析除了单一变量分析、两变量间关系的分析以外,其它诸如一个自变量和多个因变量、多个自变量和多个因变量之间关系的分析当属多变量关系分析的内容。

由于分类变量与数值变量各不相同,不同个数不同变量的组合方式多种多样,所以相应的统计方法也有很多种,主要有:1 个数值变量与多个数值变量之间的关系,如多元相关回归分析;1 个分类变量与多个数值变量之间的关系,如多因素方差分析、重复设计方差分析;l 个数值变量与混合多个变量之间的关系,如协方差分析、COx 模型;l 个分类变量与混合多变量之间的关系,如Logistic 回归分析;多个数值变量与多个数值变量之间的关系,如典则相关等。

表2 两变量关系分析的统计方法

因此,医学论文的作者,在分清楚数据库中分析变量的性质、类型和降级转化关系时,可以应用表2 迅速确定首选的统计方法以及备选或次选的统计方法,应用相关软件或计算工具快速实现统计分析。医学论文的编审和读者也可应用该表2,准确判断作者是否正确选择了统计学分析方法,甚至分析错误选择统计方法的原因与后果。

如,欲评价某种药物的降舒张压效果,试验组用该降压药、对照组不用药,假如测量的舒张压值符合t 检验的条件(正态分布、方差齐等),很明显该数据首选 f 检验的统计方法。如果降级转化可以选择Wilcoxon 秩和检验,如果降压效果转化为有效和无效两种情况,甚至可以选择四格表X2 检验。

但需要注意的是,如此降级选择统计方法,可能出现假阴性或漏诊错误,即把差异有统计学意义的结果(有降压效果)当作差异无统计学意义的结果(无降压效果)看待,从而低估药物的作用,在论文讨论中至少要加以必要的说明,否则统计方法不能视为正确有效,可作为退修或退稿处理。

五、熟悉常用的统计分析软件

统计分析软件是统计分析的必备工具,常用的统计分析软件有:统计分析系统SAS、社会学统计程序包SPSS、微软公司电子表格系统Microsoft Office Excel 等。

SAS(statistics analysis system) 是统计分析系统的英文缩称,最早由北卡罗来纳大学的两位生物统计学研究生编制,1976 年由SAS 软件研究所正式推出。SAS 完全针对专业用户进行设计,以编程为主。

其最大特点是分析模块调用,功能强大,深浅皆宜,简短编程即可同时对多个数据文件进行分析。但对一般用户而言,人机界面不太友好,最初编写使用程序时可能会存在各种难度。SPSS(statistical package for the social science) 是社会学统计程序包的英文缩称,20 世纪60 年代末由美国斯坦福大学的 3 位研究生研制,1975 年由芝加哥sPss 总部推出。sPss 系统的最大特点是菜单操作,方法齐全,绘制图形、表格较为方便,输出结果比较直观。但其统计分析功能略显逊色,特别是难以同时分析处理多个数据文件。

Microsoft Office Excel 是美国微软公司开发的电子表格系统,是目前应用最为广泛的办公室表格处理软件之一。Excel 作为Office 软件的一员被众多用户所熟知,具有数据处理、函数运算、数据库、图表制作等功能,进行统计分析时具有易得,快速、直观、简单、运算可视等优点,是建立数据库,并进行常用统计分析的好工具。

其中,SAS、sPss 是国际通用的统计分析计算软件。即便如此,不同软件仍各有利弊、互有长短,用户可根据需求和使用习惯,选择一种或几种软件进行数据分析。特别一提的是Microsoft Office Excel.由于其独特的优势,统计计算功能也逐渐得到开发应用,如Excel 统计分析程序等,必将得到广大科技论文作者、编审和读者认可与使用。

本文作者:陈青山孟晶杨剑周亚敏刘晓玲

本文出自:《中国物理医学与康复杂志》2014 年6 月第36 卷第6 期P483~485 选择统计方法一般可遵循以下步骤:研究目的→变量个数→设计类型→资料类型→样本个数→分析目的→分析方法→运算方法→形成报告。

计量资料应考虑以下两点:资料是否满足参数检验的应用条件;判定计量资料属于何种设计类型常用的统计指标及方法有:均数、几何均数、中位数标准差、方差、均数的标准误t检验、U检验、方差分析、T检验、多元方差分析、秩和检验、直线相关与回归分析、等级相关、曲线相关、多元线性相关与回归分析等。

在交代定量资料统计分析方法之前,一定要加上实验设计的名称,例如,采用成组设计定量资料的Wilcoxon秩和检验;采用单因素多水平设计定量资料的Kruskal-Wallis秩和检验;采用随机区组设计定量资料的Friedman秩和检验;采用成组设计定量资料的t检验;采用单因素多水平设计定量资料的方差分析;采用三因素析因设计定量资料的方差分析;采用具有一个重复测量的两因素设计定量资料的方差分析。当需要对多因素设计中的某个因素各水平下的平均值进行两两比较时,若因素之间的交互作用项具有统计学意义,不应简单地采用单因素多水平设计定量资料的q检验法LSD检验法或Dunnett检验法,而应建立在相应设计定量资料的方差分析基础之上。

计数资料应先分类汇总,清点观察单位数,编制分类资料的频数表,常用的统计指标及方法有:率、构成比、相对比、率的标准误、率的标准化法、率的卡方检验、一般检验、配对检验、拟合优度检验等一致性分析(Kappa值)。计数资料的统计方法主要针对四格表和RC表利用卡方检验进行分析。卡方检验的应用条件:成组四格表的卡方检验要求样本含量40,且理论频数不小于5;成组四格表的校正卡方检验要求样本含量40,但理论频数大于1且小于5;Fisher 确切概率法要求样本含量40,或理论频数小于1。

等级资料应先按等级顺序分类清点观察单位数,编制等级资料的频数表,常用的统计指标及方法有:率、构成比、秩和检验、等级相关等。等级资料中,组间构成比的比较用行、列表卡方检验,对于组间率的比较宜采用非参数秩和检验,并注意秩和检验校正值的计

算,对于两组等级资料比较,通常采用Wilcoxon秩和检验,而多组等级资料的比较采用KruskalWallis秩和检验。

在科技论文方法中要求给出分析所采用的统计方法(t检验F检验和x2等),结果中要给出P值(现在提倡给出精确的P值大小),以及根据样本信息计算的统计量值(t值F值和x2

值等),然后根据统计量值判定P值大小,对于P值的解释一定要结合专业知识,并且用两均数(率)之差的可信区间反映出实际差别的大小。

统计学原理常用公式汇总

2.加权算术平均数 X =- X h X 3调和平均数: 式中: m = Xf , f X 统计学原理常用公式汇总 第2章统计整理 a ) 组距=上限—下限 b ) 组中值=(上限+下限)—2 c ) 缺下限开口组组中值=上限-1/2邻组组距 d ) 缺上限开口组组中值=下限+1/2邻组组距 e ) 组数k=1+3.322Lg n n 为数据个数 第3章综合指标 i. 相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2?比例相对指标=总体中某一部分数值/总体中另一部分数值 3?比较相对指标=甲单位某指标值/乙单位同类指标值 4. 强度相对指标=某种现象总量指标/另一个有联系而性质不 同的现象总量指标 5. 计划完成程度相对指标=实际数/计划数 =实际完成程度(%) /计划规定的完成程度(%) ii. 平均指标 1.简单算术平均数:; 丄 iii. 标志变动度 1.全距=最大标志值-最小标志值 加权 或 ? f ? Xf ? Xf

3.标准差系数:”= iiii抽样推 断 1.抽样平均误差: 重复抽样: p(1 P) n 不重复抽样: 2 ( 1 2.抽样极限误差 3.重复抽样条件下: 平均数抽样时必要的样本数目 n 成数抽样时必要的样本数目不重复抽样条件下: t2 2 2- x t2P(1 p) 平均数抽样时必要的样本数目第4 章动态数列分析一、平均发展水平的计算方法:(1)由总量指标动态数列计算序时平均数 ①由时期数列计算 a a n Nt2 2 N 2x t2 2 ②由时点数列计算 在间断时点数列的条件下计算: 若间断的间隔相等,则米用“首末折半法”计算。公式为: 1 1 a i a2 a n a. 1 a 2—— n 1 若间断的间隔不等,则应以间隔数为权数进行加权平均计算。公式为:

统计学原理-计算公式

位值平均数计算公式 1、众数:是一组数据中出现次数最多的变量值 组距式分组下限公式:002 110m m d L M ??+??+= 0m L :代表众数组下限; 1100--=?m m f f :代表众数组频数—众数组前一组频数 0m d :代表组距; 1200+-=?m m f f :代表众数组频数—众数组后一组频数 2、中位数:是一组数据按顺序排序后,处于中间位置上的变量值。 中位数位置2 1+=n 分组向上累计公式:e e e e m m m m e d f S f L M ?-∑+=-12 e m L 代表中位数组下限; 1-e m S :代表中位数所在组之前各组的累计频数; e m f 代表中位数组频数; e m d 代表组距 3、四分位数:也称四分位点,它是通过三个点将全部数据等分为四部分,其中每部分包含 25%,处在25%和75%分位点上的数值就是四分位数。 其公式为:4 11+=n Q 212+=n Q (中位数) 4)1(33+=n Q 实例 数据总量: 7, 15, 36, 39, 40, 41 一共6项 Q1 的位置=(6+1)/4=1.75 Q2 的位置=(6+1)/2=3.5 Q3的位置=3(6+1)/4=5.25 Q1 = 7+(15-7)×(1.75-1)=13, Q2 = 36+(39-36)×(3.5-3)=37.5, Q3 = 40+(41-40)×(5.25-5)=40.25 数值平均数计算公式 1、简单算术平均数:是将总体单位的某一数量标志值之和除以总体单位。 其公式为:n x n x x x X n ∑=??++=21 2、加权算术平均数:受各组组中值及各组变量值出现的频数(即权数f )大小的影响,

统计学常用公式汇总 (2)

统计学常用公式汇总 项目三 统计数据的整理与显示 组距=上限-下限 a) 组中值=(上限+下限)÷2 b) 缺下限开口组组中值=上限-邻组组距/2 c) 缺上限开口组组中值=下限+1/2邻组组距 例 按完成净产值分组(万元) 10以下 缺下限: 组中值=10—10/2=5 10—20 组中值=(10+20)/2=15 20—30 组中值=(20+30)/2=25 30—40 组中值=(30+40)/2=35 40—70 组中值=(40+70)/2=55 70以上 缺上限:组中值=70+30/2=85 项目四 统计描述 i. 相对指标 1. 结构相对指标=各组(或部分)总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3、 比较相对指标=甲单位某指标值/乙单位同类指标值 4、 动态相对指标=报告期数值/基期数值 5、 强度相对指标=某种现象总量指标/另一个有联系而性质不同的现 象总量指标 6、 计划完成程度相对指标K =计划数实际数 =% %计划规定的完成程度实际完成程度 7、 计划完成程度(提高率):K=%10011?++计划提高百分数 实际提高百分数 计划完成程度(降低率):K=%10011?--计划提高百分数 实际提高百分数 ii. 平均指标 1、简单算术平均数: 2、加权算术平均数 或

iii. 变异指标 1. 全距=最大标志值-最小标志值 2、标准差: 简单σ= ; 加权 σ= 成数的标准差(1) p p p σ=- 3、标准差系数: 项目五 时间序列的构成分析 一、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ①由时期数列计算 n a a ∑= ②由时点数列计算 在连续时点数列的条件下计算(判断标志按日登记):∑∑=f af a 在间断时点数列的条件下计算(判断标志按月/季度/年等登记): 若间断的间隔相等,则采用“首末折半法”计算。公式为: 1 212 1121-++++=-n a a a a a n n 若间断的间隔不等,则应以间隔数为权数进行加权平均计算。公式为: ∑ --++++++=f f a a f a a f a a a n n n 11232121222 (2) (选用)由相对指标或平均指标动态数列计算序时平均数 基本公式为: b a c = 式中:c 代表相对指标或平均指标动态数列的序时平均数; a 代表分子数列的序时平均数; b 代表分母数列的序时平均数;

统计学期末复习-公式汇总

统计报表 专门调查 普查 抽样调查 典型调查 重点调查 按调查的组织方式不同分为 按调查时间是否连续分为 按调查单位的范围大小分为 全面调查 非 全面调查 一次性调查 经 常性调查 统计学复习 第一章 1.“统计”的三个涵义:统计工作、统计资料、统计学 2.三者之间的关系:统计工作和统计资料是工作与工作成果的关系; 统计资料和统计学是实践与理论的关系 3.统计学的特点:数量性,总体性,具体性,社会性(广泛性) 4.统计工作的过程一般分为统计调查、统计整理和统计分析三个阶段 5.总体与总体单位的区分:统计总体是客观存在的,在同一性质基础上结合起来的许多个别单位的整体,构成总体的这些个别单位称为总体单位。(总体或总体单位的区分不是固定的:同一个研究对象,在一种情况下是总体,在另一种情况下可能成了总体单位。) 6.标志:总体单位所具有的属性或特征。 A 品质标志—说明总体单位质的特征,不能用数值来表示。如:性别、职业、血型色彩 B 数量标志—标志总体单位量的特征,可以用数值来表示。如:年龄、工资额、身高 指标:反映社会经济现象总体数量特征的概念及其数值。 指标名称体现事物质的规定性,指标数值体现事物量的规定性 第二章 1.统计调查种类 2.统计调查方案包括六项基本内容: 1)确定调查目的;(为什么调查) 2)确定调查对象与调查单位;(向谁调查) 调查对象——社会现象的总体 调查单位——调查标志的承担者(总体单位) 填报单位——报告调查内容,提交统计资料 3)确定调查项目、拟定调查表格;(调查什么) 4)确定调查时间和调查期限 5)制定调查的组织实施计划; 6)选择调查方法。

统计学概念公式汇总穆慧萍

第一章 一、总体和总体单位 总体是指在同一性质基础上结合起来的许多个别事物的整体。 总体单位是指构成总体的个别事物。 例如:——(我们的班级、一所学校、某一地区、某一部门等) 总体按其单位数是否有限,分为有限总体和无限总体。 二、标志和标志表现 标志是说明总体单位特征的名称,有品质标志与数量标志之别。 品质标志表示事物质的特性,是用文字表示的。 数量标志表示事物的量的特性,是可以用数值表示的,如人的年龄、身高、体重,企业的产值、利润等。 标志表现是标志名称之后所表明的内容。 三、变异和变量 在一个总体中,各单位的品质标志或数量标志的标志表现具有差异性,这种差别都称为变异。 在统计中,可变的数量标志和指标称为变量,变量的数值表现称为变量值。 变量按变量值是否连续,可以分为离散性变量和连续性变量。离散性变量的各变量值之间都是以整位数断开的,连续性变量的数值是相邻两值之间可作无限分割。 综上所述,把总体、总体单位、标志等概念联系起来,可以概括出统计总体的三个基本特征: 1、同质性。即总体所有单位都必须具有某种共同的性质。 2、大量性。即总体应包括全部总体单位或足够多数的总体单位 3、差异性。即所有的总体单位必须在某一方面同质,但在其他方面又必须存在差异。 四、统计指标 (一)统计指标的概念及其构成要素 1、统计指标是反映客观存在的社会总体现象数量特征的概念。例如国内生产总值、人

口自然增长率、劳动生产率等。按照这种理解,统计指标包括三个构成要素:(1)指标名称,(2)计量单位,(3)计算方法。 2、统计指标是反映客观存在的社会现象总体数量特征的概念和具体数值。 例如:1998年我国国内生产总值亿元,比上年增长%;1998年末,我国总人口数为124810万人,这些都是统计指标。按照这种理解,统计指标除包括上述三个要素外,还包括(1)时间限制,(2)空间限制,(3)指标数值三个要素。 以上两种理解方法都是成立的,合理的。它们分别在不同的场合中使用。我们认为,第二种理解方法更全面,更适合于实际中应用。 (二)统计指标的特点 理解统计指标的两种含义,也要正确把握统计指标的特点。 1、数量性。 2、总体性{综合性} 。 3、具体性 这里所讲的指标和前面学过的标志是密切相关的两个概念,它们之间既有联系,又有区别。 其联系主要表现在:①许多指标的数值是根据标志的标志值汇总得到的;②随着研究目的的改变二者是可以互相转化的。 其区别主要表现在:①标志是反映总体单位特征的,而指标是反映总体特征的;②标志有能用数值表示的数量标志和不能用数值表示的品质标志之分,而所有的指标都是可以用数值表示的。 (三)统计指标的作用 每一个具体的统计指标都有它不同的作用,概括地讲,统计指标有两方面的作用:1、从认识角度讲,它能用数字表明社会经济活动中的各种实事的现状及发展过程,起到社会“指示器”的作用。 2、从管理和科学研究的角度讲,统计指标是进行国民经济管理和科学研究的基本根据之一。无论宏观决策、微观决策还是进行科学研究,都要从客观的现实状况出发。统计指标提供的就是用数字表现的事实。 统计指标从不同的研究目的,不同的角度出发可以分为不同的种类。 1、按统计指标说明的总体现象的内容不同,可以分为数量指标和质量指标。

统计学原理常用公式汇总

统计学原理常用公式汇总 第2章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距 e)组数k=1+3.322Lg n n为数据个数 第3章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不 同的现象总量指标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标 1.简单算术平均数: 2.加权算术平均数或 3调和平均数: ? ? = f X f X h 1 1 式中:, h Xf Xf m X X m f Xf X X m m Xf f X ==== == ??? ??? iii.标志变动度 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ=

3.标准差系数: iiii 抽样推断 1. 抽样平均误差: 重复抽样: n x σ μ= n p p p ) 1(-= μ 不重复抽样: )1(2 N n n x - = σμ 2.抽样极限误差 x x t μ=? 3.重复抽样条件下: 平均数抽样时必要的样本数目 2 22x t n ?= σ 成数抽样时必要的样本数目2 2)1(p p p t n ?-= 不重复抽样条件下: 平均数抽样时必要的样本数目 2222 2σσt N Nt n x +?= 第4章 动态数列分析 一、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ①由时期数列计算 n a a ∑= ②由时点数列计算 在间断时点数列的条件下计算: 若间断的间隔相等,则采用“首末折半法”计算。公式为: 1 212 11 21-++++=-n a a a a a n n Λ 若间断的间隔不等,则应以间隔数为权数进行加权平均计算。公式为:

统计学公式汇总

统计学公式汇总文档编制序号:[KKIDT-LLE0828-LLETD298-POI08]

统计学公式汇总 (1) αβδμσνπρυt u F X s 2χ (2) 均数(mean ):n X n X X X X n ∑=+???++=21 式中X 表示样本均数,X 1,X 2, X n 为各观察值。 (3) 几何均数(geometric mean, G ): )lg (lg )lg lg lg (lg 1211 21n X n X X X X X X G n n n ∑--=+???++=????=式中G 表示 几何均数,X 1,X 2,X n 为各观察值。 (4) 中位数(median, M ) n 为奇数时,)21 (+=n X M n 为偶数时,2/][)12 ()2 (++=n n X X M 式中n 为观察值的总个数。 (5) 百分位数 )%(L x x f x n f i L P ∑-?+ = 式中L为Px 所在组段的下限,f x 为其频数,i 为其组距,L f ∑为小于L各组段的累计频数。 (6) 四分位数(quartile, Q ) 第25百分位数P 25,表示全部观察值中有25%(四分之 一)的观察值比它小,为下四分位数,记作Q L ;第75百分位数P 75,表示全部观察值中有25%(四分之一)的观察值比它大,为上四分位数,记作Q U 。 (7) 四分位数间距 等于上、下四分位数之差。 (8) 总体方差 N X 2 2 )(μσ-∑= (9) 总体标准差 N X 2 )(μσ-∑=

(10)样本标准差 1/)(1)(222-∑-∑= --∑=n n X X n X X s (11)变异系数(coefficient of variation, CV ) %100?= X s CV (12)样本均数的标准误 理论值n X σ σ= 估计值n s s X = 式中σ为总体标准差,s 为 样本标准差,n 为样本含量。 (13)样本率的标准误 理论值n p ) 1(ππσ-= 估计值n p p s p ) 1(-= 式中π为总体率,p 为样本率,n 为样本含量。 (14)总体率的估计:正态分布法,(n p p u p n p p u p /)1(,/)1(-?+-?-αα) 式中 p 为样本均数,s 为样本标准差,n 为样本含量。 (15)总体均数的估计t 分布法:(n s t X n s t X ? +? -νανα,,,) 式中X 为样本均数,s 为样本标准差,n 为样本含量,ν为自由度。 (16)总体均数的估计u 分布法: 总体标准差σ未知但较大时,(n s u X n s u X ? +? -αα,) 式中X 为样本均 数,s 为样本标准差,n 为样本含量。 总体标准差σ已知时,(n u X n u X σ σ αα? +? -,) 式中X 为样本均数,σ为总 体标准差,n 为样本含量。 (17)样本均数与总体均数比较的t 检验:n s X t /0μ-= 1-=n ν 式中X 为样本均数, 0μ为欲比较的总体均数,s 为样本标准差,n 为样本含量,ν为自由度。

应用统计学概念整理

应用统计学概念整理 第一章:导论 1.只能归类于某一类别的非数字型数据称为分类数据 2.只能归于某一有序类别的非数字型数据称为顺序数据 3.按数字尺度测量的观测值称为数值型数据 4.包含所研究的全部个体的集合称为总体 5.从总体中抽取的一部分的元素的集合称为样本 6.用来描述总体特征的的概括性数字度量称为参数 7.用来描述样本特征的概括性数字度量称为统计量 8.说明事物类别的一个名称称为分类变量 9.说明事物有序类别的一个名称称为顺序变量 10.说明事物数字特征的一个名称称为数值型变量 11.只能取可数值的变量称为离散型变量 12.可以在一个或多个区间中取任何值的变量称为连续型变量 第二章:数据收集 1.从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征 的数据收集方法,称为抽样调查。 2.为特定目的而专门组织的全面调查称为普查 3.按照国家有关法律规定,自上而下地统一布置,自下而上地逐级提供基本数据的调查方 式称为统计报表 第三章:数据的图表展示 1.落在某一特定类别或组中的数据个数,称为频数 2.把各个类别及其落在其中的相应频数全部列出,并用表格形式表示出来,称为频数分布 3.一个样本或总体中各个部分的数据与全部数据之比,称为比例 4.将比例乘以100得到的数值,称为百分比或百分数,用%表示 5.样本或总体中各不同类别数值之间的比值,称为比率 6.分类数据的图示:条形图,pareto图,对比条形图,饼图 7.将各有序类别或组的频数逐级累加起来得到的频数称为累计频数 8.将各有序类别或组的百分比逐级累加起来称为累计频率 9.顺序数据的图示:累计频数分布图,环形图 10.根据统计研究的需要,将原始数据按照某种标准划分成不同的组别称为数据分组 11.分组后的数据称为分组数据 12.把变量值作为一组称为单变量值分组 13.将全部变量值一次划分为若干个区间,并将这一区间的变量值作为一组,称为组距分组 14.在组距分组中,一个组的最小值称为下限,最大值称为上限 15.一个组的上限与下限的差称为组距 16.各组组距相等的组距分组称为等距分组 17.各组组距不相等的组距分组称为不等距分组 18.每一组的下限和上限之间的重点值称为组中值

统计学原理公式及应用

《统计学原理》常用公式汇总及计算题目分析 第一部分常用公式 第三章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距 第四章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现象 总量指标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标

1.简单算术平均数: 2.加权算术平均数或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差: 重复抽样: 不重复抽样: 2.抽样极限误差 3.重复抽样条件下: 平均数抽样时必要的样本数目

成数抽样时必要的样本数目 4.不重复抽样条件下: 平均数抽样时必要的样本数目 第七章相关分析 1.相关系数 2.配合回归方程y=a+bx 3.估计标准误: 第八章指数分数 一、综合指数的计算与分析 (1)数量指标指数

此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 (-) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 (-) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。 加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = × 绝对值变动分析:

统计学主要计算公式72485

统计学主要计算公式(第三章) 1 11 1k i i k i i k i k i i i f f f f ====?? ? ???? ? ? ?? ? ? ???? ?? ?∑ ∑ ∑ ∑ ∑ N i i=1i i 一、算术平x 简单x=N x 均数加权x=频数权数x=x 1i i H i i i i m m x m m x x = = ∑∑∑∑二、调和平均数 ? = ?? ? ? =?? G G 简单x 三、几何平均数加权x 11/2/2m e m m e m f S M L i f f S M U i f -+?-=+ ??? ? -?=-???∑∑下限公式四、中位数上限公式 1012 20 12d M L i d d d M U i d d ? =+??+?? ?=-??+? 下限公式五、众数上限公式

() ()x x x x f f AD AD ? -?? ? -??? ∑ ∑∑六、平均差简单=N 加权= σ σ σ σ ??? ???? ??? ??? ????? ??? 七、标准差简单加权 简捷公式 简单 加权 100%100% AD AD V x V x σσ ? ??? ? ???? 平均差系数=八、离散系数标准差系数= 统计学主要计算公式(第五章) ( )( ) 11n n s s t t n αα α α αα σ σ μμμμμμ--?±±?? ?? ±±?? ? ?±±??22 22 22 一、参数估计(随机抽样)1.总体均值估计-单总体 正态总体,方差已知 =x z =x z 正态总体,方差未知=x =x 非正态总体,足够大=x z =x z

统计学常用公式汇总

《统计学原理》常用公式汇总 组距=上限-下限组中值=(上限+下限)÷2 缺下限开口组组中值=上限-1/2邻组组距缺上限开口组组中值=下限+1/2邻组组距 111平均指标 1.简单算术平均数: 2.加权算术平均数 或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数: 第五章抽样估计 1.平均误差:重复抽样: 不重复抽样: 2.抽样极限误差 3.重复抽样条件下:平均 数抽样时必要的样本数目 成数抽样时必要的样本数目 4.不重复抽样条件下:平均数抽样时必要的样本数目 第七章相关分析 1.相关系数 2.配合回归方程y=a+bx

3.估计标准误: 第八章指数分数一、综合指数的计算与分析 (1)数量指标指数 此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。 ( - ) 此差额说明由于数量指标的变动对价值量指标影响的绝对额。 (2)质量指标指数 此公式的计算结果说明复杂现象总体质量指标综合变动的方向和程度。 ( - ) 此差额说明由于质量指标的变动对价值量指标影响的绝对额。 加权算术平均数指数= 加权调和平均数指数= (3)复杂现象总体总量指标变动的因素分析 相对数变动分析: = × 绝对值变动分析: - = ( - )×( - ) 第九章动态数列分析 一、平均发展水平的计算方法:

(1)由总量指标动态数列计算序时平均数 ①由时期数列计算 ②由时点数列计算 在间断时点数列的条件下计算: a.若间断的间隔相等,则采用“首末折半法”计算。公式为: b.若间断的间隔不等,则应以间隔数为权数进行加权平均计算。公式为: (2)由相对指标或平均指标动态数列计算序时平均数 基本公式为: 式中:代表相对指标或平均指标动态数列的序时平均数; 代表分子数列的序时平均数; 代表分母数列的序时平均数; 逐期增长量之和累积增长量 二. 平均增长量=─────────=───────── 逐期增长量的个数逐期增长量的个数 (1)计算平均发展速度的公式为: (2)平均增长速度的计算 平均增长速度=平均发展速度-1(100%)

统计学公式汇总,推荐文档

第三章统计整理 第四章总量指标和相对指标

第五章平均指标和变异指标

= ∑(x -x)2 n :标准差 p:成数 2 :方差 标准差:开()根号 方差:不开()根号∑(x -x)2 f =∑f =p(1 -p) 2 =∑(x -x) 2 n ∑(x -x)2 f 2 =∑ f V = x V平均差系数

第六章动态数列

第七章统计指数

第八章 抽样调查 公式名称 数学公式 说明 2 n 平均数u = (1- ) x n N 不重复 1、不重置抽样比重置抽样多加个 (1 - n ),此项为修正系数。 N 2、公式中的标准差和成数 P 一般用样本的标准差 s 和成数 p 来代替。 抽样 成数: u = P (1 - P ) (1 - n ) p n N 抽样平均误差 平均数: u = x n 重复 成数: u = P (1 - P ) 抽样 p n 平均数: x - ? ≤ X ≤ x + ? x x 抽样极 重复抽样, ? = t x n ? = t P (1 - P ) ; p n 2 n 不重复抽样, ? = t (1- ) x n N ? = t P (1 - P ) (1 - n ) p n N 区间估计 限误差 成数: x - ? p ≤ X ≤ x + ? p 样本数的确定 平均数: n = t 22 x ? x 2 重复抽样 公式中的标准差和成数 P 一般用样本的标准差 s 和成数 p 来代替。 t 2 P (1 - P ) 成数: n p = ?2p

统计学常用检验方法

统计中经常会用到各种检验,如何知道何时用什么检验呢,根据结合自己的工 作来说一说: t检验有单样本t检验,配对t检验和两样本t检验。单样本t检验:是用样本均数代表的未知总体均数和已知总体均数进行比较,来观察此组样本与总体的差异性。配对t检验:是采用配对设计方法观察以下几种情形,1,两个同质受试对 象分别接受两种不同的处理;2,同一受试对象接受两种不同的处理;3,同一受 试对象处理前后。 u检验:t检验和就是统计量为t,u的假设检验,两者均是常见的假设检验方法。当样本含量n较大时,样本均数符合正态分布,故可用u检验进行分析。当样 本含量n小时,若观察值x符合正态分布,则用t检验(因此时样本均数符合t 分布),当x为未知分布时应采用秩和检验。F检验又叫方差齐性检验。在两样本t检验中要用到F检验。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先要判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用t'检验或变量变换或秩和检验等方法。其中要判断两总体方差是否相等,就可以用F检验。 简单的说就是检验两个样本的方差是否有显著性差异这是选择何种T检验(等方差双样本检验,异方差双样本检验)的前提条件。 在t检验中,如果是比较大于小于之类的就用单侧检验,等于之类的问题就用双侧检验。 卡方检验 是对两个或两个以上率(构成比)进行比较的统计方法,在临床和医学实验中应用十分广泛,特别是临床科研中许多资料是记数资料,就需要用到卡方检验。 方差分析 用方差分析比较多个样本均数,可有效地控制第一类错误。方差分析(analysis of variance,ANOVA)由英国统计学家,以F命名其统计量,故方差分析又称F检验。其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。我们要学习的主要内容包括 单因素方差分析即完全随机设计或成组设计的方差分析(one-way ANOVA): 用途:用于完全随机设计的多个样本均数间的比较,其统计推断是推断各样本所代表的各总体均数是否相等。完全随机设计(completely random design)不考虑个体差异的影响,仅涉及一个处理因素,但可以有两个或多个水平,所以亦称单因素实验设计。在实验研究中按随机化原则将受试对象随机分配到一个处理因素的多个水平中去,然后观察各组的试验效应;在观察研究(调查)中按某个研究因素的不同水平分组,比较该因素的效应。 两因素方差分析即配伍组设计的方差分析(two-way ANOVA): 用途:用于随机区组设计的多个样本均数比较,其统计推断是推断各样本所代表的各总体均数是否相等。随机区组设计考虑了个体差异的影响,可分析处理因素和个体差异对实验效应的影响,所以又称两因素实验设计,比完全随机设计的检验效率高。该设计是将受试对象先按配比条件配成配伍组(如动物实验时,可按同窝别、同性别、体重相近进行配伍),每个配伍组有三个或三个以上受试对象,再按随机化原则分别将各配伍组中的受试对象分配到各个处理组。值得注意的是,同一受试对象不同时间(或部位)重复多次测量所得到的资料称为重复测量数据 1

统计学公式汇总

统计学公式汇总 Document number:NOCG-YUNOO-BUYTT-UU986-1986UT

统计学原理常用公式汇总第三章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距

第四章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现象总量指 标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标 1.简单算术平均数: 2.加权算术平均数或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数:

第五章 抽样推断 1. 抽样平均误差: 重复抽样: n x σ μ= n p p p ) 1(-= μ 不重复抽样: )1(2 N n n x - = σμ 2.抽样极限误差 x x t μ=? 3.重复抽样条件下: 平均数抽样时必要的样本数目 2 22x t n ?= σ 成数抽样时必要的样本数目2 2) 1(p p p t n ?-= 不重复抽样条件下:平均数抽样时必要的样本数目 2222 2σσt N Nt n x +?=

第七章 相关分析 1.相关系数 [][ ] ∑∑∑∑∑∑∑---= 2 2 2 2 ) ()(y y n x x n y x xy n γ 2.配合回归方程 y=a+bx ∑∑∑∑∑--= 2 2 ) (x x n y x xy n b x b y a -= 3.估计标准误:2 2 ---= ∑∑∑n xy b y a y s y

(完整版)统计方法的选择汇总

统计方法的选择 一、两组或多组计量资料的比较 1.两组资料: 1)大样本资料或服从正态分布的小样本资料 (1)若方差齐性,则作成组t检验 (2)若方差不齐,则作t’检验或用成组的Wilcoxon秩和检验 2)小样本偏态分布资料,则用成组的Wilcoxon秩和检验2.多组资料: 1)若大样本资料或服从正态分布,并且方差齐性,则作 完全随机的方差分析。如果方差分析的统计检验为有统 计学意义,则进一步作统计分析:选择合适的方法 (如:LSD检验,Bonferroni检验等)进行两两比较。 2)如果小样本的偏态分布资料或方差不齐,则作 Kruskal Wallis的统计检验。如果Kruskal Wallis的统计检验为有统计学意义,则进一步作统计分析:选择合适 的方法(如:用成组的Wilcoxon秩和检验,但用Bonferroni方法校正P值等)进行两两比较。 二、分类资料的统计分析 1.单样本资料与总体比较 1)二分类资料: (1)小样本时:用二项分布进行确切概率法检验;

(2)大样本时:用U检验。 2)多分类资料:用Pearson c2检验(又称拟合优度检验)。 2. 四格表资料 1)n>40并且所以理论数大于5,则用Pearson c2 2)n>40并且所以理论数大于1并且至少存在一个理论数<5,则用校正 c2或用Fisher’s 确切概率法检验 3)n£40或存在理论数<1,则用Fisher’s 检验 3. 2×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则行评分的CMH c2或成组的Wilcoxon秩和检验 2)列变量为效应指标并且为二分类,列变量为有序多分类变量,则用趋势c2检验 3)行变量和列变量均为无序分类变量 (1)n>40并且理论数小于5的格子数<行列表中格子总数的25%,则用Pearson c2 (2)n£40或理论数小于5的格子数>行列表中格子总数的25%,则用Fisher’s 确切概率法检验 4. R×C表资料的统计分析 1)列变量为效应指标,并且为有序多分类变量,行变量为分组变量,则CMH c2或Kruskal Wallis的秩和检验

统计学常用公式汇总

统计学常用公式汇总 项目三统计数据的整理与显示 组距二上限一下限 a ) 组中值=(上限+下限)* 2 b ) 缺下限开口组组中值二上限一邻组组距/2 c ) 缺上限开口组组中值二下限+1/2邻组组距 例 按完成净产值分组(万元) 10以下 10— 20 20— 30 30— 40 40— 70 70以上 缺下限:组中值=10 —10/2=5 组 中值=(10+20) /2=15 组中值 =(20+30) /2=25 组中值=(30+40) /2=35 组中值=(40+70) /2=55 缺上限:组中值=70+30/2=85 项目四统计描述 i. 相对指标 1. 结构相对指标=各组(或部分)总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3. 比较相对指标=甲单位某指标值/乙单位同类指标值 4. 动态相对指标二报告期数值/基期数值 5. 强度相对指标二某种现象总量指标/另一个有联系而性质不同的现 象总量 指标 实际数= 实际完成程度% 计划数 计划规定的完成程度% 1实际提高百分数 IK = 1计划提高百分数 ii. 平均指标 1. 简单算术平均数: 2. 加权算术平均数 6. 计划完成程度相对指标 7. 计划完成程度(提高率) 100% 计划完成程度(降低率) ,_1实际提高百分数 K= 1计划提高百分数

iii. 变异指标 1. 全距=最大标志值-最小标志值 2. 标准差:简单c = ' J : P Jp(1 P) 成数的标准差 项目五 时间序列的构成分析 、平均发展水平的计算方法: (1)由总量指标动态数列计算序时平均数 ① 由时期数列计算 ② 由时点数列计算 - a a n 在连续时点数列的条件下计算(判断标志按日登记):a 在间断时点数列的条件下计算(判断标志按月/季度/年等登记): 若间断的间隔相等,则采用“首末折半法”计算。公式为: 若间断的间隔不等,则应以间隔数为权数进行加权平均计算 (2)(选用)由相对指标或平均指标动态数列计算序时平均数 基本公式为: 式中:_c 代表相对指标或平均指标动态数列的序时平均数; a 代表分子数列的 序时平均数; b 代表分母数列的序时平均数; 3.标准差系数: a 1 a 2 2 1 a n 2an1 a 1 a 2 a ? a 3 a n 1 a n 2 公式为: 4F

统计学概念及公式汇总

常用统计学概念及公式 第一章 一、总体和总体单位 总体是指在同一性质基础上结合起来的许多个别事物的整体。 总体单位是指构成总体的个别事物。 例如:——(我们的班级、一所学校、某一地区、某一部门等) 总体按其单位数是否有限,分为有限总体和无限总体。 二、标志和标志表现 标志是说明总体单位特征的名称,有品质标志与数量标志之别。 品质标志表示事物质的特性,是用文字表示的。 数量标志表示事物的量的特性,是可以用数值表示的,如人的年龄、身高、体重,企业的产值、利润等。标志表现是标志名称之后所表明的内容。 三、变异和变量 在一个总体中,各单位的品质标志或数量标志的标志表现具有差异性,这种差别都称为变异。 在统计中,可变的数量标志和指标称为变量,变量的数值表现称为变量值。 变量按变量值是否连续,可以分为离散性变量和连续性变量。离散性变量的各变量值之间都是以整位数断开的,连续性变量的数值是相邻两值之间可作无限分割。 综上所述,把总体、总体单位、标志等概念联系起来,可以概括出统计总体的三个基本特征: 1、同质性。即总体所有单位都必须具有某种共同的性质。 2、大量性。即总体应包括全部总体单位或足够多数的总体单位 3、差异性。即所有的总体单位必须在某一方面同质,但在其他方面又必须存在差异。 四、统计指标 (一)统计指标的概念及其构成要素 1、统计指标是反映客观存在的社会总体现象数量特征的概念。例如国内生产总值、人口自然增长率、劳动生产率等。按照这种理解,统计指标包括三个构成要素:(1)指标名称,(2)计量单位,(3)计算方法。 2、统计指标是反映客观存在的社会现象总体数量特征的概念和具体数值。 例如:1998年我国国内生产总值79395.7亿元,比上年增长7.8%;1998年末,我国总人口数为124810万人,这些都是统计指标。按照这种理解,统计指标除包括上述三个要素外,还包括(1)时间限制,(2)空间限制,(3)指标数值三个要素。 以上两种理解方法都是成立的,合理的。它们分别在不同的场合中使用。我们认为,第二种理解方法更全面,更适合于实际中应用。 (二)统计指标的特点 理解统计指标的两种含义,也要正确把握统计指标的特点。 1、数量性。 2、总体性{综合性} 。 3、具体性 这里所讲的指标和前面学过的标志是密切相关的两个概念,它们之间既有联系,又有区别。 其联系主要表现在:①许多指标的数值是根据标志的标志值汇总得到的;②随着研究目的的改变二者是可以互相转化的。 其区别主要表现在:①标志是反映总体单位特征的,而指标是反映总体特征的;②标志有能用数值表示的数量标志和不能用数值表示的品质标志之分,而所有的指标都是可以用数值表示的。 (三)统计指标的作用 每一个具体的统计指标都有它不同的作用,概括地讲,统计指标有两方面的作用:

统计学原理常用公式汇总

统计学原理常用公式汇总 第三章 统计整理 a) 组距=上限-下限 b) 组中值=(上限+下限)÷2 c) 缺下限开口组组中值=上限-1/2邻组组距 d) 缺上限开口组组中值=下限+1/2邻组组距 第四章 综合指标 i. 相对指标 1. 结构相对指标=各组(或部分)总量/总体总量 2. 比例相对指标=总体中某一部分数值/总体中另一部分数值 3. 比较相对指标=甲单位某指标值/乙单位同类指标值 4. 强度相对指标=某种现象总量指标/另一个有联系而性质不同的现象总量指标 5. 计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii. 平均指标 1.简单算术平均数: 2.加权算术平均数 或 iii. 变异指标 1. 全距=最大标志值-最小标志值 2.标准差: 简单σ= ; 加权 σ= 3.标准差系数: 第五章 抽样推断 1. 抽样平均误差: 重复抽样: n x σ μ= n p p p ) 1(-= μ

不重复抽样: )1(2 N n n x - = σμ 2.抽样极限误差 x x t μ=? 3.重复抽样条件下: 平均数抽样时必要的样本数目 2 22x t n ?= σ 成数抽样时必要的样本数目2 2) 1(p p p t n ?-= 不重复抽样条件下: 平均数抽样时必要的样本数目 2222 2σσt N Nt n x +?= 第七章 相关分析 1.相关系数 [][ ] ∑∑∑∑∑∑∑---= 2 2 2 2 ) ()(y y n x x n y x xy n γ 2.配合回归方程 y=a+bx ∑∑∑∑∑--= 2 2 ) (x x n y x xy n b x b y a -= 3.估计标准误: 2 2 ---= ∑∑∑n xy b y a y s y 第八章指数分数 一、综合指数的计算与分析 (1)数量指标指数 01p q p q ∑∑ 此公式的计算结果说明复杂现象总体数量指标综合变动的方向和程度。

统计学公式汇总

统计学原理常用公式汇总第三章统计整理 a)组距=上限-下限 b)组中值=(上限+下限)÷2 c)缺下限开口组组中值=上限-1/2邻组组距 d)缺上限开口组组中值=下限+1/2邻组组距

第四章综合指标 i.相对指标 1.结构相对指标=各组(或部分)总量/总体总量 2.比例相对指标=总体中某一部分数值/总体中另一部分数值 3.比较相对指标=甲单位某指标值/乙单位同类指标值 4.强度相对指标=某种现象总量指标/另一个有联系而性质不同的现象总量指标 5.计划完成程度相对指标=实际数/计划数 =实际完成程度(%)/计划规定的完成程度(%) ii.平均指标 1.简单算术平均数: 2.加权算术平均数或 iii.变异指标 1.全距=最大标志值-最小标志值 2.标准差: 简单σ= ;加权σ= 3.标准差系数:

第五章 抽样推断 1. 抽样平均误差: 重复抽样: n x σ μ= n p p p ) 1(-= μ 不重复抽样: )1(2 N n n x - = σμ 2.抽样极限误差 x x t μ=? 3.重复抽样条件下: 平均数抽样时必要的样本数目 2 22x t n ?= σ 成数抽样时必要的样本数目2 2) 1(p p p t n ?-= 不重复抽样条件下:平均数抽样时必要的样本数目 2222 2σσt N Nt n x +?=

第七章 相关分析 1.相关系数 [][ ] ∑∑∑∑∑∑∑---= 2 2 2 2 ) ()(y y n x x n y x xy n γ 2.配合回归方程 y=a+bx ∑∑∑∑∑--= 2 2 ) (x x n y x xy n b x b y a -= 3.估计标准误:2 2---= ∑∑∑n xy b y a y s y

(完整word版)医学统计学公式总结

一 资料的描述性统计 (一)算术均数(mean) (1)简单算术平均值定义公式为(直接法): (2)利用频数表计算均数(加权法): (二)方差(即标准差的平方) (三)变异系数 二 参数估计与参考值范围 (一)均数的标准误 (二)样本率的标准误 (p 为样本率) (三)T 分布 (u 为总体均数) (四)总体均数的区间估计 (一般要求 计算95%或99%的可信区间) (五)总体率的区间估计 (六)参考值范围估计 双侧1-a 参考值范围: s u x a 2/± 单侧1-a 参考值范围: s u x a ->或s u x a +< (可信区间计算是用标准误,参考值范围计算用标准差,百分位数法大家自己看书) 三 T 检验与方差分析 (一)T 检验 (1)单样本T 检验 n x n x x x x x n ∑= ++++= Λ321∑∑= ++++++++=f fx f f f f x f x f x f x f x k k k ΛΛ3213322111 )(2 2--= ∑n x x s 22 2()/1 x x n s n -= -∑∑%100?= x s CV n s s x = n p p s p ) 1(-=n s x t μ-=x x s t x s t x ναναμ,2/,2/+<<-p p s u p s u p 2/2/ααπ+<<-

检验假设: (假设样本来自均数为0 u 的正态总体) 统计量t 值的计算: (2)配对T 检验 检验假设: 统计量t 值的计算: (d 为两组数据 的差值,Sd 为差值的标准差) (3)两样本T 检验 检验假设: 统计量t 值的计算: 其中 两样本方差齐性检验 (即为两样本方差的比值) (二)单因素方差分析 SS MS F SS MS νν= = B B B W W W (1)完全随机设计资料的方差分析 这里 (T 即为该组数据之和) (2)随机单位组设计资料的方差分析 SS 总=SS 处理+SS 区组+SS 误差 V 总=V 处理+V 区组+V 误差 μμ=:H 1 ,/0 0-=-=-= n n s x s x t x νμμ0210==-μ μμ:H d d t s μ-== 1 -=n ν210μμ=:H 2 1)()(2121x x s x x t ----=μμ2 21-+=n n ν ? ??? ??+=-2121121n n s s C x x 2)()(112222112-+∑-∑+-=n n x x x x s C 2221s s F =111-=n ν1 2 2-=n ν组内组间总SS SS SS +=组内 组间总ννν+=2()/C x N =∑ij j T x = ∑

相关主题