搜档网
当前位置:搜档网 › 统计学知识点梳理

统计学知识点梳理

统计学知识点梳理
统计学知识点梳理

统计学

第一章导论

1.1.1 什么是统计学

统计学是收集、处理、分析、解释数据并从数据中得出结论的科学。

数据分析所用的方法分为描述统计方法和推断统计方法。

1.2 统计数据的类型

1.2.1 分类数据、顺序数据、数值型数据

按照所采用的计算尺度不同,可以将统计数据分为分类数据、顺序数据、数值型数据。

分类数据:只能归于某一类别的非数字型数据,它是对事物进行分类的结果,数据表现为类别,是用文字来表示。

例如:支付方式、性别、企业类型等。

顺序数据:只能归于某一有序类别的非数字型数据。

例如:员工对改革措施的态度、产品等级、受教育程度等。

数值型数据:按数字尺度测量的观测值,其结果表现为具体的数值。

例如:年龄、工资、产量等。

统计数据大体上可分为品质数据(定性数据)和数量数据(定量数据、数值型数据)。

1.2.2 观测数据和实验数据

按照统计数据的收集方法,可以分为观测数据和实验数据。

观测数据:通过调查或观测而收集的数据。例如:降雨量、GDP、家庭收入等。

实验数据:在实验中控制实验对象而收集到的数据。例如:医药实验数据、化学实验数据等。

1.2.3 截面数据和时间序列数据

按照被描述的现象与时间的关系,可分类截面数据和时间序列数据。

截面数据:在相同或近似相同的时间点上收集的数据。例如:2012年我国各省市的GDP。

时间序列数据:同一现象在不同的时间收集的数据。例如:2000-2012年湖

北省的GDP。

1.3.1 总体和样本

总体:包含所研究的全部个体(数据)的集合。

样本:从总体中抽取的一部分元素的集合。

1.3.2 参数和统计量

参数:用来描述总体特征的概括性数字度量。

统计量:用类描述样本特征的概括性数字度量。

例如:某研究机构准备从某乡镇5万个家庭中抽取1000个家庭用于推断该乡镇所有农村居民家庭的年人均纯收入。这项研究的总体是5万个家庭;样本是1000个家庭;参数是5万个家庭的人均纯收入;统计量是1000个家庭的人均纯收入。

第二章数据的搜集

2.1 数据的来源

2.1.1 数据的间接来源

间接来源的数据:如果与研究内容有关的原信息已经存在,我们只是对这些原信息重新加工、整理,使之成为我们进行统计分析可以使用的数据。

例如:统计公报、统计年鉴、某机构或某团体提供的数据、期刊、报纸和图书提供的数据、会议交流的数据、互联网查阅的数据等。

二手数据的优缺点:

优点:搜集方便,采集成本低,数据采集快,作用广泛等。

缺点:针对性不够。

2.1.2 数据的直接来源

普查:调查针对总体中的所有个体单位进行。

普查数据的优缺点:

优点:调查范围广,被调查单位多,信息全面,完整。

缺点:调查费时,费力,费钱。

2.2 调查数据

2.2.1 概率抽样和非概率抽样

重复抽样:从总体中抽取一个元素后,把这个元素放回到总体中再抽取第二个元素,直至抽取n个元素为止的抽样方法。

简单随机抽样:从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个元素都有相同的概率被抽中的抽样方式。

分层抽样:在抽样时,将总体分成互不交叉的若干个层级,然后按一定的比例,从各层次独立地随机抽取一定数量的个体,将各层次取出的个体合在一起作为样本。

整群抽样:先将总体划分为若干群体,然后以群作为抽样单位从中抽取部分群,再对抽中的各个群中所包含的所有元素进行观察的抽样方式。

方便抽样:调查过程中由调查员依据方便原则,自行确定入样单位。

滚雪球抽样:调查时首先选择一组调查单位,对其实施调查后,再请他们提供另外一些属于研究总体的调查对象,调查人员根据所提供的线索,进行此后的调查的调查方式。

2.4.1 抽样误差

样本量与抽样误差成反比。随着样本量的逐渐增大,抽样误差就越小。

2.4.3 误差的控制

通过样本量的大小控制可以改变误差大小,要求的抽样误差越小,所需要的样本量就越大。

第三章数据的图表展示

3.2.1 分类数据的整理与图示

(3)饼图

主要用于表示一个样本(或总体)中各组成部分的数据占全部数据的比例。适合于描述结构性问题。

(4)环形图

显示多个样本各部分所占的相应比例。适合于比较研究两个或多个样本或总体的结构性问题。

3.3.1 数据分组

为解决数据分组不重的问题,统计分组时习惯上规定“上组限不在内”即当相邻两组的上下限重叠时,恰好等于某一组上限的变量值不算在本组内,而计算在下

一组。(a≤x<b)

3.3.2 数值型数据的图示

1.分组数据:直方图

用于展示分组数据分布的一种图形。

直方图与条形图区别:

条形图:条形长度表示频数;宽度固定不变;矩形分开排列;展示分类数据直方图:面积表示频数;宽度表示组距;矩形连续排列;展示数值型数据3.时间序列数据:线图

主要用于反映现象随时间变化的特征,描述其变化趋势。

4.多变量数据的图示

(1)散点图

适合用于描述两变量之间是否存在某种关系。

数据图示的原则:适合于低层次数据的整理和显示方法也适合于高层次的数据;但适合于高层次数据的整理和显示方法并不适合于低层次的数据

第四章数据的概率性度量

4.1 集中趋势的度量

集中趋势:一组数据向其中心值靠拢的倾向和程度,它反映了一组数据中心点的位置所在。

原则:低层次数据的测度值适用于高层次的测量数据,但高层次数据的测度值并不适用于低层次的测量数据

4.1.1分类数据:众数

一组数据中出现次数最多的变量值。适合于数据量较多时使用。主要用于分类数据,也可用于顺序数据和数值型数据。

4.1.2 顺序数据:中位数和分位数

1.中位数

一组数据排序后处于中间位置上的变量值,用M e表示。中位数将全部数据平分为两部分,各占50%数据。

适用范围:顺序数据、数值型数据的集中趋势测度,不适用于分类数据测量。中位数计算步骤:

1.数据排序;

2.确定中位数位置;

3.确定具体值

中位数位置计算:(n+1)/2

中位数值的计算:奇数时,X(n+1)/2;偶数时,1/2{X(n/2)+X(n/2+1)}

2.四分位数

将一组数据数据排序后四等份(各占25%数据),处于25%位置点(下四分位)和75%位置点(上四分位)上的值。

四分位数计算步骤:

1.数据排序;

2.确定四分位数位置;

3.确定具体值

四分位数位置确定方法:(不同确定方法,不同四分位数值)

Q L=n/4;Q U=3n/4

整数位置:整数对应值

0.5的位置:两侧值得平均值

0.25或0.75的位置:下侧值+(上侧值—下侧值)*0.25或者0.75

4.1.3 数值型数据:平均数

一组数据相加之后除以数据个数得到的数值,是集中趋势的最主要测度值适用范围:数值型数据,不适用于顺序数据和分类数据。

4.1.4 众数、中位数和平均数的比较

1.众数、中位数和平均数的关系

众数:一组数据分布的最高峰

中位数:处于一组数据的中间位置的值

平均数:全部数据的算术平均

对称分布情况:众数=中位数=平均数

左偏分布情况:存在较小值,平均数<中位数<众数

右偏分布情况:存在极大值,众数<中位数<平均数

4.2 离散程度的度量

反映各变量值远离中心值的程度。离散程度越大,集中趋势测度值的代表性越差。

4.2.3 数值型数据:方差和标准差

1.极差(全距)

一组数据的最大值与最小值的差。

3.方差和标准差

方差是各变量值与平均数离差平方的平均数(通过平方消去正负号)。

标准差是方差的平方根。

方差和标准差能较好地反映出数据的离散程度,是实际中应用最广的离散程度测度值。

4.2.4 相对离散程度:离散系数

离散系数是一组数据的标准差与平均数的比值,是离散程度的相对统计量。适用于比较不同样本数据的离散程度。离散系数越大,离散程度越大(正比)。练习题:4.1(P94)、4.2(P95)

第六章统计量及其抽样分布

6.4 样本均值的分布于中心极限定理

当总体服从正态分布N(μ,σ2)时,来自该总体的所有容量为n的样本的均值?x也服从正态分布,?x的数学期望为μ,方差为σ2/n。即?x~N(μ,σ2/n) 中心极限定理:从均值为μ,方差为σ2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布。

经验法则是n≥30时算是充分大,满足中心极限定理要求。

关于大样本和小样本:

理论而言,小样本:样本量固定,不论样本量多少;

大样本:样本量n→∞

经验做法,大样本:n≥30

小样本:n<30

第七章参数估计

7.1.2 点估计与区间估计

当置信水平固定时,置信区间的宽度随着样本量的增大而减小。

95%的置信水平是指在用同样方法构造的总体参数的多个区间中,包含该总体参数的区间的比例为95%。

这个概率不是用来描述某个特定区间包含真值的可能性,一个特定的区间总是包含或者绝不包含真值,不存在一会包含,一会不包含的问题。用概率可以知道在多次抽样得到的区间中大概有多少个包含了参数的真值。

7.1.3 评估估计量的标准

①无偏性

无偏性是指估计量抽样分布的数学期望等于被估计的总体参数。

②有效性

较小标准误差的点估计量比其他点估计量相对有效。

③一致性

一个大样本给出的估计量要比一个小样本给出的估计量更接近总体参数。

第八章假设检验

8.1 假设检验的基本问题

假设检验的基本思想:

假设检验推断过程所依据的基本思想是小概率反证法思想。小概率思想是指发生概率很小的随机事件,在某一次特定的实验中是几乎不可能发生的。若小概率事件在一次实验中发生了则假设可能错误。

反证法思想是首先对总体参数值提出假设,然后再利用样本提供的信息去验证先前提出的假设是否成立。如果样本数据不能够充分证明和支持假设,则在一定概率条件下,应该拒绝该假设;相反,如果样本数据不能够充分证明和支持假设是不成立的,则不能推翻假设成立的合理性和真实性。

8.1.2 假设的表达式

原假设假定两个或多个事物之间是等同的或没有关系的,是变量之间无关的陈述。原假设表示否定的意义。

备择假设假定变量间存在一定的关系。

零假设是变量之间无关的陈述,而研究假设是变量有关系的明确陈述。在逻辑上与原假设内容完全对立的假设成为备择假设。

原假设与备择假设在逻辑上是互斥的,肯定原假设,则备择假设就必须放弃;否定原假设,则接受备择假设。

8.1.3 两类错误

根据所犯错误的类型,我们分为两种类型:(举例见教材P188)

第一类:原假设为真,拒绝真假设,犯此类错误的概率为α,称为α错误或弃真错误。

第二类:原假设为伪,接受伪假设,犯此类错误的概率为β,称为β错误或取伪错误。

对原假设为真的判断与概率:

(1)拒绝原真假设的概率为α,也称为显著性水平。

(2)接受原真假设,做出正确判断的概率为1-α。

在实践中,由进行假设检验的人设定显著性水平,一般取α为0.05和0.01.通过选择α,控制了犯第一类错误的概率。在应用中,一般将只控制第一类错误的结社检验称为显著性检验。许多假设检验的应用都属于这一种类型。

对原假设为伪的判断与概率:

(1)接受原伪假设的概率为β

(2)拒绝原伪假设,做出正确判断的概率为1-β

正确决策与犯错误决策的概率归纳表见表8-1。

我们希望犯这两类错误的概率越小越好。但是对于特定样本量来说,不能同时做到犯这两类错误的概率都很小。

如果减小α错误(弃真),则犯β错(取伪错误)的概率就增加。弃真取伪如果减小β错误(取伪),则犯α错误(弃真错误)的概率就增加。取伪弃真

8.1.4 假设检验的流程

1.提出原始假设和备择假设

2.选择检验统计量

3.确定显著性水平

4.根据数据计算出检验统计量的值

5.得到检验是否显著的结论

假设检验决策的两种方法:

(1)临界值法是利用检验统计量与其临界值进行比较作出决策,根据检验统计量落入的区域作出是否拒绝原假设的决策。若检验统计量大于临界值,落入拒绝域,则拒绝原假设,反之,则不能拒绝原假设。以F检验为例。若F>Fα,拒绝H0;若F

(2)P值法是根据检验统计量的概率P值与显著性水平α,进行比较,以要判定应拒绝原假设还是不应拒绝原假设。如果P值小于显著性水平α,则拒绝原假设;如果P值大于显著性水平α,则不能拒绝原假设。

8.1.5 利用P值进行决策

P值:当原假设为真是所得到的样本观察结果或更极端结果出现的概率。

P值决策原理:

得到检验统计量的概率P值后的决策就是要判定应拒绝原假设还是不应拒绝原假设。如果检验统计量的概率P值小于显著性水平α,则拒绝原假设;P值越小,拒绝原假设的理由就越充分。反之,如果检验统计量的概率P值大于显著性水平α,则不应拒绝原假设。

8.2.1 检验统计量的确定

检验统计量选择的影响因素:样本量n、总体标准差σ。

1.样本量

在大样本情况下,样本量都服从正态分布,我们使用z统计量。

2.总体标准差σ是否已知

(1)总体标准差σ已知

样本统计量服从正态分布,采用z统计量。

(2)总体标准差σ未知

使用样本标准差代替总体标准差,样本统计量服从t分布,采用t统计量。当n<30且总体标准差σ未知时,采用t统计量;当n>30时,根据使用者偏好选择z统计量还是t统计量。

一个总体参数检验的检验统计量的确定归纳为图8-7,见教材p195。

8.4.1 关于检测结果的解释

通常统计学家建议我们在叙述中采用“不能拒绝H0”而不采用“接受H0”这种说法。

8.4.2 单侧检验中假设的建立

在实际应用中,我们通常把希望验证的命题放在备择假设,通过备择假设来确定原假设,即把原有的、传统的观点或结论放在原假设上。

我们需要注意的是:如果没有拒绝原假设,并不意味着原假设是真实的、真理,也并不意味着备择假设就是错的,只是暂时没有充分的证据证明原假设不成立(如同无罪假设);接受备择假设则一定意味着原假设是错误的。

关于何谓“原有的、传统的”,原假设,即原有理论、看法、状况、历史经验、以及被大多数人认可的事情,在没有充分证据的情况下,被假定为正确的事情。

关于何谓“新的、可能的”备择假设,即检验者感兴趣的那些新事物、可能的、猜测质疑的问题,希望用事实推翻原假设以得出新观点。

第十章方差分析

10.1.1 方差分析及其有关术语

方差分析是比较多个总体的均值是否相等的统计方法,本质上主要是研究一个或多个分类自变量与一个数值型变量之间的关系(即分类自变量对数值型因变量的影响)。

10.1.2 方差分析的基本思想和原理

2.误差分解

组内误差:来自水平内部的数据误差,反映了一个样本内部数据的离散程度。组内误差只含有随机误差。(见教材P238)

组间误差:来自不同水平之间的数据误差,是随机误差和系统误差的总和,反映了不同样本之间数据的离散程度。

在方差分析中,数据的误差是用平方和来表示的。

总平方和(SST):反映全部数据误差大小的平方和。教材P239

误差平方和(SSE):反映组内误差大小的平方和。教材P239

因素平方和(SSA):反映组间误差大小的平方和。教材P239

SST=SSE+SSA

10.1.3 方差分析中的基本假定

(1)每个总体应服从于正态分布。

(2)各总体的方差必须相同。

(3)观测值是独立的。

10.2.2 分析步骤

1.提出假设

2.构造检验的统计量

为构造检验的统计量,在方差分析中,需要计算三个误差平方和。

SSE:每个组的各样本数据与其组均值的误差平方和,反映了每个样本各观测值的离散程度(随机误差的大小)。对随机误差大小的度量,反映了除自变量对因变量的影响之外,其他因素对因变量的总影响,也即残差变量。残差变量所引起的误差成为残差效应。

SSA:各组均值与总均值的误差平方和,反映各样本均值之间的差异程度。对随机误差和系统误差大小的测度,反映了自变量对因变量的影响,称为自变量效应或因子效应。

SST:全部观测值与总均值的误差平方和。对全部数据总误差程度的度量,反映了自变量和残差变量的共同影响,等于自变量效应与残差效应之和。

总平方和(SST)=组间平方和(SSA)+组内平方和(SSE)

为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度。计算结果成为均方或方差。

三个平方和所对应的自由度分别为:

SST的自由度为n-1,其中n为全部观测值的个数。

SSA的自由度为k-1,其中k为因素水平的个数。

SSE的自由度为n-k。

SSA的均方也称为组间均方或组间方差,记为MSA,其计算公式:MSA=SSA/(k-1) SSE的均方也称为组内均方或组内方差,记为MSE,其计算公式:MSE=SSE/(n-k) 将上述MSA与MSE进行对比(MSA/MSE),即得到所需要的检验统计量F。3.统计决策

如果F>F

α,则拒绝原假设,表明各水平的均值有显著差异,也即所检验的因素(行业)对观测值有显著影响。

如果F<F

α,则不能拒绝原假设,没有证据表明各水平的均值有显著差异,也即不能认为所检验的因素(行业)对观测值有显著影响。

在进行决策时,除了使用以上方法进行判断之外,还可以直接利用方差分析表中的P值与显著性水平α的值进行比较。如果P<α时,则拒绝原假设;如果P>α时,则不能拒绝原假设。

4.方差分析表

教材P246、P247,表10-4、表10-5,熟练掌握表中各字母及数值的代表意义、利用临界值或P值进行统计决策。

练习题:10.7(P263),熟练应用。

第十一章一元线性回归

11.1.1 变量间的关系

函数关系:因变量随着自变量一起变化,并完全依赖于自变量。一一对应的确定关系。例如:销售额与销售量

相关关系:非完全确定关系、一个变量的取值不能由另一个变量唯一确定。(比如:家庭储蓄与家庭收入、父母身高与子女身高、教育程度与个人收入、产量与施肥量)。

11.1.2 相关关系的描述与测度

相关分析就是对两个变量之间线性关系的描述与度量。它要解决的问题包括:

(1)变量之间是否存在关系(YES/NO ) (2)存在什么样的关系(What ) (3)关系强度如何? (4)样本能否代表总体关系 相关系数

相关系数:根据统计数据计算的度量两个变量之间线性关系强度的统计量。 相关系数的性质:

1.r 的取值范围是[-1,1]

若0<r ≤1,正线性相关;若-1≤r <0,负线性相关; r=+1,完全正线性相关;r=-1,完全负线性相关;

r =1,y 的取值完全意外与x ,二者为函数关系;r=0,无线性相关 2.r 具有对称性。xy yx r r =

3.r 的数值大小与x 和y 的原点及尺度无关。

4.r 仅仅是x 与y 之间线性关系的度量,不能用于描述非线性关系。这意味着,当r=0时,只能表示两变量之间不存在线性相关关系,但并不表示变量之间没有任何关系,可能存在曲线相关关系。

5.r 是两变量之间线性关系的度量,但是不一定意味着x 与y 一定有因果关系。 了解相关系数的性质有助于对其实际意义的解释。根据实际计算出的r 取值一般在-1与1之间;r 取值越接近于±1,则说明两变量之间的线性相关越强;r 取值越接近于0,则说明两变量之间的线性关系越弱。 经验法则:0.8r ≥时,可视为高度相关 0.5r ≤<0.8时,可视为中度相关 0.3r ≤<0.5时,可视为低度相关 r <0.3时,可视为不相关

11.2 一元线性回归

回归分析主要解决以下几个方面的问题:

(1)从一组样本数据出发,确定变量之间的数学关系式。

(2)对这些关系式的可信程度进行各种统计检验,并从影响某一特定变量的诸多变量中找出哪些变量的影响是显著,哪些是不显著的。

(3)利用所求的关系式,根据一个或几个变量的取值来估计或预测另一个特定变量的取值,并给出这种估计或预测的可靠程度。

11.2.1 一元线性回归模型 3.估计的回归方程

01

???y x ββ=+

11.2.2 参数的最小二乘估计 最小二乘估计的思想原理

最小二乘法估计的基本出发点是:应使每个样本点(,)i i x y 与回归线上的对应点(,())i i x E y 在垂直方向上的利差平方和最小。最小二乘法是利用样本数据,通

过使应变量的观测值y 与应变量的估计值?y

之间的离差平方和达到最小的方法求得0?β和1

?β的值。 11.2.3 回归直线的拟合优度 1.判定系数

判定系数是对估计的回归方程拟合优度的度量。 SST 分解为两部分:SSR 和SSE 。SST=SSR+SSE

回归直线拟合的好坏取决于SSR 及SSE 的大小,或者取决于SSR (回归平方和)占SST (总平方和)的比例(SSR/SST )的大小。SSR/SST 越大,各观测点越靠近直线,回归直线拟合越好。SSR/SST 被称为判定系数。公式见P261 判定系数R 2测度了回归直线对观测数据的拟合程度。

若所有观测点都落在直线上,那么估计的回归方程将给出一个完全的拟合。在这种情况下,SSE=0,SSR=SST ,则R 2=1。

若y 得变化与x 完全无关,x 完全无助于解释y 的变差,那么估计的回归方程的拟合最差。在这种情况下,SSE=1,SSR=0,则R 2=0。

因此,R 2的取值范围是[0,1]。R 2越接近于1,表明SSR 占SST 的比例越大,回归直线与各观测点越接近,用x 的变化来解释y 值变差的部分也就越多,回归直线的拟合程度就越好;反之亦然。 相关系数(r )与判定系数(R 2)的关系:r 2= R 2

根据这个结论,不仅可以由相关系数直接计算判定系数,而且可以进一步理解相关系数的意义。

1. 相关系数与回归系数的正负号相同。

2. 相关系数一定程度上说明回归直线的拟合优度。|r|~1,表明回归直线对观测数据的拟合优度就越高。

判定系数的实际意义:

在因变量变差中,有多少是由自变量与因变量之间的线性关系来解释,或在因变量变差中有多少是由自变量所决定的。

11.2.4 显著性检验

1.线性关系的检验

线性关系检验是检验自变量x和因变量y之间的线性关系是否显著,或者说。它们之间能否用一个线性模型y=β0+β1x+ε来表示。

将回归均方(MSR)同残差均方(MSE)加以比较,应用F检验来分析二者之间的差别是否显著。

方差分析表中关于线性关系显著性检验的结果解释:

在方差分析表中给出了线性关系显著性检验的全部结果(教材P279)。方差分析表中给出了用于检验的显著性F,即Significance F,它是用于检验的P值。

如果Sig. F<α,则拒绝原假设,表明自变量x与因变量y之间有显著性的线性关系;

如果Sig. F>α,则不能拒绝原假设,表明没有证据证实自变量x与因变量y 之间有显著性的线性关系。

2.回归系数的检验

检验x 与y 之间是否具有线性关系,或者说,检验自变量x 对因变量y 的影响是否显著。构造用于检验回归系数β1的统计量t。

参数估计表中关于线性关系显著性检验的结果解释:

在参数估计表中给出了用于检验的P值,检验时可直接将P值与给定的显著性水平α进行比较。

若P<α,则拒绝原假设;若P>α,则不能拒绝原假设。

在一元线性回归中,等价于线性关系的显著性检验,即F检验和t检验是等价的。也就是说,如果H0:β1 = 0被t检验拒绝,它也将被F检验拒绝。

医学统计知识点整理(1)

医学统计学知识点整理 第一节统计学中基本概念 一、同质与变异 同质:统计研究中,给观察单位规定一些相同的因素情况。 如儿童的生长发育,规定同性别、同年龄、健康的儿童即为同质的儿童。 变异:同质的基础上个体间的差异。 “同质”是相对的,是客观事物在特定条件下的相对一致性,而“变异”则是绝对的 二、总体与样本 1、总体:是根据研究目的所确定的,同质观察对象(个体)所构成的全体。 2、样本:是从总体中随机抽取的部分观察单位变量值的集合。 三、参数与统计量 总体参数:根据总体个体值统计计算出来的描述总体的特征量。用希腊字母表示。μ.δ.π 样本统计量:根据样本个体值统计计算出来的描述样本的特征量。用拉丁字母表示。X.S.p 总体参数一般是不知道的,抽样研究的目的就是用样本统计量来推断总体参数,包括区间估计和假设检验 四、误差:实测值与真值之差★ 1.随机误差:是一类不恒定的、随机变化的误差,由多种尚无法控制的因素引起。随机测量误差、抽样误差。 2.系统误差:是一类恒定不变或遵循一定变化规律的误差,其产生原因往往是可知的或可能掌握的。 3.非系统误差:过失误差,可以避免或清除。 五、概率 是用来描述事件发生可能性大小的一个量值,常用P表示。概率取值0~1。 统计上一般将P≤0.05或P≤0.01的事件称为小概率事件,表示其发生的概率很小,可以认为在一次抽样中不会发生。 第二节统计资料的类型★

变量:确定总体之后,研究者应对每个观察单位的某项特征进行观察或测量,这种特征能表现观察单位的变异性,称为变量。 一、数值变量资料 又称为计量资料、定量资料:观测每个观察单位某项指标的大小而获得的资料。表现为数值大小,带有度、量、衡单位。如身高(cm)、体重(kg)、血红蛋白(g)等。 二、无序分类变量资料 又称为定性资料或计数资料:将观察对象按观察对象的某种类别或属性进行分组计数,分组汇总各组观察单位后得到的资料。 分类:二分类:+ -;有效,无效;多分类:ABO血型系统 特点:没有度量衡单位,多为间断性资料 【例题单选】某地A、B、O、AB血型人数分布的数据资料是( ) A.定量资料 B.计量资料 C.计数资料 D.等级资料 【答案】C 【解析】ABO血型系统人数分布资料属于无序分类变量资料,又称为计数资料。因为是按照变量的血型分类,血型表现为互不相容的属性。所以本题选C。 【例题单选】测量正常人的脉搏数所得的变量是() A.二分类变量 B.多分类变量 C.定量变量 D.定性变量 【答案】C 【解析】脉搏数有数值大小,有度量衡,所以这个资料属于定量资料。本题选C。 三、有序分类变量资料 半定量资料或等级资料:将观察对象按观察对象的某种属性的不同程度分成等级后分组计数,分组汇总各组观察单位后得到的资料。 特点:每一个观察单位没有确切值,各组之间有性质上的差别或程度上的不同举例:- + ++ +++ 第三节统计工作的基本步骤★ 1.统计设计 2.收集资料

统计学原理知识点公式

统计学原理知识点及公式 第一章统计总论 ?1.统计一词的三种含义 ?2.统计学的研究对象及特点 ?3.统计学的研究方法 ?4.统计学的几个基本概念:总体与总体单位、标志与标志表现、变异与变量、统计指标的概念、特点及分类。 ?5.国家统计兼有的职能 第二章统计调查 ?1.统计调查的概念和基本要求 ?2.统计调查的种类 ?3.统计调查方案的构成内容 ?4.统计调查方法:普查、抽样调查、重点调查、典型调查 ?5.调查误差的种类 第三章统计整理 ?1.统计整理的概念和方法 ?2.统计分组的概念、种类 ?3.统计分组的关键 ?4.统计分组的方法:品质分组方法、变量分组的方法 ?5.分配数列的概念、构成及编制方法 变量数列的编制基本步骤为: 第一步:将原始资料按数值大小依次排列。 第二步:确定变量的类型和分组方法(单项式分组或组距分组)。 第三步:确定组数和组距。当组数确定后,组距可计算得到:组距= 全距÷组数全距= 最大变量值-最小变量值。 第四步:确定组限。(第一组的下限要小于或等于最小变量值,最后一组的上限要大于最大变量值。) 第五步:汇总出各组的单位数(注意:不同方法确定的组限在汇总单位数时的区别),计算频率,并编制统计表。 间断式确定组限:汇总各组单位数时,按照“上下限均包括在本组内”的原则汇总。

重叠式确定组限:汇总各组单位数时,按照“上组限不在内”的原则汇总。 因为有了“上组限不在内”的原则,实际工作中,对于离散型变量也经常采用重叠式确定组限的方法。 ?6.统计表的结构和种类 第四章综合指标 ?1.总量指标的概念、种类和计量单位 ?2.相对指标的概念、指标数值的表现形式、相对指标的种类。相对指标包括: 结构相对指标、比例相对指标 比较相对指标、强度相对指标 动态相对指标、计划完成程度相对指标 ●3.平均指标的概念、作用和种类。 算术平均数、调和平均数、众数、中位数

统计学20个重点知识整理

一、统计的含义及其之间的关系 统计一词一般有三种含义,即统计工作、统计资料和统计学。 1、统计工作即统计实践活动,是指按照调查研究的任务,对社会经济现象的数量方面进行搜集资料、整理资料和分析运用资料等一系列调查研究的工作过程。 2、统计资料是指反映社会经济现象特征的各项数字资料以及与之有联系的其他资料,包括调查阶段搜集的原始资料,经过加工整理和分析后的图标和文字资料等系统资料。 3、统计学是研究怎样进行社会经济统计活动的方法论科学,它阐述了统计研究社会经济现象的数量和数量关系时应该遵循的原理、原则和采用的方法等,是系统化的知识体系。 4、关系:统计资料是统计工作的成果,是对社会经济现象进行统计研究的基础;统计学是统计活动经验的科学总结和理论概括,统计学来源于实践,又高于实践,对统计实践起着指导的作用;统计工作要以统计学的理论为指导,并检验和发展统计理论。 二、统计总体和统计单位及其之间的关系 1、统计总体:是由客观存在的、具有某种共同性质的许多个别单位所构成的整体,简称总体。 2、统计总体的特征:大量性、同质性、差异性 3、总体单位:构成统计总体的个别事物 4、例:要研究某一乡镇企业的职工素质情况,则该乡镇企业的全体人员构成一个总体,其中每一个职工就是总体单位。 5、关系:a.总体由总体单位组成; b.组成总体的个体是有差别的; C.根据统计研究目的的不同,总体与总体单位是可以相互转化的。 三、统计指标和统计标志之间的关系 两者之间既有明显的区别,又有密切的联系。主要区别在于: 1、指标说明总体特征;而标志则说明总体单位特征; 2、统计指标必须是可量的;统计标志未必都是可量的; 3、统计指标具有综合性;而统计标志一般不具有综合性; 两者之间的主要联系在于: 1、许多统计指标的指标数值是从总体单位的数量标志值汇总而来; 2、指标与标志之间存在着变换关系; 例如:要了解我国粮食生产状况,则我国的粮食总产量是指标,而某省的粮食总产量是标志。 四、一个完整的统计调查方案包括的内容 1、确定调查目的; 2、确定调查对象和调查单位; 3、确定调查项目,设计调查表; 4、确定调查时间和方法; 5、制定调查工作的组织实施计划 五、统计调查的分类 1、按统计调查方式的不同,可分为定期统计报表和专门调查; 2、按调查总体包括的范围不同,可分为全面调查和非全面调查; 3、按调查登记的时间是否具有连续性,可分为经常性调查和一次性调查; 4、按统计调查是否具有强制性,可分为政府统计调查、民间统计调查和涉外社会调查; 5、按收集资料的方法,可分为直接观察法、报告法、采访法和问卷法

医学统计学章节重点归纳

医学统计学章节重点归纳 第一节概述 1、主要内容:a、卫生统计学的基本原理和方法(研究设计和数据处理中的统计理论和方法)b、健康统计(医 学人口统计、疾病统计和生长发育统计)c、卫生服务统计(卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理中的统计问题)。 2、 卫生统计工作的步骤:设计、资料的搜集、资料的整理、资料的分析 3、医学统计资料主要四个方面:统计报表、报告卡(单)、日常医疗卫生工作记录,专题研究或实验。 4、观察单位:是获得数据的最小单位,观察单位是根据研究目的确定的,观察单位可以是人、标本、家庭、国 家等。 5、变异:是指客观事物的多样性和不确定性。 6、变量: 观察单位的某种特征,称为变量。a、数值变量(定量变量)b、分类变量(定型变量或字符变量)。 7、总体:根据研究目的所确定的同质研究对象的全体。确切的说是性质相同的所有观察单位的某种变量的集合。 8、样本:从总体中随机抽取部分观察单位,其变量值就构成样本,通过样本信息来推断总体特征。 9、概率:事件发生的可能性大小的量度,通常以符号P表示。 10、误差:测量值与真值之差或样本指标和总体指标之差。分为随机误差和系统误差。 第二节数值资料的统计描述 1、频数分布就是观察值在所取得范围内分布的情况。重要特征:集中趋势和离散趋势。 2、频数分布类型:正态分布型频数、正偏态分布型频数,负偏态分布型频数。 3、集中趋势指标:算术平均数(均数)、几何均数、中位数。 指标使用条件计算公式 算术平均数适用于正态或近似正态分布 的数值变量资料 几何均数①对数正态分布,即数据经 过对数变换后呈正态分布的 资料;②等比级数资料,即 观察值之间呈倍数或近似倍 数变化的资料。 中位数①非正态分布资料(对数正 态分布除外);②频数分布 的一端或两端无确切数据的 资料③总体分布不清楚的资 料。为奇数 , 为偶数, 4、离散型趋势指标:极差、标准差和变异系数 指标计算公式主要优缺点 极差R=Xmax-Xmin 计算简单,便于理解;只考虑最大值与最小值之差异,不能反映 组内其它观察值的变异度,不稳定,受样本量影响很大。

统计学基础知识要点 很重要

第一章:导论 1、什么是统计学?统计方法可以分为哪两大类? 统计学是收集、分析、表述和解释数据的科学。统计方法可分为描述统计方法和推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据和数值型数据;按照统计数据的收集方法,分为观测的数据和实验的数据;按照被描述的对象与时间的关系,分为截面数据和时间序列数据。 按计量尺度分时:分数数据中各类别之间是平等的并列关系,各类别之间的顺序是可以任意改变的;顺序数据的类别之间是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据是在没 有对事物进行人为控制的 条件下等到的;实验数据的 在实验中控制实验对象而 收集到的数据。按被描述的 对象与时间关系分时:截面 数据所描述的是现象在某 一时刻的变化情况;时间序 列数据所描述的是现象随 时间而变化的情况。 3、举例说明总体、样本、 参数、统计量、变量这几个 概念。 总体是包含研究的全部个 体的集合。比如要检验一批 灯泡的使用寿命,这一批灯 泡构成的集合就是总体。样 本是从总体中抽取的一部 分元素的集合。比如从一批 灯泡中随机抽取100个,这 100个灯泡就构成了一个样 本。参数是用来描述总体特 征的概括性数字度量。比如 要调查一个地区所有人口 的平均年龄,“平均年龄” 即为一个参数。统计量是用 来描述样本特征的概括性 数字度量。比如要抽样调查 一个地区所有人口的平均 年龄,样本中的“平均年龄” 即为一个统计量。变量是说 明现象某种特征的概念。比 如商品的销售额是不确定 的,这销售额就是变量。 第二章:数据的收集 1、调查方案包括哪几个方 面的内容? 调查目的,是调查所要达到 的具体目标。调查对象和调 查单位,是根据调查目的确 定的调查研究的总体或调 查范围。调查项目和调查 表,要解决的是调查的内 容。 2、数据的间接来源(二手 数据)主要是公开出版或公 开报道的数据;数据的直接 来源一是调查或观察,二是 实验。 3、统计调查方式:抽样调

生物统计学重要知识点

生物统计学重要知识点 (说明:下列知识点为考试内容,没涉及的不需要复习。注意加粗的部分为重中之重,一定要弄懂。大家要进行有条理性的复习,望大家考出好成绩!) 第一章概论(容易出填空题和名词解释) 1、生物统计学的目的、内容、作用及三个发展阶段 2、生物统计学的基本特点 3、会解释总体、个体、样本、样本容量、变量、参数、统计数、效应和互作 4、会区分误差(随机误差和系统误差)与错误以及产生的原因 5、会区分准确度和精确度 第二章试验资料的整理与特征数的计算(容易出填空和名词解释) 1、随机抽样必须满足的两个条件 2、能看懂次数分布表和次数分布图,会计算全距、组数、组距、组限和组中值 3、会求平均数(算数、加权和几何)、中位数、众数,算术平均数的重要特性 4、会求极差、方差、标准差和变异系数,理解标准差的性质 第三章概率与概率分布(选择、填空和计算) 1、理解事件、频率及概率,事件的相互关系,加法定理和乘法定理的运用 2、概率密度函数曲线的特点和大数定律 3、二项分布、泊松分布和正态分布的概率函数和标准分布图像特征,会计算概率值 4、理解分位数的概念,弄清什么时候用单尾,什么时候用双尾 5、样本平均数差数的分布 第四章统计推断(计算) 1、无效假设和备择假设、显著水平、双尾检验和单尾检验、假设检验的两类错误,会根据 小概率原理做出是否接受无效假设的判断 2、总体方差已知和未知情况下如何进行U检验 3、一个样本平均数的t检验(例4.5) 成组数据平均数比较的t检验(例4.6和4.7) 4、一个样本频率的假设检验(例4.11),知道连续性矫正 5、参数的区间估计(置信区间)和点估计

统计学知识点梳理

型;有下划线的重点记忆!当然整理的知识点都就是重点!都要背与理解!Fighting!) 第一章绪论 一.统计的含义 即统计工作、统计资料与统计学 统计工作:统计实践活动,搜集,整理,分析与提供关于社会现象数字资料工作总称 统计资料:统计实践活动过程中所取得的各项资料,包括原始资料与加工整理资料 统计学:关于认识客观现象总体数量特征与数量关系的科学 二.统计工作过程 就一次统计活动来讲,一个完整的认识过程一般可以分为统计调查、统计整理与统计分析三个阶段。 统计调查:第一阶段,就是认识客观经济现象的起点,就是统计整理与统计分析的基础。 统计整理:第二阶段,处于统计工作的中间环节,起着承前启后的作用。

统计分析:第三阶段,通过第三阶段,事物由感性认识上升到理性认识。 三.总体与总体单位(会辨析总体与总体单位即可) 总体,亦称统计总体,就是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体;构成总体的这些个别单位称为总体单位。 总体由总体单位构成,要认识总体必须从总体单位开始,总体就是统计认识的对象。 例如:所有的工业企业就就是一个总体,其中的每一个工业企业就就是一个总体单位。 四.标志与指标 标志就是用来说明总体单位特征的名称。 指标,亦称统计指标,就是说明总体的综合数量特征的。一个完整的统计指标包括数量指标名称与指标数值两部分。(以上内容理解即可) 1、指标与标志的区别与联系(简答) 指标与标志的区别:(1)指标就是说明总体特征的,而标志就是说明总体单位特征的;(2)指标都能用数值表示,而标志中的品质标志不能用数值表示,就是用属性表示的;(3)指标数值就是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;(4)一个完整的统计指标,一定要讲时间、地点、范围,而标志一般不具备时间、地点等条件。 指标与标志的联系:(1)有许多统计指标的数值就是从总体单位的数量标志值汇总而来的; (2)两者存在着一定的变换关系,即由于研究目的不同,原来的统计总体如果变成总体单位了,则相应的统计指标也就变成数量标志了。 2、标志与标志值(会区分) 标志分为品质标志与数量标志,数量标志用来说明总体单位量的特征,可以用数值表示,即为标志值(如:年龄、工资额、身高) 3、变异与变量(会什么就是变异,什么就是变量) 变异:品质标志在总体单位之间的不同具体表现。如:性别表现为男、女,民族表现为汉、满、蒙等。 变量:数量标志抽象化即为变量,而数量标志的不同具体表现则称为变量值(或标志值)。如:某职工的年龄就是42岁,月工资2200元。 4、统计指标的划分 (1)统计指标按其所反映的总体内容的不同,可分为数量指标与质量指标。数量指标指说明总体规模与水平的各种总量指标。质量指标指反应现象总体的社会经济效益与工作质量的各种相对指标与平均指标。 (2)统计指标按其作用与表现形式的不同,有总量指标(绝对数)、相对指标(绝对数)、平均指标(平均数)三种。 第二章统计调查与整理 一、统计调查的含义 统计调查就是统计工作过程的第一阶段。它就是按照统计任务的要求,运用科学的调查方法,有组织的向社会实际搜索各项原始资料的过程。统计调查就是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。 二、统计调查方案设计的内容+调查对象、调查单位的含义 ⒈确定调查目的;(为什么调查) 根据实际需要与可能确定 ⒉确定调查对象与调查单位;(向谁调查) 调查对象——社会现象的总体 调查单位——调查标志的承担者(总体单位)

医学统计学知识点范文.doc

第一章绪论 1、统计学,是关于数据收集、整理、分析、表达和解释的普遍原理和方法。 2、研究对象:具有不确定性结果的事物。 3、统计学作用:能够透过偶然现象来探测其规律性,使研究结论具有科学性。 4、统计分析要点:正确选用统计分析方法,结合专业知识作出科学的结论。 5、医学统计学基本内容:统计设计、数据整理、统计描述、统计推断。 6、医学统计学中的基本概念 (1) 同质与变异 同质,指根据研究目的所确定的观察单位其性质应大致相同。 变异,指总体内的个体间存在的、绝对的差异。 统计学通过对变异的研究来探索事物。 (2) 变量与数据类型 变量,是反映实验或观察对象生理、生化、解剖等特征的指标。 变量的观测值,称为数据 分为三种类型:定量数据,也称计量资料,指对每个观察单位某个变量用测量或其他定量方法准确获得的定量结果。(如身高、体重、血压、温度等) 定性数据,也称计数资料,指将观察单位按某种属性分组计数的定性观察结果。包括二分类、无序多分类。(进一步分为二分类和多分类,如性别分为男和女,血型分为A、B、O、AB等) 有序数据,也称半定量数据或等级资料,指将观察单位按某种属性的不同程度或次序分成等级后分组计数的观察结果,具有半定量性质。 统计方法的选用与数据类型有密切的关系。 (3)总体与样本 总体,指根据研究目的确定的所有同质观察单位的全体,包括所有定义范围内的个体变量值。 样本,是从研究总体中随机抽取部分有代表性的观察单位,对变量进行观测得到的数据。抽样,是从研究总体中随机抽取部分有代表性的观察单位。 参数,指描述总体特征的指标。 统计量,指描述样本特征的指标。 (4)误差 误差,指观测值与真实值、统计量与参数之间的差别。 可分为三种:系统误差,也称统计偏倚,是某种必然因素所致,不是偶然机遇造成的,误差的大小通常恒定,具有明确的方向性。 随机测量误差,是偶然机遇所致,误差没有固定的大小和方向。 抽样误差,是抽样引起的统计量与参数间的差异。 抽样误差主要来源于个体的变异。 统计学主要研究抽样误差。 (5)概率 概率,是描述某事件发生可能性大小的量度。 必然事件,事件肯定发生,概率P(U)=1; 随机事件,事件可能发生,可能不发生,概率介于0≤P(A)≤ 1; 不可能事件,事件肯定不发生,概率P(∮)=0; 小概率事件,事件发生的可能性很小,概率P(A)≤ 0.05、或P(A)≤ 0.01。 医学科研中,P(A)≤0.05作为事物差别有统计意义,P(A)≤ 0.01作为事物差别有高度统

统计学课程知识点总结

1. 统计的研究对象的特点:数量性,总体性,变异性。 2. 统计研究的基本环节:统计设计,收集数据,整理与分析,统计资料的积累、开发与应用。 3. 统计总体:根据一定数目的确定的所要研究的的事物的全体。特点:同质性、大量性。 总体可分为有限总体和无限总体。 标志:总体各单位普遍具有的属性或特征。标志分为品质标志(表明单位属性,用文字、语言描述)和数量标志(表明单位数量,用数值表现)。 不变指标:一个总体中各单位有关标志的具体表现都相同。变异指标:在一个总体中,当一个标志在各单位的具体表现有可能都相同。 第二章 1. 统计调查方式:普查,抽样调查,重点调查,定期报表制度。 调查方式按调查的范围划分,可分为全面调查和非全面调查。 按时间标志可分为连续性(经常性)调查和不连续性(一次性)调查 (一) 普查是专门组织的一种全面调查。特点:非经常性调查、最全面调查。 (二) 抽样调查是一种非全面性调查,可分为概率调查和非概率调查。 (三) 重点调查是指在调查对象中,只选择一部分重点单位进行的非全面调查,它是一种不连续的调查。 (四) 定期报表制度又称统计报表制度,它是依照国家有关法规,自上而下地统一布置,按照统一的表式、统一的指标项目、统一的报送时间和报送程序,自下而上逐级地定期提供统计资料的一种调查方式。 2. 我国现行的统计调查体系:以必要的周期性普查为基础,经常性的抽样调查为主体,同时辅之以重点调查、科学推算和部分定期报表综合运用的统计调查方法体系。 3.调查对象是指需要调查的现象总体。调查单位是指所要调查的具体单位,它是进行调查登记的标志的承担者。 4. 统计分组的原则:穷尽原则和互斥原则。 (先分后组) 间断型分组和连续型分组,等距和异距注意事项 第三章 1. 简单算术平均数121 n i n i x x x x x n n =++ +== ∑ 2. 加权算术平均数 11221121 n i i n n i n n i i x f x f x f x f x f f f f ==+++== +++∑∑ 3. 组距数列的算术平均数 4. 相对数的算术平均数 5. 调和平均数 6. 几何平均数 7. 算术平均数的性质: 1 1 , ()0n n i i i i nx x x x ===-=∑∑ 8. 组距数列的众数112O O O M M M L d ?=+??+? 9. 组距数列的中位数12e e e e M e M M M f S M L d f --=+?∑ 11. 方差(注意与样本方差的区别)P102: 10,11题 第四章 1. 事件的关系和运算:包含 ,相等 ,和 ,差 ,积 ,逆 ,不相容 。 2. 概率的计算:古典概型 ,几何概型 加法法则 ,乘法公式 条件概率 ,全概率与贝叶斯公式 3. 常见的随机变量的期望与方差

医学统计学知识点总结

医学统计学 1. 对定量资料进行统计描述时,如何选择适宜的指标 定量资料统计描述常用的统计指标及其适用场合描述内容指 标 意义适用场合 平均水平;均 数 个体的平均值· 对称分布 几何均数平均倍数取对数后对称分布 中位数[ 位次居中的观察值 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 众 数 频数最多的观察值不拘分布形式,概略分析 ? 调和均数 基于倒数变换的平均值正偏峰分布资料 变异度全 距 观察值取值范围不拘分布形式,概略分析 标准差 (方差) 观察值平均离开均数的 程度对称分布,特别是正态分布资料 四分位数 间距 ? 居中半数观察值的全距 ①非对称分布;②半定量资料;③末端开 口资料;④分布不明 变异系数标准差与均数的相对比①不同量纲的变量间比较;②量纲相同但 数量级相差悬殊的变量间比较 定性资料:阳性事件的概率,概率分布,强度和相对比。 ¥ 2. 应用相对数时应注意哪些问题 答:(1)防止概念混淆相对数的计算是两部分观察结果的比值,根据这两部分观察结果的特点,就可以判断所计算的相对数属于前述何种指标。 (2)计算相对数时分母不宜过小样本量较小时以直接报告绝对数为宜。 (3)观察单位数不等的几个相对数,不能直接相加求其平均水平。 (4)相对数间的比较须注意可比性,有时需分组讨论或计算标准化率。 3. 常用统计图有哪些分别适用于什么分析目的 常用统计图的适用资料及实施方法 < 图形 适用资料实施方法 条图组间数量对比用直条高度表示数量大小 直方图用直条的面积表示各组段的频数或频率

( 定量资料的分布 百分条图构成比用直条分段的长度表示全体中各部分的构成比 饼图构成比用圆饼的扇形面积表示全体中各部分的构成比 定量资料数值变动线条位于横、纵坐标均为算术尺度的坐标系 、 线图 半对数线图定量资料发展速度线条位于算术尺度为横坐标和对数尺度为纵坐标的坐标 系 散点图} 双变量间的关联点的密集程度和形成的趋势,表示两现象间的相关关系箱式图定量资料取值范围用箱体、线条标志四分位数间距及中位数、全距的位置茎叶图定量资料的分布' 用茎表示组段的设置情形,叶片为个体值,叶长为频数 第3章概率分布(连续随机变量的正态分布;离散随机变量的二项分布及Poisson分布)1. 服从二项分布及Poisson分布的条件分别是什么 二项分布成立的条件:①每次试验只能是互斥的两个结果之一;②每次试验的条件不变;③各次试验独立。 Poisson分布成立的条件:除二项分布成立的三个条件外,还要求试验次数n很大,而所关心的事件发生的概率 很小。 、 2. 二项分布、Poisson分布分别有什么特征 ①二项分布、Poisson分布都是离散型分布。 ②二项分布的形状取决于π与n的大小。π=时,不论n大小,对称分布。π≠时,图形呈偏态,随n增大而逐渐对称。当n足够大,π或1-π不太小,二项分布近似正态。 ③Poisson分布μ越小,分布越偏。μ越大,分布越对称。当n足够大时,分布接近正态。 4、正态分布应用 ①估计变量值的频数分布 《 ②制定参考值范围 ③质量控制 ④正态分布是很多统计方法的基础 5. 正态分布特征 ①以均数为中心,左右对称 ②正态曲线在横轴上方均数处取得最高点 ~ ③正态分布有两个参数,即均数(位置参数)和标准差(变异度参数)(μ,σ2 ;标准0,1)

统计学知识点梳理

复习提纲:(计算部分全用红色标注了!其他红色的是我的推断,可能出什么题型;有下划线的重点记忆!当然整理的知识点都是重点!都要背和理解!Fighting!) 第一章绪论 一.统计的含义 即统计工作、统计资料和统计学 统计工作:统计实践活动,搜集,整理,分析和提供关于社会现象数字资料工作总称 统计资料:统计实践活动过程中所取得的各项资料,包括原始资料和加工整理资料 统计学:关于认识客观现象总体数量特征和数量关系的科学 二.统计工作过程 就一次统计活动来讲,一个完整的认识过程一般可以分为统计调查、统计整理和统计分析三个阶段。

统计调查:第一阶段,是认识客观经济现象的起点,是统计整理和统计分析的基础。 统计整理:第二阶段,处于统计工作的中间环节,起着承前启后的作用。 统计分析:第三阶段,通过第三阶段,事物由感性认识上升到理性认识。 三.总体与总体单位(会辨析总体与总体单位即可) 总体,亦称统计总体,是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体;构成总体的这些个别单位称为总体单位。 总体由总体单位构成,要认识总体必须从总体单位开始,总体是统计认识的对象。 例如:所有的工业企业就是一个总体,其中的每一个工业企业就是一个总体单位。 四.标志和指标 标志是用来说明总体单位特征的名称。 指标,亦称统计指标,是说明总体的综合数量特征的。一个完整的统计指标包括数量指标名称和指标数值两部分。(以上内容理解即可) 1.指标和标志的区别和联系(简答) 指标与标志的区别:(1)指标是说明总体特征的,而标志是说明总体单位特征的;(2)指标都能用数值表示,而标志中的品质标志不能用数值表示,是用属性表示的;(3)指标数值是经过一定的汇总取得的,而标志中的数量标志不一定经过汇总,可直接取得;(4)一个完整的统计指标,一定要讲时间、地点、范围,而标志一般不具备时间、地点等条件。 指标与标志的联系:(1)有许多统计指标的数值是从总体单位的数量标志值汇总而来的;(2)两者存在着一定的变换关系,即由于研究目的不同,原来的统计总体如果变成总体单位了,则相应的统计指标也就变成数量标志了。 2.标志与标志值(会区分) 标志分为品质标志和数量标志,数量标志用来说明总体单位量的特征,可以用数值表示,即为标志值(如:年龄、工资额、身高) 3.变异与变量(会什么是变异,什么是变量) 变异:品质标志在总体单位之间的不同具体表现。如:性别表现为男、女,民族表现为汉、满、蒙等。 变量:数量标志抽象化即为变量,而数量标志的不同具体表现则称为变量值(或标志值)。如:某职工的年龄是42岁,月工资2200元。 4.统计指标的划分 (1)统计指标按其所反映的总体内容的不同,可分为数量指标和质量指标。数量指标指说明总体规模和水平的各种总量指标。质量指标指反应现象总体的社会经济效益和工作质量的各种相对指标和平均指标。 (2)统计指标按其作用和表现形式的不同,有总量指标(绝对数)、相对指标(绝对数)、平均指标(平均数)三种。 第二章统计调查与整理 一.统计调查的含义 统计调查是统计工作过程的第一阶段。它是按照统计任务的要求,运用科学的调查方法,有组织的向社会实际搜索各项原始资料的过程。统计调查是整个统计认识活动的基础,决定着统计认识过程及其结果的成败。 二.统计调查方案设计的内容+调查对象、调查单位的含义 ⒈确定调查目的;(为什么调查) 根据实际需要和可能确定

统计学原理考试知识点整理

第1章 绪论 1、统计的含义统计一词最基本的含义是对客观事物的数量方面进行核算和分析,是人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。 2、统计的特点P3 数量性 具体性 综合性 3、统计学的若干基本概念 总体与总体单位P10: 总体是指在某种共性的基础上由许多个别事物结合起来的整体,构成总体的个别事物叫总体单位; 总体的特征:同质性,大量性,差异性;总体的分类:有限总体与无限总体;标志、变异与变量P10: 标志,是指说明总体单位特征的名称。变异:总体单位之间品质和数量上的差异,即可变标志在总体各单位之间所表现出的差异。变量:可变的数量标志。 连续型变量与离散型变量联系和区别:连续型:变量值可作无限分割的变量离散型:变量值只能以整数出现的变量指标与标志P11 (指标,说明总体数量特征的概念)区别:第一,指标说明总体的特征,而标志则说明总体单位的特征。第二,指标只反映总体的数量特征,所有指标都要用数字来回答问题,没有用文字回答问题的指标。而标志既有反映数量也有反映品质。 第2 章统计调查 1、统计调查的含义及其在统计工作中的地位P13 含义:根据统计研究的目的,有组织、有计划地搜集统计资料的过程地位:是统计工作的第一阶段,是整个统计工作的基础一环 2、统计调查的基本原则P13-14 一、要实事求是,如实反映情况 二、要及时反映,及时预报 三、要数字与情况相结合 3、统计调查的组织形式:普查P14:含义:为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查、优缺点:,适用场合:主要用于一些重要项目呢的调查,如人口普查、耕地普查、基本单位普查、工业普查和库存普查等; 随机抽样调查P14:含义(按随机原则(机会均等原则)从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法)以及具体的抽样方法【第七章】系统抽样、多阶 简单随机、分层抽样、整群抽样、 段抽样)及适用场合;非随机抽样:含义(调查者有意识地或随意而 非随机地从总体中抽取部分单位进行调查的统计方法)以及具体的抽样方法P15 (重点抽样:只对总体中为数不多但影响颇大的重点单位进行研究的一种非

医学统计学考试重点整理

一、基本概念 1.总体与样本 总体:所有同质观察单位某种观察值(即变量值)的全体 样本:是总体中抽取部分观察单位的观察值的集合 2.普查与抽样调查 普查:就是全面调查,即调查目标总体中全部观察对象 抽样调查:是一种非全面调查,即从总体中抽取一定数量的观察单位组成样本,对样本进行调查 3.参数与统计量 参数:总体的某些数值特征 统计量:根据样本算得的某些数值特征 4.Ⅰ型与Ⅱ型错误 假设检验的结论 真实情况拒绝H0不拒绝H0 H0正确Ⅰ型错误(ɑ) 推断正确(1 ?ɑ) H0不正确推断正确(1?β) Ⅱ型错误(β) Ⅰ型错误(ɑ错误): H0为真时却被拒绝,弃真错误 Ⅱ型错误(β错误): H0为假时却被接受,取伪错误 5.随机化原则与安慰剂对照 随机化原则:是将研究对象随机分配到实验组和对照组,使每个研究对象都有同等机会被分配到各组中去,以平衡两组中已知和未知的混杂因素,从而提高两组的可比性,避免造成偏倚。(意义:①是提高组间均衡性的重要设计方法;②避免有意扩大或缩小组间差别导致的偏倚;③各种统计学方法均建立在随机化基础上) 安慰剂对照:是一种常用的对照方法。安慰剂又称伪药物,是一种无药理作用的制剂,不含试验药物的有效成分,但其感观如剂型、大小、颜色、质量、气味及口味等都与试验药物一样,不能被受试对象和研究者所识别。(安慰剂对照主要用于临床试验,其目的在于控制研究者和受试对象的心理因素导致的偏倚,并提高依从性。安慰剂对照还可以控制疾病自然进程的影响,显示试验药物的效应) 6.误差与标准误(区分率与均数) ㈠均数 抽样误差:由个体变异产生的、随机抽样引起的样本统计量与总体参数间的差异。 标准误:是指样本均数的标准差,反映抽样误差大小的定量指标,其公式表示为S x =S/√n ㈡样本率 率的抽样误差:样本率p和总体率π的差异 率的标准误:样本率的标准差,公式为σp=√π(1-π)/n

统计学知识点汇总情况

统计学知识点汇总 一、统计学 统计学是一门关于数据资料的收集、整理、分析和推断的科学。 三、统计的特点 (1)数量性: 社会经济统计的认识对象是社会经济现象的数量方面,包括现象的数量表现、现象之间的数量关系和质量互变的数量界限。 (2)总体性: 社会经济统计的认识对象是社会经济现象的总体的数量方面。例如,国民经济总体的数量方面、社会总体的数量方面、地区国民经济和社会总体的数量方面、各企事业单位总体数量方面等等。 (3)具体性: 社会经济统计的认识对象是具体事物的数量方面,而不是抽象的量。这是统计与数学的区别。(4)社会性: 社会经济现象是人类有意识的社会活动,是人类社会活动的条件、过程和结果,社会经济统计以社会经济现象作为研究对象,自然具有明显的社会性。 四、统计工作过程 (1)统计设计 根据所要研究问题的性质,在有关学科理论的指导下,制定统计指标、指标体系和统计分类,给出统一的定义、标准。同时提出收集、整理和分析数据的方案和工作进度等。 (2)收集数据 统计数据的收集有两种基本方法,实验法和调查法。 (3)整理与分析

描述统计是指对采集的数据进行登记、审核、整理、归类,在此基础上进一步计算出各种能反映总体数量特征的综合指标,并用图表的形式表示经过归纳分析而得到的各种有用的统计信息。 推断统计是在对样本数据进行描述的基础上,利用一定的方法根据样本数据去估计或检验总体的数量特征。 (4)统计资料的积累、开发与应用 对于已经公布的统计资料需要加以积累,同时还可以进行进一步的加工,结合相关的实质性学科的理论知识去进行分析和利用。 五、统计总体的特点 (1)大量性 大量性是指构成总体的总体单位数要足够的多,总体应由大量的总体单位所构成,大量性是对统计总体的基本要求; (2)同质性 同质性是指总体中各单位至少有一个或一个以上不变标志,即至少有一个具有某一共同标志表现的标志,使它们可以结合起来构成总体,同质性是构成统计总体的前提条件; (3)变异性 变异性就是指总体中各单位至少有一个或一个以上变异标志,即至少有一个不同标志表现的标志,作为所要研究问题的对象。变异性是统计研究的重点。 六、标志与指标的区别与联系 ■区别: 标志是说明总体单位特征的;指标是说明总体特征的。 标志中的品质标志不能用数量表示;而所有的指标都能用数量表示。 标志(指数量标志)不一定经过汇总,可直接取得;而指标(指数量指标)一定要经过汇总才能取得。

医学统计学知识点汇总(精华)

医学统计学知识点汇总(精华) 一.概论 1,医学统计学:运用概率论和数理统计学的原理和方法,研究医学领域中随机现象有关数据的搜集、整理、分析和推断,进而阐明其客观规律性的一门应用科学。 2,医学统计学的主要内容: 1)统计研究设计调查研究设计和实验研究设计 2)医学统计学的基本原理和方法研究设计和数据处理中的基本统计理论和方法。 A:资料的搜集与整理 B:常用统计描述,集中趋势和离散趋势,相对数,相关系数,回归系数,统计表,统计图 C:统计推断,如参数估计和假设检验。 3)医学多元统计方法多元线性回归和逐步回归分析、判别分析、聚类分析、主成分分析、因子分析、logistic回归与Cox回归分析。 3,统计工作步骤: 1)设计明确研究目的和研究假说,确定观察对象与观察单位,样本含量和抽样方法,拟定研究方案,预期分析指标,误差控制措施,进度与费用。 2)搜集材料 A,搜集材料的原则及时、准确、完整 B,统计资料的来源医学领域的统计资料的来源主要有三个方面。一是统计报表,二是经常性工作记录,三是专题调查或专题实验。 C,资料贮存 3)整理资料 a检查核对b设计分组c拟定整理表d归表 4)分析资料统计分析包括统计描述和统计推断

4,同质(homogeneity):指被研究指标的影响因素相同。 变异(variation):同质基础上的各观察单位间的差异。 变量(variable):收集资料过程中,根据研究目的确定同质观察单位,再对每 个观察单位的某项特征进行测量或观察,这种特征称为变量变量值:变量的观察结果或测量值。 5,总体(population)根据研究目的所确定的同质研究对象中所有观察单位某 变量值的集合。总体具有的基本特征是:同质性 样本(sample)从总体中随机抽取部分观察单位,其变量值的集合构成样本。 样本必须具有代表性。代表性是指样本来自同质总体,足够的样 本含量和随机抽样的前提。

统计学基础知识要点

第一章:导论 1、什么就是统计学?统计方法可以分为哪两大类? 统计学就是收集、分析、表述与解释数据的科学。统计方法可分为描述统计方法与推断统计方法。 2、统计数据可分为哪几种类型?不同类型的数据各有什么特点? 按照所采用的计量尺度不同,分为分类数据、顺序数据与数值型数据;按照统计数据的收集方法,分为观测的数据与实验的数据;按照被描述的对象与时间的关系,分为截面数据与时间序列数据。 按计量尺度分时:分数数据中各类别之间就是平等的并列关系,各类别之间的顺序就是可以任意改变的;顺序数据的类别之间就是可以比较顺序的;数值型数据其结果表现为具体的数值。按收集方法分时:观测数据就是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。按被描述的对象与时间关系分时:截面数据所描述的就是现象在某一时刻的变化情况;时间序列数据所描述的就是现象随时间而变化的情况。 3、举例说明总体、样本、参数、统计量、变量这几个概念。 总体就是包含研究的全部个体的集合。比如要检验一批灯泡的使用寿命,这一批灯泡构成的集合就就是总体。样本就是从总体中抽取的一部分元素的集合。比如从一批灯泡中随机抽取100个,这100个灯泡就构成了一个样本。参数就是用来描述总体特征的概括性数字度量。比如要调查一个地区所有人口的平均年龄,“平均年龄”即为一个参数。统计量就是用来描述样本特征的概括性数字度量。比如要抽样调查一个地区所有人口的平均年龄,样本中的“平均年龄”即为一个统计量。变量就是说明现象某种特征的概念。比如商品的销售额就是不确定的,这销售额就就是变量。 第二章:数据的收集 1、调查方案包括哪几个方面的内容? 调查目的,就是调查所要达到的具体目标。调查对象与调查单位,就是根据调查目的确定的调查研究的总体或调查范围。调查项目与调查表,要解决的就是调查的内容。 2、数据的间接来源(二手数据)主要就是公开出版或公开报道的数据;数据的直接来源一就是调查或观察,二就是实验。 3、统计调查方式:抽样调查、普查、统计报表等。 抽样调查就是从调查对象的总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体数量特征的一种数据收集方法。特点:经济性,时效性强,适应面广,准确性高。普查就是为某一特定目的而专门组织一次性全面调查。我国进行的普查主要有人中普查、工业普查、农业普查等。统计报表就是按照国家有关法规的规定,自上而下地统一布置、自下而上地逐级提供基本统计数据的一种调查方式。 除此之外,还有重点调查与典型调查。 4、统计数据的误差通常就是指统计数据与客观现实之间的差距,误差的主要类型有抽样误差与非抽样误差两类。 抽样误差主要就是指在样本数据进行推断时所产生的随机误差(无法消除);非抽样误差就是人为因素造成的(理论上可以消除) 5、统计数据的质量评价标准:精度,即最低的抽样误差或随机误差;准确性,即最小的非抽样误差或偏差;关联性,即满足用户决策、管理与研究的需要;及时性,即在最短的时间里取得并公布数据;一致性,即保持时间序列的可比性;最低成本,即在满足以上标准的前提下,以最经济的方式取得数据。 6、数据的收集方法分为询问调查与观察实验。 7、统计调查方案包括哪些内容? 调查目的即调查所要达到的具体目标;调查对象与调查单位,调查对象就是根据调查目的确定的调查研究的总体或调查范围,调查单位就是构成调查对象中的每一个单位;调查项目与调查表,就就是调查的具体内容;其它问题,即明确调查所采用的方式与方法、调查时间及调查组织与实施细则。 第三章:数据整理与展示 1、对于通过调查取得的原始数据,应主要从完整性与准确性两个方面去审核。 2、对分类数据与顺序数据主要就是做分类整理,对数值型数据则主要就是做分组整理。 3、数据分组的步骤:确定组数、组距,最后制成频数分布表 统计分组时“上组限不在内”,相邻两组组限间断,上限值采用小数点。 组中值=(下限值+上限值)/2 4、频数:落在各类别中的数据个数;频数分布指把各个类别及落在其中的相应频数全部列出,并用表格形式表现出来;比例:某一类别数据占全部数据的比值;百分比:将对比的基数作为100而计算的比值;比率:不同类别数值的比值;分类数据的图示包括条形图与饼图。 5、直方图与条形图的差别:条形图就是用条形的长度表示各类别频数的多少,宽度则就是固定的,直方图就是用面积表示各组频数的多少,矩形的高度表示每一组的频数或频率,宽度则表示各组的组距,因此其高度与宽度均有意义。其次,直方图的各矩形通常就是连续排列,而条形图则就是分开排列。最后,条形图主要用于展示分类数据,而直方图则主要用于展示数值型数据。 第四章:数据分布特征的测度 1、一组数据的分布特征可以从哪几个方面进行测度? 一就是分布的集中趋势反映各数据向其中心值靠拢或聚集的程度;二就是分布的离散程度,反映各数据据远离其中心值的趋势;三就是分布的形状,反映数据分布偏斜程度与峰度。 2、简述众数、中位数与均值的特点与应用场合及关系。

(完整word版)高中必修三统计知识点整理(20190607191608)

高中数学必修3 知识点总结 第二章统计 2.1.1 简单随机抽样 1 .简单随机抽样,也叫纯随机抽样。就是从总体中不加任何分组、划类、排队等,完全随机地抽取调查单位。特点是:每个 样本单位被抽中的可能性相同(概率相等),样本的每个单位完全独立,彼此间无一定的关联性和排斥性。简单随机抽样是其 它各种抽样形式的基础。通常只是在总体单位之间差异程度较小和数目较少时,才采用这种方法。 2.简单随机抽样常用的方法: ( 1 )抽签法;⑵ 随机数表法;⑶ 计算机模拟法;⑷ 使用统计软件直接抽取。 在简单随机抽样的样本容量设计中,主要考虑:① 总体变异情况;② 允许误差范围;③ 概率保证程度。 3.抽签法: ( 1 )给调查对象群体中的每一个对象编号; ( 2 )准备抽签的工具,实施抽签 ( 3 )对样本中的每一个个体进行测量或调查 例:请调查你所在的学校的学生做喜欢的体育活动情况。 4.随机数表法: 例:利用随机数表在所在的班级中抽取10 位同学参加某项活动。 2.1.2 系统抽样 1 .系统抽样(等距抽样或机械抽样): 把总体的单位进行排序,再计算出抽样距离,然后按照这一固定的抽样距离抽取样本。第一个样本采用简单随机抽样的 办法抽取。 K(抽样距离)=N(总体规模)/n(样本规模)

前提条件:总体中个体的排列对于研究的变量来说,应是随机的,即不存在某种与研究变量相关的规则分布。可以在调查允许的条件下,从不同的样本开始抽样,对比几次样本的特点。如果有明显差别,说明样本在总体中的分布承某种循环性规律,且这种循环和抽样距离重合。 2.系统抽样,即等距抽样是实际中最为常用的抽样方法之一。因为它对抽样框的要求较低,实施也比较简单。更为重要的是, 如果有某种与调查指标相关的辅助变量可供使用,总体单元按辅助变量的大小顺序排队的话,使用系统抽样可以大大提高估 计精度。 2.1.3 分层抽样 1 .分层抽样(类型抽样) 先将总体中的所有单位按照某种特征或标志(性别、年龄等)划分成若干类型或层次,然后再在各个类型或层次中采用 简单随机抽样或系用抽样的办法抽取一个子样本,最后,将这些子样本合起来构成总体的样本。 两种方法: 1 .先以分层变量将总体划分为若干层,再按照各层在总体中的比例从各层中抽取。 2.先以分层变量将总体划分为若干层,再将各层中的元素按分层的顺序整齐排列,最后用系统抽样的方法抽取样本。 2.分层抽样是把异质性较强的总体分成一个个同质性较强的子总体,再抽取不同的子总体中的样本分别代表该子总体,所有 的样本进而代表总体。 分层标准: ( 1 )以调查所要分析和研究的主要变量或相关的变量作为分层的标准。 (2)以保证各层内部同质性强、各层之间异质性强、突出总体内在结构的变量作为分层变量。 (3)以那些有明显分层区分的变量作为分层变量。 3.分层的比例问题: ( 1 )按比例分层抽样:根据各种类型或层次中的单位数目占总体单位数目的比重来抽取子样本的方法。 (2)不按比例分层抽样:有的层次在总体中的比重太小,其样本量就会非常少,此时采用该方法,主要是便于对不同层次 的子总体进行专门研究或进行相互比较。如果要用样本资料推断总体时,则需要先对各层的数据资料进行加权处理,调整样 本中各层的比例,使数据恢复到总体中各层实际的比例结构。

相关主题