搜档网
当前位置:搜档网 › 统计学复习提纲详细

统计学复习提纲详细

统计学复习提纲详细
统计学复习提纲详细

第二学期《统计学》复习提纲

第一章:绪论

1、统计的含义、研究对象和特点

一、统计的含义:人们对客观事物的数量表现、数量关系和数量变化进行描述和分析的一种计量活动。在不同的场合,统计一词有统计工作、统计资料、统计科学三种含义。

二、统计的研究对象:是统计工作的规律,即搜集、整理和分析统计数据的方法,是一门方法论科学。(P11)

三、统计的特点:1)数量性(最基本特点);2)具体性;3)综合性(或者总体性)。(P4)

2、统计学的基本概念:总体、总体单位、标志、指标、变量

一、总体:在某种共性的基础上由许多个别事物结合起来的整体。其特征1)同质性;2)大量性;3)差异性。其分类:1)有限总体;2)无限总体。(P13)

确定总体是为了确定调查研究的对象和范围,确定总体单位是为确定调查登记项目的承担者。

二、总体单位:构成总体的个别事物。(P13)

三、标志:指说明总体单位特征的名称,由标志名称+标志值构成。其分类:1)品质标志、数量标志;2)不变标志、可变标志(包括变异和变量)。(P15)

四、指标:是说明总体数量特征的概念。由指标名称+指标值组成。

五、变量:可变的数量标志。(P15)

3、补充:标志和指标的区别和联系

1)区别:

①指标说明总体的特征;而标志说明总体单位的特征

②指标只反映总体的数量特征;标志既可以反映总体单位的数量特征,也可以反映总体单位的品质特征

2)联系:指标的数值是由总体各单位的数量标志的标志值汇总而得到的

第二章:统计调查

1、统计调查的组织形式有哪些。(红色字体)

2、什么是随机抽样;什么是非随机抽样。(蓝色字体)

3、非随机抽样的类型(粉红色字体)

一、普查:是指为搜集某种社会经济现象在某时某地的情况而专门组织的一次性全面调查。特点:涉及面广、工作量大、时间性强、耗费较多、组织工作复杂。

二、随机抽样调查:是指按随机原则从总体中抽取部分单位进行调查,并借以推断和认识总体的一种统计方法。特点:最科学的非全面调查。

三、非随机抽样调查:是指调查者有意识地或随意而非随机地从总体中抽取部分单位进行调查的统计方法。特点:一般不用于推算总体指标。

1)重点抽样,是指只对总体中为数不多但影响颇大的重点单位进行研究的一种非全面调查。特点:以较少的人力、物力和财力,几时地掌握总体的基本情况及其发展变化的基本趋势。

2)典型抽样,是指根据对调查对象的初步了解,有意识地从中挑选具有代表性的单位进行研究的一种非全面调查。特点:唯物辩证法的引用,从个体了解一般,灵活反驳,反应迅速,省时省力,深入具体。作用:①“解剖麻雀”,推论一般,指导全局。②研究新生书屋,推广新鲜经验,促进新生事物的发展。③有利于全局与典型、数字与轻狂的结合,促进统计研究的深化。(= =!不可靠的马克思产物)

3)任意抽样(方便抽样、随意抽样),是指调查者随意抽取调查单位进行调查的一种方法。特点:不能保证每个单位都有相同的中选机会。(与随机抽样相区分)4)配额抽样,是在总体作若干种分类和样本总容量既定的轻狂下,按配额从总体各部分抽取调查单位进行调查的方法。

四、定期统计报表:是指按国家统一规定的指标体系、表格形式、报送程序和报送时间,定期地自下向上地向国家和上级主管部门报送统计资料的一种统计调查形式。

4、调查误差的概念和种类。

一、调查误差的概念:是指调查所得的统计数字与调查对象的实际数量之间的差异。

二、调查误差的种类:

1)工作误差:由于调查工作中的失误造成的误差。(人为误差,理论上可以消除)

2)代表性误差:以部分推断总体时必然存在的误差。(无法消除,但可以进行控制和计算)

5、补充:统计资料的搜集方法。

一、直接观察法。

二、采访法。

三、报告法。

四、通讯法。

五、实验调查法。

六、网上调查法。

6、补充:调查方案的基本内容。

一、统计调查的目的。

二、调查对象、调查单位和报告单位。

三、调查项目和调查表。

四、调查的时间和地点。

五、调查的方式、方法。

六、调查工作的组织实施计划。

7、补充:调查技术。

一、自由回答法。

二、二项选择法。

三、多项选择法。

四、赋值评价法。

五、空位答题法。

六、等级定位法。

七、排序顺位法。

八、比较选择法。

九、连线配合法。

第三章:统计整理

1、统计分组:组数、组距、组限、组中值(及其计算)

一、组数:即将总体分为几组。

1)品质分组的组数由两个因素决定:事物本身的特点和统计研究的任务 2)数量分组的组数由两个因素决定: ①全距=最大标志值-最小标志值

②组距=各组最大标志值(上限)-各组最小标志值(下限)=全距÷组数 二、组距:各组的最大标志值(上限)与最小标志值(下限)之差。

三、组限:是指每组两端的数值,其中每组的起点数值(最小值)称为下限,最点数值(最大值)称为上限。

四、组中值:是各组组距的中点值,代表组内各标志值的一般水平,具有平均数性质(但不是平均数)。

五、计算:

1)重合式:指相邻两组中,前一组的上限和后一组的下限数值重合。一般用于连续型变量。

组距=上限-下限

组中值=(上限+下限)÷2=下限+组距/2=上限-组距/2

2)不重合式:指前一组的上限与后一组的下限,两值紧密相连而不相重复。一般用于离散型变量。

组距=下组下限-本组下限=本组上限-前组上限

组中距= =(本组下限+下一组下限) ÷2=本组下限+组距/2=下组下限-组距/2

补充:组数、组距确定的斯特杰斯经验公式

补充:分组形式: 一、单项式分组: 1)适合于离散变量

2)将一个变量值作为一组

3)适合于变量值变动幅度较小的情况 二、组距式分组:

1、适合于连续变量和变动幅度较大的离散变量

2、适合于变量值较多的情况

3、将变量值的一个区间作为一组必须遵循“不重不漏”的原则 :最小变量值

:最大变量值, :全距 :组距, :总体单位数, 组数, min max : lg 3 . 3 1 min max lg 3 . 3 1 X X R d N n N

X X n R d N

n + - =

= + = 机器台数

工人数

243548526

1合计

20

4、可采用等距分组,也可采用不等距分组

补充:等距分组与不等距分组:

一、等距分组:标志变量在各组保持相等组距。在分组标志变化比较均匀的情况下适合用等距分组。

二、不等距分组:标志变量在各组中的组距不相同。标志值急剧增长或下降时适合用不等距分组。

2、分布数列及其种类;

一、分布数列(次数分布或次数分配):指反映总体单位在各组分布状况的一系列数字。分布数列组成要素:1)组的名称;2)各组次数(频数)或频率

二、分布数列的种类:

1)按分组标志的不同:

①品质数列,是指按品质标志分组所形成的分布数列,它由各组名称和各组单位数构成。

②变量数列,是指按数量标志分组所形成的分布数列,由变量和次数两个要素组成。

2)按分组形式不同:

1)单项式数列,是指各组都由一个具体的变量值(单项)来表示的数列。

2)组距式数列,是指各组都由两个变量值界定的变量区间(组距)来表示数列,又分为等距数列和不等距数列。

3)按次数分布的特征不同:

1)钟形分布数列,数列中愈靠近变量值中点分布次数愈多,愈远离变量值中点分布次

3)历史资料的审查。

4)差错的更正和处理。

二、统计整理的分组:

1)统计分组:指根据社会经济现象的特点和统计研究的目的要求,按某种重要标志把总体分成若干部分的科学分类。分组原则:组内尽量相似,组间尽量差异。统计分组的关键:①选择分组标志;②划分各组界限。

2)统计分组的作用:

①划分社会现象的不同类型

②揭示社会经济现象的内部结构

③分析社会现象间的依存关系

3)统计分组的种类:

①按分组的作用或目的不同:类型分组、结构分组和分析分组。

②按分组标志的多少和分组形式:简单分组、复合分组和并列分组。

③按分组标志性质:品质分组和数量分组。

4)统计分组的标志选择:

①分组标志:是指将总体划分为性质不同的组的标准或依据。

②分组标志选择的要求:

Ⅰ要符合统计研究的目的和要求

Ⅱ必须选择最主要的标志作为分组依据

Ⅲ要考虑社会经济现象所处的具体历史条件

三、统计整理的汇总:

1)概念:将统计资料归并到各组中去,并计算各组和总体的合计数的工作过程。

2)作用:将各个调查单位的情况,汇总成总体情况,使我们能看到全体,进而揭示总体在多方面的数量特征。

四、统计整理的制表:

1)要合理安排统计表的结构。

2)总标题应该简要反映表的基本内容,还要指出资料所属时间和地点。

3)数据计量单位相同时,可放在表的右上角标明,不同时应放在每个指标后或单列出一列标明。

4)表中的上下两条横线一般用粗线,其他线用细线。

5)通常情况下,统计表的左右两边不封口。

6)表中的数据一般是右对齐,有小数点时应以小数点对齐,而且小数点的位数应统一。

7)对于没有数字的表格单元,一般用“—”表示

8)必要时可在表的下方加上注释

第四章:总量指标和相对指标

1、总量指标和种类;

一、总量指标(绝对指标):是反映社会经济现象在一定时间、地点条件下所达到的总规模、总水平或工作总量的综合指标。、

二、总量指标的种类:

1)按其反映总体内容不同:

总体总量,即总体单位数,是由每个总体单位加总而得到的。

标志总量,是指总体各单位某一数量标志的总和。

2)按其反映时间状态的不同:

时期指标(时期数),是指反映社会经济现象在一段时间内所达到的总规模、总水平或工作总量。

时点指标(时点数),是指反映社会经济现象在某一时点(时刻)所达到的数量状态。

3)按采用的计量单位不同:

实物指标,是指以实物单位计量的总量指标,即以事物的物理属性或自然属性作为计量单位的指标。

价值指标,是指以货币为计量单位的总量指标。

劳动量指标,是指以劳动量单位计量的总量指标。

补充:时期指标与时点指标的比较:

时期指标的特点

1)时期指标数值连续统计

2)不同时期的时期指标数值可以累计相加

3)时期指标数值大小与统计期限长短有关

时点指标的特点

1)时点指标的数值间断统计

2)不同时期的时点的指标数值不能累计相加

3)时点指标的数值大小与其时间间隔长短无直接相关

1、相对指标和种类;

一、相对指标:两个有联系的统计指标进行对比的比值,用以反映现象的发展程度、结构、强度、普遍程度或比例关系。表现形式:①成数;②系数和倍数;③百分数、千分数、万分数;④单名数和复名数

二、相对指标的种类:

1)计划完成相对数:现象在某一段时间内的实际完成数与计划完成数之比。作用:考核、反映计划完成的程度(进度)。

计算公式:计划完成相对数=实际完成数/计划完成数×100%

产量、产值增长百分数:计划完成相对数=(100%+实际增长%)/(100%+计划增长%)×100%

产品成本降低百分数:计划完成相对数=(100%-实际降低%)/(100%-计划规定降低%)×100% 2)结构相对数:总体中某部分数值与该总体数值对比的比值。作用:反映总体内部构成情况的综合指标。特点:①必须与统计分组相结合;②分子的数值是分母数值的一部分;

③总体中各部分比重之和等于1或100%;④表现形式为无名数(百分数、千分数或成数)。计算公式:结构相对数=总体某部分数值/总体数值×100%

3)比例相对数:同一总体内某一部分数值与另一部分数值对比的比值。作用:反映总体各部分间的内在联系与比例关系。(同一总体不同部分比较)特点:①对比的分子分母属于同一总体;②分子分母可以互换(与结构相对数的区别);③比例相对数的数值,一般用百分数或几比几的形式表示。

计算公式:比例相对数=总体中某一部分数值/同一总体另一部分数值×100% 4)比较相对数:同一时间的同类指标在不同空间对比的比值。作用:反映同类现象在不同空间的数量差异或不平衡程度,发现先进与后进。特点:①分子分母的数值分别属于不同的总体;②分子分母是同类指标;③分子分母可以互换。

计算公式:比较相对数=甲地区某指标数值/乙地区同一指标数值×100%

5)动态相对数:某一社会经济现象在不同时期两个数值对比的比率,又称发展速度或指数。作用:反映事物发展变化的方向与程度。其中:报告期又称计算期,是研究或计算时期。基期是作为比较基础的时期。

计算公式:动态相对数=报告期数值/基期数值×100%

6)强度相对指标:两个性质不同但有一定联系的总量指标之间的对比。作用:①反映事物存在的密度、普遍程度、运动强度、负担强度;②反映经济效益的高低。特点①强度相对数一般采用有名数(复名数)为计量单位,即由分子分母原有的计量单位构成。②有的强度相对指标分子分母可以互换,有正指标和逆指标,正指标的比值的大小与其反映的强度、密度和普遍程度成正比,而逆指标正好相反。

计算公式:强度相对数=某一指标数值/另一有联系的指标数值×100%

第五章:平均指标

1、平均指标及其种类;

一、平均指标:同质总体某一标志在一定时间、地点、条件下所达到的一般水平,是总体的代表值,它描述分布数列的集中趋势。特点:同质性、代表性和抽象性。作用:①可以比较同类现象在不同单位、不同地区间的平均水平;②可以比较同类现象在不同时期的平均水平;③可用于研究事物之间的依存关系;④利用平均数还可以进行推算和预测。

二、平均指标的种类:

1)数值平均数:算术平均数、调和平均数和几何平均数。 2)位置平均数:众数和中位数。

2、各种平均指标的计算:

一、算术平均数:算术平均数=同一总体的标志总量/同一总体的总体总量 1)简单算术平均数: 2)加权算术平均数:

3)交替标志平均数:以1作为具有某种属性的单位标志值,以0作为不具有某种属性

的单位标志值。利用加权算术平均数可得。

补充:算术平均数的数学性质:

1)算术平均数与总体单位数的乘积,等于各单位标志值的总和。 2)各单位标志值与算术平均数离差之和等于0.

3)各单位标志值与算术平均数离差平方之和为最小。

4)对各单位标志值加或减一个任意数a ,则算术平均数也要增加或者减少该数a 。 5)对各单位标志值乘以或除以一个任意数b ,则算术平均数也要乘以或除以该数b 。

二、调和平均数(倒数平均数)

1)简单调和平均数:是标志值倒数的算数平均数的倒数。 计算公式:

2)加权调和平均数:是指各单位标志值倒数的加权算术平均数的倒数。

计算公式:

121n

i n i =121n i n i X X X X X X n n n

=+++===

∑∑L 112212

1122

12n n n Xf

X f X f X f X f f f f

+++==

+++∑∑L &

L 1

2

1

2

n

n

1212n n f f f f

X X X X X f f

f

f

=++???+=?

∑∑∑∑∑121

121

12.......k i k i x k

k

i

i k

i

m m m m H m m m m x x x x ==+++==+++∑

3)由相对数或平均数计算平均数:(P110)

三、几何平均数:几何平均法是n 个变量连乘积的n 次根。一般适用于各变量值之间存在环比关系的事物。

1)简单几何平均数:

2)加权几何平均数:

3)注意:

①变量数列中任何一个变量值不能为0,一个为0,则几何平均数为0。 ②用环比指数计算的几何平均易受最初水平和最末水平的影响。 ③几何平均法主要用于动态平均数的计算。

四、众数:总体中出现次数最多的变量值,通常以符号M0表示。优点:不受极端值的影响。可能没有众数或有几个众数。

1)由组距数列计算众数: 第一步确定众数所在的组, 第二步通过公式计算众数值。 下限公式:M 0=L+Δ1/(Δ1+Δ2)×i 上限公式:M 0=U-Δ2/(Δ1+Δ2)×i 2)通过绘图来求众数:

第一步画相邻三组次数分布直方图, 第二步连接相邻两组次数差的对角线,

第三步以对角线的交点向X 轴垂线,它与X 轴的交点即为众数。

五、中位数:总体各单位标志值按大小排序后,处于中间位置上的标志值,通常以符号M e 表示。优点:不受极端值的影响。

1)未分组数据:中位数位置=(N+1)/2 2)组距分组数据:中位数位置=N/2

3、几种平均数的关系:

1)算术平均数、众数和中位数的关系:

H ≤

G ≤x

n

i G === (1)

321n

n i i n n

x x x x x G ∏

==????=

1、变异度指标的概念和种类;

变异度指标(标志变动度指标):是综合反映总体各单位标志值及其分布的差异程度的指标。

变异度指标的作用:

1)衡量平均数代表性的重要尺度。变异度指标值越大,平均数的代表性越低;反之亦然。

2)衡量现象变动的稳定性和均衡程度。 3)计算抽样误差和确定样本量的依据。 变异度指标的种类: 1)全距、四分位差

2)平均差、标准差、方差、离散系数 3)偏度、峰度

2、掌握各种变异度指标的含义和计算(若考计算,数据都很少,计算过程非常简单):

一、全距(极差):是指总体各单位标志值中最大值与最小值之差,一般以R 表示。

计算公式:R=x max -x min

二、四分位差:是指四分位数中间两个分位数之差,一般以Q 表示。

优缺点:计算简单,意义清楚,反映现象的差异程度较粗略和不全面,实用价值甚小。 计算公式:四分位差Q=第三个四分位数Q 3—第一个四分位数Q 1

三、平均差:是指总体各单位标志值对其算术平均数的离差绝对值的算术平均数,一般以A.D.表示。

优缺点:能全面反映一组数据的离散程度。由于采用绝对值运算,数学性质较差,实际中应用较少。

计算公式:

未分组数据(不加权):

组距分组数据(加权):

四、标准差(均方差):是总体各单位标志值对算术平均数的离差的平方的算术平均数的平方根。一般以σ表示。

方差:标准差的平方。一般以σ2

表示。

优点:反映了各单位标志值与算术平均数的平均差异;且计算简单,易于数学处理。 计算公式:

1)总体方差和标准差: 未分组数据(不加权) ..x x

A D n

-=∑

..x x f

A D f -=∑

2

2

2()

x x σ

-=

∑σ=

组距分组数据(加权)

2)样本方差和标准差:

未分组数据 组距分组数据

五、变异系数(离散系数或标志变动度系数):是指各种变异度指标与其算术平均数对比得到的相对数。

平均差系数:平均差与算术平均数的比值。V A.D.=A.D./x 标准差系数:标准差与算术平均数的比值。V σ=σ/x

3

、偏度和峰度:了解含义;能根据偏度和峰度系数判断分布的特点。

一、偏度:反映总体次数分布偏侧方向和程度的指标。

偏态系数:是偏度与总体标准差之比,反映分布列的相对偏斜程度。偏态系数=0为对称分布;偏态系数> 0为右偏分布;偏态系数< 0为左偏分布。

偏度的测定:

1)算术平均数与众数比较法:

偏度=算术平均数-众数。偏度系数以SK P =(算术平均数-众数)/标准差。SK P >0,右偏;SK P <0,左偏。

2)动差法:

一般采用三阶中心动差作为测定偏态的依据,若以α表示偏态系数,则: α=m 3/σ3

或者

α=0,对称;α>0,右偏;α<0,左偏。

系数<3为扁平分布;偏态系数>3为尖峰分布。

2

2

22()x x f

f

σ

-=

∑∑σ=

1

2

2

=n

i i

1

)

(122--=

∑=n

x x s n i i 1=n

i i

1

)(12

--=

∑=n x x

s n i i 122=k

i i

i 1)(122

--=∑=n f x M s k i i i 1=k

i i

1

)(12--=∑=n f x M

s k i i

i 313K i i =(

)

313K i i

i X X f N ασ=

-=∑

计算公式:β=m 4/σ4

=m 4/m 22

或者

m 4=M 4-4M 3M 1+6M 2M 12-3M 14

补充:间接法。变量值较大且为等距数列的情况。

1)先对变量x 作线性变化,令y=(x-a)/b ,a 为中间组的组中值,b 为(x-a )的最大公约数。

2)求y 的k 阶原点动差。

3)由y 的k 阶原点动差推算y 的k 阶中心动差。

4)由y 的中心动差推算x 的中心动差。公式为:m k (x)=b k

.m k (y)

第七章:抽样调查

1、了解几种常用分布的特点:二项分布、泊松分布和(标准)正态分布。

一、二项分布:进行n 次重复试验,出现“成功”的次数的概率分布。

P{X=x}=C n x .p x .(1-p)n-x

,E(x)=np ,D(x)=np(1-p)

二、泊松分布:用于描述在一指定时间范围内或在一定的长度、面积、体积之内每一事件出现次数的分布。E(x)=D(x)=λ。

λ— 给定的时间间隔、长度、面积、体积内“成功”的平均数,e = 2.71828,x —给定的时间间隔、长度、面积、体积内“成功”的次数。

三、(标准)正态分布:

f (x )=随机变量X 的频数,σ2 =总体方差,π=3.14159,e=2.71828,x =随机变量的取值(-∝ < x < ∝),μ=总体均值。

标准正态分布的使用

1)将一个一般的转换为标准正态分布

2)计算概率时 ,查标准正态概率分布表 4

1

4

K

i i

i =()414

K i i i X X F βσ=-=

∑扁平分布

-λ{}),,2,1,0(!

e n x x x X P Λ===-

λλ()∞<--x 2221μσ()∞<<∞-=--x x f x ,e 21)(2221μσπ

σ)1,0(~N X Z σ

μ-=

3)对于负的 x ,可由Φ (-x )-1=Φ (x )得到

4)对于标准正态分布,即X ~N (0,1),有P (a ≤ X ≤b )= Φ (b ) -Φ (a ),P (|X| ≤a )= 2Φ (a ) -1。

5)对于一般正态分布,即X ~N (μ , σ),有

2、了解大数定理中心极限定理的的含义

一、大数定律(大数法则):是指大量随机变量的平均结果具有稳定性的一系列定理的总称。(P182)

二、中心极限定律:是指随机变量序列的极限分布渐进于正态分布的一系列定理的总称。(P184)

3、抽样调查的基本原理:

一、基本概念:总体和样本;总体指标和样本指标

1)总体:所要认识的研究对象全体,它是由所研究范围内具有某种共同性质的全体单位所组成的集合体。一般用N 来表示总体的单位数。

2)样本:从总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。一般用n 表示样本单位数。

3)总体指标:根据总体各单位的标志值或标志属性计算的综合指标。其是惟一确定的。 4)样本指标:根据样本各单位标志值或标志属性计算的综合指标。

二、重复抽样和不重复抽样 1)重复抽样(放回抽样):同一单位有多次重复被抽中的机会,并且每次抽样之前总体单位数目始终不变,每个单位抽中或抽不中的机会在各次都是相同的。可以看作是进行n 次抽取可以看成是进行n 次相互独立的试验。

2)不重复抽样(不放回抽样):同一单位只有一次被抽中的机会,并且总体单位数目随着样本单位数目抽取的次数的增多而愈变愈少。每个单位抽中或抽不中的机会在各次是不同的。

三、抽样误差:实际误差、平均误差和极限误差。 误差:由样本得到的估计值与被估计的总体未知参数之差,或样本指标数值与总体指标数值之间的差数。

抽样误差(随机误差):按随机原则抽样时,由于随机抽样的偶然因素而引起的抽样指标和全及指标之间的绝对离差。其不包括登记误差和系统性误差。

1)实际误差:是指在一次抽样中由随机因素引起的样本指标与总体指标之间的离差。 2)平均误差:是指样本平均数(或样本成数)的标准差。它反映了所有抽样结果所得的样本指标值与总体指标值的平均误差。

??

? ??--??? ??-=≤≤σμΦσμΦa b b X a P )(

3)极限误差(置信区间):

记作δx。

4、掌握抽样调查的几种组织形式及其特点:简单随机抽样、类型抽样、等距抽样、整群抽样和多级抽样。

一、简单随机抽样(纯随机抽样):是不对总体做任何加工整理,按照随机原则直接从总体N个单位中抽取n个单位作为样本进行调查的抽样方式。

特点:

1)最基本也是最简单的抽样组织方式;

2)分为重复和不重复抽样两种情况;

3)每个单位都有相等的中选机会。

二、类型抽样(分层抽样或分类抽样):是将总体单位先按一定标志分组,然后在各组中随机抽取样本的抽样组织方式。类型抽样是应用于总体内各单位在被研究标志上有明显差别的抽样。主要原则是:分组时应使组内差异尽可能小,使组间差异尽可能大。

三、等距抽样(机械抽样或系统抽样):是先将总体各单位按有关标志或无关标志进行排列,再按照固定的顺序和间隔来抽选样本单位的一种抽样组织形式。

特点:等距抽样是不重复抽样,通常可以保证被抽取的单位在总体中均匀分布,缩小各单位之间的差异程度,提高样本的代表性。

四、整群抽样:是先将总体各单位划分成若干群,再以群为单位从中随机地抽取出若干群来,对被抽中群的所有单位进行调查的一种抽样组织形式。

特点:

1、调查单位比较集中,进行调查比较方便,可以减少调查人员来往于调查单位之间的时间和费用。

2、设计和组织抽样比较方便。

3、它的精度比起简单随机抽样来要低一些。

五、多级抽样(多阶段抽样):他把抽取样本单位分为n个步骤进行,即先从总体中抽取一级单位,然后再从抽中的一级单位中抽取二级单位,直到抽取最终单位。

特点:1、调查的总体范围分布广。

2、节省人财物等费用。

3、灵活、方便。

5、估计量的优良标准有哪些

一、无偏性:是指样本指标估计总体指标时,要求样本指标所有可能取值的平均数等于估计总体指标的属性。

证明θ是无偏估计量:

1)样本平均数x是总体平均数X的无偏估计量。

2)样本方差S n2是总体方差σ2的有偏估计量。

3)样本方差S2n-1是总体方差σ2的无偏估计量。

二、有效性:是指用样本指标估计总体指标时,要求样本方差为最小的属性。

三、一致性:是指用样本指标估计总体指标时,要求当样本单位数逐渐增大时,样本指标逐渐趋于总体指标的属性。

6、关于总体均值和总体比例的区间估计计算

置信度:是指总体指标落在某一区间内的概率保证程度,通常用概率函数F(t)表示。

概率度(t):用抽样极限误差除以相应抽样平均误差得出的相对数。公式:t=δx/μx。

区间估计(置信区间):是指在一定的概率保证程度下,某总体指标所在的区间范围,用[p-δx , p+δx]表示。

对总体平均数的区间估计有两种情形:

一、根据已经给定的极限抽样误差范围,求概率保证程度F(t),进而进行点估计和区间估计。

1)计算样本平均数和标准差,并推算抽样平均误差;

2)根据给定的极限误差δx,计算总体平均数的上限和下限;

3)求出概率度t;

4)查表求出概率保证程度F(t);

5)点估计或区间估计。

二、根据给定概率保证程度F(t),求出极限抽样误差,进而进行点估计和区间估计。

1)求出抽样平均误差;

2)根据给定的可信度F(t):a%,查概率表t=b;

3)求出抽样极限误差;

4)计算平均身高的上下限;

5)点估计或区间估计。

第八章:假设检验

1、假设检验的含义和步骤;

假设检验(统计检验或显著性检验):是指利用样本的实际统计量,去检验事先对总体某些数量特征所作出的假设是否可信,进而为决策取舍提供依据的一种统计分析方法。

假设检验的步骤:

1)提出假设;

2)确定适当的检验统计量;

3)规定显著性水平 ;

4)计算检验统计量的值;

5)作出统计决策。

2、原假设、备择假设;

原假设(“0假设”):待检验的假设,研究者想收集证据予以反对的假设,总有=,≤或

≥,一般以H0表示。

备择假设:与原假设对立的假设,研究者想收集证据予以支持的假设,总有≠,<或>,一般以H1表示。

3、基本概念:显著性水平、置信水平、置信区间、P值;双侧检验和单侧检验;z检验、t检验

一、显著性水平、置信水平、置信区间、P值:

1)显著性水平:原假设为真时,拒绝原假设的概率,由研究者事先确定,一般以α表示,常用α值:0.01、0.05、0.10。

2)置信水平:是指总体参数值落在样本统计值某一区间的概率,1-α。

3)置信区间:是指在一定的概率保证程度下,某总体指标所在的区间范围,用[p-δx , p+δx]表示。

4)P值:在原假设为真的条件下,检验统计量的观察值大于或等于其计算值的概率,反映实际观测到的数据与原假设H0之间不一致的程度。

决策规则:①单侧检验:若p<α,则拒绝H0;②双侧检验:若p<α/2,则拒绝H0。

二、、双侧检验和单侧检验:

1)双侧检验:备择假设没有特定的方向性,并含有符号“≠”的假设检验。

要检验样本平均数与总体平均数或样本成数与总体成数有没有显著差异,而不问差异的方向是正差或负差时,应采用双侧检验。

2)单侧检验:备择假设具有特定的方向性,并含有符号“>”或“<”的假设检验。备择假设的方向为“<”,称为左侧检验;备择假设的方向为“>”,称为右侧检验。

不仅仅要检验样本平均数与总体平均数或样本成数与总体成数有没有显著差异,而且要追究是否发生预先指定方向的差异时,应采用单侧检验。

三、z检验、t检验:

1)z检验(正态分布检验):(P233)

2)t检验(t分布检验)(P234)

4、总体均值检验

二、小样本检验方法的总结:

5、假设检验的两类错误及其关系。

第一类错误(弃真错误):原假设为真时,拒绝原假设,第一类错误的概率为α(显著性水平)。

第二类错误(取伪错误):原假设为假时,接受原假设,第二类错误的概率为β(Beta)。

α错误和β错误的关系:α和β就像跷跷板,α小β就大,α大β就小,二者不能同时减少。

影响β错误的因素:

1)总体参数的真值:随着假设的总体参数的减少而增大;

2)显著性水平α:当α减少时增大;

3)总体标准差σ:当σ增大时增大;

4)样本容量n:当n减少时增大。

第九章:相关和回归

1、区分函数关系和相关关系

一、函数关系:是指现象之间存在着严格的依存关系。

特点:对于某一变量的每一个数值,都有另一变量的确定值与之相对应,并且这种关系可用一个数学表达式反映出来。

二、相关关系:是指现象之间存在着非严格的、不确定的依存关系。

特点:某一现象在数量上发生变化会影响另一现象数量上的变化,而且这种变化在数量上具有一定的随机性。

三、区别:

1)函数关系中两变量之间的关系是确定的;相关关系中两变量之间的关系是不确定。

2)函数关系变量之间关系可以用方程y = f (x)表示出来;相关关系不能用一定的方程表示。

3)函数关系是相关关系的特例,函数关系是完全的相关关系。

2、相关关系的种类、相关系数的取值范围

一、相关关系的种类:

1)按相关的程度分为:完全相关、不完全相关、不相关。

2)按相关的方向分为:正相关、负相关。

3)按相关的形式分为:线性相关、非线性相关。

4)按影响因素的多少分为:单相关、复相关。

二、相关系数取值范围:

1)符号:如果为正号,则表示正相关,如果为负号,则表示负相关。通俗点说,正相关就是变量会与参照数同方向变动,负相关就是变量与参照数反向变动;

2、取值为0,这是极端,表示不相关;

3、取值为1,表示完全正相关,而且呈同向变动的幅度是一样的;

4、如果为-1,表示完全负相关,以同样的幅度反向变动;

5、取值范围:[-1,1]。

3、熟悉回归的含义和种类;

一、回归:研究自变量与因变量之间关系形势的分析方法,其目的在于根据已知自变量来估计和与预测因变量的总平均值。

二、种类:

1)按变量多少:一元回归方程和多元回归方程。

2)按是否线性:线性回归方程和非线性回归方程。

3)按是否有滞后关系:自身回归方程和无自身回归方程。

4、相关分析和回归分析的区别和联系;

一、相关分析:是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。

二、回归分析:是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。

三、区别:

1)相关分析中,变量 x 变量 y 处于平等的地位;回归分析中,变量 y 称为因变量,处在被解释的地位,x 称为自变量,用于预测因变量的变化;

2)相关分析中所涉及的变量 x 和 y 都是随机变量;回归分析中,因变量 y 是随机变量,自变量 x 可以是随机变量,也可以是非随机的确定变量;

3)相关分析主要是描述两个变量之间线性关系的密切程度;回归分析不仅可以揭示变量 x 对变量 y 的影响大小,还可以由回归方程进行预测和控制。

四、联系:都是研究及测度两个或两个以上变量之间关系的方法。

5、简单直线回归的原理:最小平方法的中心思想

一、相关分析与回归分析的步骤: 1)进行相关关系的定性分析; 2)确定回归方程;

3)计算相关系数或相关指数,对回归方程变量之间的相关性进行显著性检验; 4)利用回归方程式进行推算和预测; 5)对推算和预测作出置信区间估计。 二、简单直线回归的原理:

1)简单直线回归分析:对两个具有线性关系的变量,配合线性回归方程,并根据自变量的变动来测定因变量平均发展趋势的分析方法。

2)简单直线回归原理:

①总体回归参数β0和β1是未知的,必须利用样本数据去估计; ②样本统计量β0和β1代替回归方程中的未知参数β0和β1,就得到了估计的回归方程; ③一元线性回归中的估计回归方程为:

3)一元线性回归模型:描述因变量 y 如何依赖于自变量 x 和误差项ε 的方程称为回归模型。y = β0 + β1 x + ε,β0 和 β1成为模型的参数。

①误差项ε是一个期望值为0的随机变量,即E(ε)=0。对于一个给定的 x 值,y 的期望值为E ( y ) =β0+ β1 x ;

②对于所有的 x 值,ε的方差σ2 都相同;

③误差项ε是一个服从正态分布的随机变量,且相互独立。即ε~N( 0 ,σ2 )。

Ⅰ独立性意味着对于一个特定的 x 值,它所对应的ε与其他 x 值所对应的ε不相关。 Ⅱ对于一个特定的 x 值,它所对应的 y 值与其他 x 所对应的 y 值也不相关。 4)一元线性回归方程:描述 y 的平均值或期望值如何依赖于 x 的方程称为回归方程。E( y ) =β0 + β1 x ,

①β0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值;

②β1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。 三、最小平方法的中心思想:通过数学方程,配合一条较为理想的趋势线,这条趋势线必须满足;

1)原数列的观测值与方程的估计值的离差平方和为最小; 2)原数列的观测值与方程的估计值的离差总和为0。

即 根据最小二乘法的要求,可得求解 和 的公式如下

x y

10???ββ+=i 最小=--=-∑

∑==n i i i n

i i x y y

y 1

21012)??()?(β

β00?β1

β1?β=====n i n

i i i n i i n i i n i i i 1

01212

1111??

?

??????-=??? ??-??? ????? ??-=∑∑

∑∑=====x y x x n y x y x n n i n i i i n i i n i i n i i i 1012121111???βββ

6

、总平方和、回归平方和和残差平方和;可决系数的含义、可决系数和相关系数之间的数量关系。

一、总方差和、回归平方和和残差平方和; 1)总方差和(总变差、SST 或L yy ):反映因变量的n 个观测值与其均值的总离差; 2)回归平方和(回归变差、SSR 或U ):反映自变量 x 的变化对因变量 y 取值变化的影响,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化;

3)残差平方和(剩余变差、SSE 或Q ):反映除 x 以外的其他因素对 y 取值的影响。

SST (L yy ) = SSR (U ) + SSE (Q )

二、可决系数的含义、可决系数和相关系数之间的数量关系。

1)可决系数(R 2

):是回归变差(回归平方和)与总变差(总方差和)之比,是评价两个变量之间线性关系强弱的一个重要指标,反映回归直线的拟合程度。

公式:

①取值范围在 [ 0 , 1 ] 之间; ②R 2 →1,说明回归方程拟合的越好;R 2

→0,说明回归方程拟合的越差。 2)可决系数和相关系数之间的数量关系:

判定系数等于相关系数的平方,即R 2=r 2

7、重点:在Excel 回归分析表中,学会分析几方面:相关系数及其相关关系、判定系数及其含义;回归系数显著性的P 值检验;模型整体显著性的F 检验;写出回归方程,并对回归系数的含义进行解释;根据构建的回归模型进行预测;了解回归系数的标准误差、t 统计量的含义。

===-+n i i n i i n i i y

y 1

212

12?()()()∑

∑∑===-+-=-n i i n i i n i i y y y y y y 121212??====n i i n i i n i i n i i 1

2

1

2

12122()()()()∑

∑====---=--==n i i n i i n i i n i i y y y

y y y y y SST SSR R 121212122??1?

一、相关系数及其相关关系:(Multiple R和x的Coefficients联合判断)

R=0为不相关;Excel默认Multiple R的取值为[0,1],要判断正负相关则需要用x的

Coefficients,Coefficients大于0,则正相关;Coefficients小于0,则负相关。

二、判定系数及其含义:(Adjusted R Square)

可决系数(R2):是评价两个变量之间线性关系强弱的一个重要指标,反映回归直线的拟合程度。

①取值范围在 [ 0 , 1 ] 之间;

②R2→1,说明回归方程拟合的越好;R2→0,说明回归方程拟合的越差。

三、回归系数显著性的P值检验:(x P-value)

若p<α,则拒绝H0;若p>α,则不拒绝H0。

四、模型整体显著性的F检验:(F)

F值为,查表查出Fα的值,进行比较。F

F>Fα,表明两组数据存在显著差异。

五、写出回归方程,并对回归系数的含义进行解释:(Coefficients)

β0为Intercept Coefficients的值,β1为x Coefficients 的值,y = β0 + β1 x。

①β0是回归直线在 y 轴上的截距,是当 x=0 时 y 的期望值;

②β1是直线的斜率,称为回归系数,表示当 x 每变动一个单位时,y 的平均变动值。

六、根据构建的回归模型进行预测:

把给出的x或y代入回归方程,得出预测结果即可。

七、了解回归系数的标准误差:(标准误差)

回归系数的标准误差(S y)为。

用给定的x推测出y的预期结果后,根据所给的置信度(置信水平),求置信区间:1)落在y±S y区间内的概率为68.27%;

2)落在y±2S y区间内的概率为95.45%;

3)落在y±3S y区间内的概率为99.73%。

八、t统计量的含义:(x t Stat)

t检验还可以用来检验样本为来自一元正态分布的总体的期望,即均值;和检验样本为来自二元正态分布的总体的期望是否相等。

查表求出tα在n-1自由度下的值,若t(x t Stat)> tα则拒绝H0;若t(x t Stat)< t

统计学简答题及答案

统计学简答题及参考答案 1.简述描述统计学的概念、研究容与目的。 概念:它是研究数据收集、整理和描述的统计学分支。 研究容:搜集数据、整理数据、展示数据和描述性分析的理论与方法。 研究目的:描述数据的特征;找出数据的基本数量规律。 2.简述推断统计学的概念、研究容与目的。 概念:它是研究如何利用样本数据来推断总体特征的统计学分支。 研究容:参数估计和假设检验的理论与方法。 研究目的:对总体特征作出统计推断。 3.什么是总体和样本? 总体是指所研究的全部个体(数据)的集合,其中的每一个元素称为个体(也称为总体单位)。 可分为有限总体和无限总体: ?有限总体的围能够明确确定,且元素的数目是有限的,可数的。 ?无限总体所包括的元素数目是无限的,不可数的。 总体单位数可用N表示。 样本就是从总体中抽取的一部分元素的集合。构成样本的元素的数目称为样本容量,记为n。 4.什么是普查?它有哪些特点? 普查就是为了特定的研究目的,而专门组织的、非经常性的全面调查。它有以下的特点: 1)通常是一次性或周期性的 2)一般需要规定统一的标准调查时间 3)数据的规化程度较高 4)应用围比较狭窄。 5.什么是抽样调查?它有哪些特点? 抽样调查是指从总体中随机抽取一部分单位作为样本进行调查,并根据样本调查结果来推断总体特征的数据搜集方法和统计推断方法。 它具有经济性好、时效性强、适应面广、准确性高等特点。 6.简述统计调查方案的概念及应包括的基本容。 答:统计调查方案就是统计调查前所制订的实施计划,它是指导整个调查过程的纲领性文件,是保证调查工作有计划、有组织、有系统地进行的计划书。 它应包括的基本容有: 〈1〉明确调查目的; 〈2〉确定调查对象和调查单位; 〈3〉设计调查项目; 〈4〉设计调查表格和问卷; 〈5〉确定调查时间; 〈6〉组织实施调查计划; 〈7〉调查报告的撰写,等等。 7.简述统计分组的概念、原则和具体方法。 答:(1)概念

《卫生统计学》考试重点复习资料

《卫生统计学》复习资料 08生物技术曾洋and林阳第一章绪论 名词解释 统计学:就是一门通过收集、整理与分析数据来认识社会与自然现象数量特征得方法论科学。其目得就是通过研究随机事件得局部外在数量特征与数量关系, 从而探索事件得总体内在规律性,而随机性得数量化,就是通过概率表现出来。 总体:总体就是根据研究目得确定得同质得观察单位得全体,更确切得说,就是同质得所有观察单位某种观察值(变量值)得集合。总体可分为有限总体与无限总体。总体中得所有单位都能够标识者为有限总体,反之为无限总体。 样本:从总体中随机抽取部分观察单位,其测量结果得集合称为样本(sample)。样本应具有代表性。所谓有代表性得样本,就是指用随机抽样方法获得得样本。 抽样:从研究总体中抽取少量有代表性得个体,称为抽样。 概率:概率(probability)又称几率,就是度量某一随机事件A发生可能性大小得一个数值,记为P(A),P(A)越大,说明A事件发生得可能性越大。0﹤P(A)﹤1。 频率:在相同得条件下,独立重复做n次试验,事件A出现了m次,则比值m/n称为随机事件A 在n次试验中出现得频率(freqency)。当试验重复很多次时P(A)= m/n。 变量:表现出个体变异性得任何特征或属性。 随机变量:随机变量(random variable)就是指取指不能事先确定得观察结果。随机变量得具体内容虽然就是各式各样得,但共同得特点就是不能用一个常数来表示,而且,理论上讲,每个变量得取值服从特定得概率分布。 系统误差:系统误差(systematic error)就是指由于仪器未校正、测量者感官得某种偏差、医生掌握疗效标准偏高或偏低等原因,使观察值不就是分散在真值得两侧,而就是有方向性、系统性或周期性地偏离真值。系统误差可以通过实验设计与完善技术措施来消除或使之减少。随机误差:随机误差(random error)又称偶然误差,就是指排除了系统误差后尚存得误差。它受多种因素得影响,使观察值不按方向性与系统性而随机得变化。误差变量一般服从正态分布。随机误差可以通过统计处理来估计。 变异:在自然状态下,个体间测量结果得差异称为变异(variation)。变异就是生物医学研究领域普遍存在得现象。严格得说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值得参差不齐。 抽样误差:(消除了系统误差,并将随机测量误差控制在允许范围内)由于个体变异得存在,在抽样过程中产生得样本统计量与总体参数之间得差异。 分布:随机现象得规律性通过概率来刻画,而随机事件得所有结局及对应概率得排列称为分布。 第二章定量资料得统计描述 名词解释 算术均数:描述一组数据在数量上得平均水平。总体均数用μ表示,样本均数用X表示。 几何均数:用以描述对数正态分布或数据呈倍数变化资料得水平。记为G。 中位数:将一组观察值由小到大排列,n为奇数时取位次居中得变量值;为偶数时,取位次居中得两个变量得平均值。

卫生统计学考试重点总结复习

一、绪论 1.总体:根据研究目的确定的同质观察单位的全体,确切的说是同质的所有观察单位某种变量值的集合。 2.样本:从总体中随机抽取部分观察单位所组成的集合。 3.参数:用样本的指标来推算或估计出来的,用来说明总体情况的统计指标。 4.统计量:根据观察值计算出来的量,是用来描述和分析样本的统计指标。 5.变量的类型及其转换: ①定性变量:a.分类变量(计数资料)i.二分类变量 ii.多项无序分类 b.有序变量(等级资料) ②定量变量:a.连续型变量 b.离散型变量 变量只能由“高级”向“低级”转化:定量→有序→分类→二值。 6.概率:是描述随机事件发生的可能性大些的数值。 7.卫生统计学的内容包括:统计学是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。 8.卫生统计学:运用概率论和数理统计的原理和方法并结合医学实践来研究医学资料的搜集、整理、分析与推断的一门学科。 9.卫生统计学的研究对象:有变异的事物。 10.统计工作的一般步骤:设计资料、搜集资料、整理资料、分析资料。 11.同质:指同一总体中个体的性质、影响条件、背景相同或非常相近。 12.变异:同一总体内的个体间存在差异又是绝对的,这种现象称为变异。 13.误差可分为:系统误差、随机测量误差、抽样误差。 14.抽样误差:由于个体差异的存在,从某一总体中随机抽取一个样本,所得样本统计量与总体参数之间可能存在差异,这种差异称为抽样误差。 二、定量资料的统计描述 1.频率分布表的编制步骤: ①计算极差R、②确定组段数与组距(一般为8-15组)、③确定各组段的上下限、④列表。 2.频率分布表的用途: ①揭示频数分布的分布特点和分布类型,文献中常将频数表作为陈述资料的形式。 ②便于进一步计算统计指标和进行统计分布处理。 ③便于发现某些特大和特小的可疑值。 ④当样本含量比较大时,可用各组段的频率作为概率的估计值。 3.中位数:指将原始观察值从小到大或从大到小排序后,位次居中的那个数。 4.四分位数间距:表示百分位数P75和百分位数P25之差,定义为Q=P75-P25,恰好包括总体中50%的个体观察值,用来描述偏态分布资料的离散趋势的指标。 5.标准差:即方差的算术平方根,是衡量对称分布资料的离散程度的指标,标准差大,则离散度大,标准差小,则离散度小。 6.变异系数:变异的大小S相对于其平均水平X的百分比,主要用于量纲不同的变量间,或均数差别较大的变量间变异程度的比较。 三、定性资料的统计描述 1.构成比:说明一事物内部各组成部分在总体中所占的比重或分布,常用百分数表示。 =某一组成部分的观察单位数/同一事物内部各组成部分的观察单位总数×100% 2.相对数的类型:

统计学试卷及答案

统计学试卷及答案 一、判断题 1.统计学是一门方法论科学,其目的是探索数据的内在数量规律性,以达到 对客观事物的科学认识。() 2.统计研究的过程包括数据收集、数据整理、分析数据和解释数据四个阶段。 () 3.统计数据误差分为抽样误差和非抽样误差。() 4.按所采用的计量尺度不同,可以将统计数据分为时间序列数据和截面数据() 5.用来描述样本特征的概括性数字度量称为参数。() 6.如果数据呈左偏分布,则众数、中位数和均值的关系为:均值<中位数< 众数。() 7.通过散点图可以判断两个变量之间有无相关关系。() 8.所有可能样本均值的数学期望等于总体均值。() 9.影响时间序列的因素可分为:长期趋势、季节变动、循环波动和不规则变 动四种。() 10.狭义的统计指数是用来说明那些不能直接加总的复杂现象综合变动的一 种特殊相对数。() 二、单项选择题 1.为了估计全国高中生的平均身高,从20个城市选取了100所中学进行调查。在该项研究中样本是()。 A 100所中学 B 20个城市 C 全国的高中生 D 100所中学的高中生 2.一名统计学专业的学生为了完成其统计作业,在《统计年鉴》中找到的2005年城镇家庭的人均收入数据。这一数据属于()。 A 分类数据 B 顺序数据 C 截面数据 D 时间序列数据

3.某连续变量数列,其首组为50以下。又知其邻近组的组中值为75,则首组的组中值为() A 24 B 25 C 26 D 27 4.两组数据相比较()。 A 标准差大的离散程度也就大 B 标准差大的离散程度就小 C 离散系数大的离散程度也就大 D 离散系数大的离散程度就小 5.在下列指数中,属于质量指数的是()。 A 产量指数 B 单位产品成本指数 C 生产工时指数 D 销售量指数 6.定基增长速度与环比增长速度的关系为()。 A 定基增长速度等于相应的各个环比增长速度的算术和 B 定基增长速度等于相应的各个环比增长速度的连乘积 C 定基增长速度等于相应的各个环比增长速度加1后的连乘积再减1 D 定基增长速度等于相应的各个环比增长速度的连乘积加1(或100%) 7.某企业报告期产量比基期增长了10%,生产费用增长了8%,则其产品单位成本降低了()。 A 1.8% B 2.5% C 20% D 18% 8.用简单随机重复抽样方法抽取样本单位,如果要使抽样标准差降低50%,在其他条件不变的情况下,则样本容量需要扩大到原来的()。 A 2倍 B 3倍 C 4倍 D 5倍 9.如果变量x和变量y之间的相关系数为﹣1,这说明两个变量之间是()。 A 低度相关关系 B 完全相关关系 C 高度相关关系 D 完全不相关 10.合理施肥量与农作物亩产量之间的关系是()。 A 函数关系 B 相关关系 C 没有关系 D 正比例关系 11.在回归分析中,描述因变量y如何依赖自变量x和误差项 的方程称为()。 A 回归方程 B 回归模型 C 估计的回归方程 D 理论回归方程 12.平均指标是用来反映一组数据分布的()的指标。

统计学简答题答案资料讲解

1、什么是统计学,有哪些特点? 统计学是收集、整理、分析、解释数据并从数据中得到结论的学科。 特点:客观性~~相关性~~实用性~~科学性~~严谨性~~逻辑性~~~ 2、何谓标志,按能否用数量表示可以分为哪两种类型,分别举例说明 标志是指说明总体单位属性或特征的名称。可以分为数量标志和质量标志 品质标志:说明总体单位属性特征的名称,用文字描述。Ex:性别,名族,工种,籍贯数量标志:说明总体单位数量特征的名称,用数量表示。数量标志的具体表现称标志值。 Ex:工人的年龄,工资,工龄 3、什么是离散型变量,连续性变量?举例说明 变量:可变的数量标志和指标; 离散型变量:指变量的数值只能以计数的方法取得,(变量值只能取整数); 连续型变量:指变量的取值连续不断,(变量值能取小数)。 4、简述品质标志和数量标志的区别,并举例说明。 区别:数量标志说明的是总体的数量特征,而品质标志说明的是总体的属性特征。 5、什么是数量指标和质量指标?二者有何关系? 统计指标:反映总体数量特征的科学概念和具体数值。 注意:从理论上讲,一个完整的统计指标由两部分构成:指标名称+指标数值 例如:某地区2009年完成利税总额(指标名称)为1500(指标数值)亿元。 数量指标:用来反映现象的总规模、总水平、或工作总量的指标。其数值大小随总体的研究范围的大小而增减。 质量指标:反映客观现象的劳动效果或工作质量等事物内部数量关系的指标,其数值的大小与总体的研究范围大小无直接联系。 6、统计标志和统计指标有和联系与区别? 区别:1、标志是反映总体单位特征;指标反映总体特征。 2、指标都能用数量表示,标志只有数量标志能用数量表示; 3、标志是一个理论概念,实际应用中只有指标。 联系:1、标志与指标可以相互转化,随研究目的的转化而改变; 2、指标值一般是标志值汇总来的; 3、标志的名称常常就是指标名称。 7、制定一份完整的统计调查方案,应包括哪些内容? 1)明确调查的目的和任务 2)确定调查的对象和调查单位、 3)确定带调查项目、设计调查表或问卷 4)确定调查时间、调查地点和调查方式方法 5)制定调查的组织实施计划 8、举例说明重点调查的概念和特点 重点调查:是在调查对象范围内部选择部分重点调查单位进行的调查。 特点:调查单位少、适用于调查对象的标志值比较集中于某些单位的场合、重点调查的调查方式主要采取专门调查的组织形式(一种是专门组织的一次性调查;另一种是利用定期统计报表经常性地对一些重点单位进行调查。);有点在于花费较少的人力物力和时间就可以获得总体的基本情况资料。 9、简述重点调查、典型调查、抽样调查的联系与区别P31 抽样调查是一种非全面调查,它是按照随机的原则,从总体中抽取一部分单位作为样本来进行观测研究,以抽样样本的指标去推算总体指标的一种调查。

卫生统计学知识点总结

卫生统计学知识点总结-CAL-FENGHAI-(2020YEAR-YICAI)_JINGBIAN

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2 指标频率型指标强度型指标相对比型指标 概念近似反映某一时间出现概率单位时间内某现象的发生 率 两个有关联的指标A和B之比 计算 公式 A/B 有无 量纲 无有可有、可无 取值 范围 【0,1】可大于1无限制 本质大样本时作为概率近似值分子式分母的一部分频率强度,即概率强度的 似 值 表示相对于B的一个单位,A有多少 位 A和B可以是绝对数、相对数和平均

大学统计学简答题复习及答案

习题一总论 1?简述统计总体和总体单位的含义及其关系。 统计总体(简称总体)是指统计所研究的事物的全体,它是由客观存在的具有某种共同性质的许多个别事物组成的集合体。总体单位是指构成统计总体的个别事物,是组成总体的基本单位,简称个体。统计总体和总体单位所指的具体内容不是固定不变的,而是随着研究的目的不同而变化的。总体可以变为总体单位,总体单位可以变为总体。 2 ?什么是指标和标志?指标与标志的关系如何? 指标即统计指标,指反映统计总体综合数量特征的概念和数值。标志指说明总体单位特征的名称。指标与标志的区别:①指标是说明总体特征的,而标志是说明总体单位特征的;②所有指标都能用数值表示,而标志中的数量标志能用数值表示,品质标志却通常不能用数值表示。指标与标志的联系:①指标是对总体中各单位标志表现进行综合的结果,有许多统计指标其数值是由数量标志值汇总而来的,品质标志本身虽无数值,但许多指标却是按品质标志分组计算出来的。②指标和数量标志之间存在着变换关系,由于研究目的的变化,原来的总体变成总体单位,则相对应的统计指标就变成数量标志;反之,则相对应的数量标志就变成了统计指标。 习题二统计调查 1.完整的统计调查方案应包括哪些主要内容? 应包括:①确定调查目的;②确定调查对象和调查单位;③确定调查内容,拟订调查表;④ 确定调查时间和调查期限;⑤确定调查的组织和实施计划。 2.调查对象、调查单位和填报单位有何区别? 调查对象是指根据调查目的确定的需要进行调查研究的现象总体,它是由性质相同的许多个别单位组成的。调查单位是指调查对象中所要调查的具体单位,它是进行登记的标志的承担者;报告单位也叫填报单位,它是提交调查资料的单位,它与调查单位有时一致,有时不一致。 3?重点调查与典型调查的区别是什么? 主要区别表现在两个方面: ①典型单位和重点单位性质不同。典型调查强调被选单位在同类社会经济现象中所具有的代表性、典型性,是有 意识地选取的;而重点调查则强调被选单位某标志值在总体标志值总和中所占的比重较大,是客观存在的。 ②侧重点不同。典型调查的主要目的是认识事物本质特征及其发展规律,调查深入细致,同时也注重定性调查; 而重点调查的目的主要是掌握总体的数量状况,着眼于普遍情况,注重量的调查。

统计学简答题参考答案

统计学简答题参考答案 第一章绪论 1.什么是统计学?怎样理解统计学和统计数据的关系? 答:统计学是一门收集、整理、显示和分析统计数据的科学。统计学和统计数据存在密切关系,统计学阐述的统计方法来源于对统计数据的研究,目的也在于对统计数据的研究,离开了统计数据,统计方法以致于统计学就失去了其存在意义。2.简要说明统计数据的来源。 答:统计数据来源于两个方面:直接的数据:源于直接组织的调查、观察和科学实验,在社会经济管理领域,主要通过统计调查方式来获得,如普查和抽样调查。间接的数据:从报纸、图书杂志、统计年鉴、网络等渠道获得。 3.简要说明抽样误差和非抽样误差。 答:统计调查误差可分为非抽样误差和抽样误差。非抽样误差是由于调查过程中各环节工作失误造成的,从理论上看,这类误差是可以避免的。抽样误差是利用样本推断总体时所产生的误差,它是不可避免的,但可以控制的。 4.解释描述统计和推断统计的概念?(P5) 答:描述统计是用图形、表格和概括性的数字对数据进行描述的统计方法。推断统计是根据样本信息对总体进行估计、假设检验、预测或其他推断的统计方法。第二章统计数据的描述 1描述次数分配表的编制过程。 答:分二个步骤: (1)按照统计研究的目的,将数据按分组标志进行分组。 按品质标志进行分组时,可将其每个具体的表现作为一个组,或者几个表现合并成一个组,这取决于分组的粗细。 按数量标志进行分组,可分为单项式分组和组距式分组 单项式分组将每个变量值作为一个组;组距式分组将变量的取值范围(区间)作为一个组。 统计分组应遵循“不重不漏”原则 (2)将数据分配到各个组,统计各组的次数,编制次数分配表。 2. 一组数据的分布特征可以从哪几个方面进行测度? 答:数据分布特征一般可从集中趋势、离散程度、偏态和峰度几方面来测度。常用的指标有均值、中位数、众数、极差、方差、标准差、离散系数、偏态系数和峰度系数。 3.怎样理解均值在统计中的地位? 答:均值是对所有数据平均后计算的一般水平的代表值,数据信息提取得最充分,具有良好的数学性质,是数据误差相互抵消后的客观事物必然性数量特征的一种反映,在统计推断中显示出优良特性,由此均值在统计中起到非常重要的基础地位。受极端数值的影响是其使用时存在的问题。 4. 简述众数、中位数和均值的特点和使用场合。 答:众数、中位数和均值是分布集中趋势的三个主要测度,众数和中位数是从数据分布形状及位置角度来考虑的,而均值是对所有数据计算后得到的。众数容易计算,但不是总是存在,使用场合较少;中位数直观,不受极端数据的影响,但数据信息利用不够充分;均值数据提取的信息最充分,但受极端数据的影响。5.为什么要计算离散系数?

卫生统计学试题6含答案

统计试题题库 1. 下列那个是对标化后总死亡率的正确描述? A A.仅仅作为比较的基础,它反映了一种相对水平 B.它反映了实际水平 C.它不随标准选择的变化而变化 D.它反映了事物实际发生的强度 E.以上都不对 2. 两样本作均数差别的t检验,要求资料分布近似正态,还要求: D A.两样本均数相近,方差相等 B.两样本均数相近 C.两样本方差相等 D.两样本总体方差相等 E.两样本例数相等 3. 四格表资料的卡方检验时无需校正,应满足的条件是: D A.总例数大于40 B.理论数大于5 C.实际数均大于l D.总例数大于40且理论数均大于或等于5 E.总例数小于40 4. 总体应该是由: D

A.研究对象组成 B.研究变量组成 C.研究目的而定 D.同质个体组成 E.任意个体组成 5. 两样本均数比较的t检验中,结果为P<0.05,有统计意义。P愈小则: E A.说明两样本均数差别愈大 B.说明两总体均数差别愈大 C.说明样本均数与总体均数差别愈大 D.愈有理由认为两样本均数不同 E.愈有理由认为两总体均数不同 6. 抽样误差是指: D A.总体参数与总体参数间的差异 B.个体值与样本统计量间的差异 C.总体参数间的差异 D.样本统计量与总体统计量间的差异 E.以上都不对 7. 抽签的方法属于下列那种抽样: D A.分层抽样 B.系统抽样 C.整群抽样 D.单纯随机抽样 E.分级抽样

8. 以舒张压≥12.7KPa为高血压,测量1000人,结果有990名非高血压患者,有10名高血压患者,该资料属下列那类资料: B A.计算 B.计数 C.计量 D.等级 E.都对 9. 实验设计中要求严格遵守四个基本原则,其目的是为了: D A.便于统计处理 B.严格控制随机误差的影响 C.便于进行试验 D.减少和抵消非实验因素的干扰 E.以上都不对 10. 两个样本作t检验,除样本都应呈正态分布以外,还应具备的条件是: B A.两样本均数接近 B.两S2数值接近 C.两样本均数相差较大 D.两S2相差较大 E.以上都不对 11. 同一总体的两个样本中,以下哪种指标值小的其样本均数估计总体均数更可靠?A A.Sx B.S C.X D.CV

卫生统计学知识点

卫生统计学考点整理(一) 2017年11月24日 一、绪论: 1、什么是卫生统计学: 卫生统计学是运用数理统计的基本原理和方法对预防医学和公共卫生领域中的科学研究进行 设计,以及研究资料的收集、整理和分析的一门应用科室。 2、卫生统计学的基本内容包括哪些? ①卫生统计学的基本理论和方法,包括研究设计和数据分析中的统计理论和方法。 ②健康统计,包括医学人口统计、疾病统计和生长发育统计等。 ③卫生服务统计,包括卫生资源、医疗卫生服务的需求和利用、医疗保健制度和管理等的统计 问题。 3、什么是计量资料? 用度量衡的方法测定每个观察单位的某项研究指标量的大小,所得到的数据(即测量值)成为 计量资料(计量资料含有单位) 4、什么是计数资料? 将全体观察单位按照某种性质或类别进行分组,然后分别清点各组中的例数,这样得到的数据 成为计数资料(也称分类资料)(不含单位) 5、什么是等级资料? 将全体观察单位按照某种性质的不同程度分为若干组,分别清点各组中观察单位的个数。 6、什么是总体? 根据研究目的的确定的同质观察单位的全体。(是同质的所有观察单位某种变量值的集合) 7、什么是同质? 研究对象具有相同的背景、条件、属性 8、什么是变异? 同一性质的事物,其个体观察值(变量值)之间的差异。 9、什么是样本? 从总体中随机抽取具有代表性的一部分个体,其测量值(或观察值)的集体成为样本。 10、什么是抽样研究? 对从所研究的总体中随机抽取有代表性的一部分个体构成的样本进行研究。 11、抽样研究的目的是什么? 通过用样本资料计算的指标去推论总体。 12、什么是参数? 参数是指总体指标。(如:总体均数μ、总体率π、总体标准差σ等) 13、什么是统计量? 统计量是指样本指标。(如:样本均数、样本率p、样本标准差S等) 14、什么是统计描述? 用统计图或计算统计指标的方法表达一个指定群体的某种现象或特征 15、什么是统计推断? 根据样本资料的特性对总体的特性作估计或者推论的方法。(常用方法是参数估计和假设检验)16、什么是系统误差? 不是偶然机遇造成的,而是某种必然因素所致,具有一定的倾向性。 常见情况:①操作方法不正确或对调查问卷理解有误;②医生掌握疗效标准偏高或偏低。③周 围环境的改进。④仪器不准或试剂不合格。 17、什么是随机测量误差? 偶然机遇所致,无方向性,不可避免的。

统计学简答题整理精编版

统计学简答题整理 GE GROUP system office room 【GEIHUA16H-GEIHUA GEIHUA8Q8-

统计学简答题整理第一章P11 1.获取直接统计数据的渠道主要有哪些及区别在于 普查、抽样调查 普查是为某一特定目的,专门组织的一次性全面调查。这是一种摸清国情、国力的重要调查方法。花费的时间、人力、财力和物力都较大,间隔的时间较长。而两次普查之间的年份以抽样调查方法获得连续的统计数据。 抽样调查是统计调查中应用最广、最为重要的调查方法,它是通过随机样本对总体数量规律性进行推断的调查研究方法。存在着由样本推断总体产生的抽样误差,但统计方法可以估计出误差的大小进一步控制误差;节省人力、财力、物力,又能保证实效性 2.简要说明抽样误差和非抽样误差。 非抽样误差是由于调查过程中各有关环节工作失误造成的。(它包括调查方案中有关规定或解释不明确所导致的填报错误、抄录错误、汇总错误,不完整的抽样框导致的误差,调查中由于被调查者不回答产生的误差,还有一种人为干扰造成的误差即有意瞒报或低报数据等)。非抽样误差在普查、抽样调查中都有可能发生,但可以避免。

抽样误差是利用样本推断总体时产生的误差。(由于样本只是总体的一部分,用样本的信息去推断总体,或多或少总会存在误差,因而抽样误差对任何一个随机样本来讲都是不可避免的。但可计量、可控制)。抽样误差与样本量的平方根成反比关系。 第二章P51 1.统计的计量尺度 ①列名尺度(定类尺度):是按照某一品质标志将总体分组之后,对属性相同的单位进行计量的方法。各组之间的关系是并列的,没有大小、高低、先后之别。 ②顺序尺度(定序尺度):是按照某一品质标志将总体分组,对等级相同的单位进行计量的方法。各组之间的关系是有顺序的,可以进行排序。 ③间隔尺度(也称定距尺度):是按某一数量标志将总体分组,对相同数量或相同数量范围的单位或其标志值进行计量的方法。其特点是不仅可以进行排序,还可以计算不同数值之间的绝对差距。 ④比例尺度(也称定比尺度):是类似于间隔尺度,又高于间隔尺度的计量方法。其特点是不仅可计算数值的绝对差异,还可以计算数值的相对差异。 2.简述统计分组的概念和作用。 概念:统计分组是根据统计研究目的,选择一定的分组标志,将总体划分为若干组的统计方法。其目的是使组与组有明显差别,同一组中具有相对的同质性。(例:人口按性别、年龄、民族、职业分组;企业按规模分为大型、中型和小型。)

9住院医师规培考试 卫生统计学方法与应用(下)

1、某地进行甲型病毒性肝炎的调查中,共发现病人231例。其中男性158例占68.40%,女性73例占31.60%,提示()* ? A.男性因在外就餐机会多发病机会就高 ? B.男性病人比例高于女性病人 ? C.男性发病率高 ? D.男性患病率高 ? E.不能说明任何问题 2、甲乙两地某病的死亡率进行标准化计算时,其标准选择()* ? A.不能用甲地数据 ? B.不能用乙地数据 ? C.不能用甲地和乙地的合并数据 ? D.可能用甲地或乙地的数据 ? E.以上都不对 3、若已知该省成年男性血红蛋白平均水平,欲了解某县正常成年男性的血红蛋白含量是否高于该省正常水平,应采用()* ? A.样本均数与总体均数比较的t检验 ? B.配对t检验 ? C.成组t检验 ? D.配对设计差值的符号秩和检验 ? E.成组设计两样本比较的秩和检验 4、对于一组服从双变量正态分布的资料,经直线相关分析得相关系数r=0.9,对该资料拟合回归直线,则其回归系数b值()*

? A.b>0 ? B.b=0 ? C.b<0 ? D.b=1 ? E.不能确定正负 5、对原始统计资料的要求是()* ? A.及时收集完整、准确的资料 ? B.综合资料 ? C.方差分析时要求个样本所在总体的方差相等 ? D.完全随机设计的方差分析时,组内均方就是误差均方 ? E.完全随机设计的方差分析时,F=MS组间/MS组内 6、实验设计应遵循的基本原则是()* ? A.随机化、对照、盲法 ? B.随机化、盲法、配对 ? C.随机化、重复、配对 ? D.随机化、齐同、均衡 ? E.随机化、对照、重复 7、作符号秩和检验时,统计量T为较小的秩和,则正确的是()* ? A.T值越大越有理由拒绝HO ? B.T值越大越有理由拒绝HO ? C.P值与T值毫无关系

卫生统计学知识点总结

卫生统计学 统计工作基本步骤:统计设计(调查设计和实验设计)、资料分析{收集资料、整理资料、分析资料【统计描述和统计推断(参数估计和假设检验)】。 ★统计推断:是利用样本所提供的信息来推断总体特征,包括:参数估计和假设检验。a参数估计是指利 用样本信息来估计总体参数,主要有点估计(把样本统计量直接作为总体参数估计值)和区间估计【按预先设定的可信度(1-α),来确定总体均数的所在范围】。b假设检验:是以小概率反证法的逻辑推理来判断总体参数间是否有质的区别。 变量资料可分为定性变量、定量变量。不同类型的变量可以进行转化,通常是由高级向低级转化。 资料按性质可分为计量资料、计数资料和等级资料。 定量资料的统计描述 1频率分布表和频率分布图是描述计量资料分布类型及分布特征的方法。离散型定量变量的频率分布图可用直条图表达。 2频率分布表(图)的用途:①描述资料的分布类型;②描述分布的集中趋势和离散趋势;③便于发现一些特大和特小的可疑值;④便于进一步的统计分析和处理;⑤当样本含量足够大时,以频率作为概率的估计值。 ★3集中趋势和离散趋势是定量资料中总体分布的两个重要指标。 (1)描述集中趋势的统计指标:平均数(算术均数、几何均数和中位数)、百分位数(是一种位置参数,用于确定医学参考值范围,P50就是中位数)、众数。算术均数:适用于对称分布资料,特别是正态分布资料或近似正态分布资料;几何均数:对数正态分布资料(频率图一般呈正偏峰分布)、等比数列;中位数:适用于各种分布的资料,特别是偏峰分布资料,也可用于分布末端无确定值得资料。 (2)描述离散趋势的指标:极差、四分位数间距、方差、标准差和变异系数。四分位数间距:适用于各种分布的资料,特别是偏峰分布资料,常把中位数和四分位数间距结合起来描述资料的集中趋势和离散趋势。方差和标准差:都适用于对称分布资料,特别对正态分布资料或近似正态分布资料,常把均数和标准差结合起来描述资料的集中趋势和离散趋势;变异系数:主要用于量纲不同时,或均数相差较大时变量间变异程度的比较。 标准差的应用:①表示变量分布的离散程度;②结合均数计算变异系数、描述对称分布资料;③结合样本含量计算标准误。 定性资料的统计描述 1定性资料的基础数据是绝对数。描述一组定性资料的数据特征,通常需要计算相对数。定性变量可以通过频率分布表描述其分布特征。 2常用相对数类型:频率型、强度型和相对比型指标。 指标频率型指标强度型指标相对比型指标 两个有关联的指标A和B之比概念近似反映某一时间出现概单位时间内某现象的 生频率 计算 A/B 公式 无有可有、可无 有无 量纲 【0,1】可大于1无限制 取值 范围

统计学习题集及答案

统计学原理 习题集学院: 班级: 学号: 姓名:

目录

第1章导论 一、判断题 1. 在对全国工业设备进行普查中,全国工业企业设备是统计总体,每台工业设备是总体单位。() 2. 总体单位是标志的承担者,标志是依附于总体单位的。() 3. 品质标志表明单位属性方面的特征,其标志值只能用文字来表现,所以品质标志不能转化为统计指标。() 4. 数量指标的表现形式是绝对数,质量指标的表现形式是相对数和平均数。 5. 统计的研究对象是客观现象总体的各个方面。() 6. 统计具有信息、咨询和监督的整体功能,在上述三个职能中,以提供咨询为主。() 7. 某生产小组有5名工人,日产零件为68件、69件、70件、71件、72件,因此说这是5个数量标志或5个变量。() 8. 统计指标有的用文字表示,叫质量指标;有的用数字表示,叫数量指标。() 二、单选题 1.要了解某企业职工的文化水平情况,则总体单位是() A、该企业的全部职工 B、该企业每一个职工的文化程度 C、该企业的每一个职工 D、该企业每一个职工的平均文化程度 2.下列总体中,属于无限总体的是() A、全国的人口总数 B、大海里的鱼 C、城市流动人口数 D、某市工业企业设备数 3.统计工作的全过程各阶段的顺序是() A、统计设计、统计分析、统计调查、统计整理 B、统计调查、统计设计、统计分析、统计整理 C、统计设计、统计分析、统计调查、统计整理 D、统计设计、统计调查、统计整理、统计分析 4.由工人组成的总体所计算的工资总额是() A、数量标志 B、数量指标 C、标志值 D、质量指标

5.几位工人的月工资分别是500元、520元、550元、600元,这几个数字是() A、指标 B、变量 C、变量值 D、标志 6.统计标志用以说明() A、总体属性和特征 B、总体某一综合数量特征的社会经济范畴 C、单位具有的属性和特征 D、总体单位在一定时间、地点条件下动作的结果 7.变异性是指() A、在不同单位可以有不同的标志值 B、总体单位有许多不同的标志 C、现象总体可能存在各式各样的指标 D、品质标志的具体数值 8.下列各项中,属于统计指标的是() A、小王英语考试成绩为85分 B、广州至北京的机票价格为1360元 C、光华公司1999年4~6月份的利润为200万元 D、钢材20吨 9.总体和单位不是固定不变的,而是有() A、在某些场合是要互相变换的 B、只存在总体变换为总体单位的情况 C、只存在总体单位变换为总体的情况 D、所有的标志都能变换为单位 10.离散变量可以() A、被无限分割,无法一一列举 B、按一定次序一一列举,通常取整数 C、用相对数表示 D、用平均数表示 11.下列变量中,属于连续变量的是() A、企业个数 B、企业的职工人数 C、用相对数表示的数据 D、企业拥有的设备台数 12.统计指标体系是指() A、各种相互联系的指标所构成的整体

统计学简答题答案修订

统计学简答答案 1.一组数据的分布特征可以从哪几个方面进行描述? 数据分布的特征可以从三个方面进行测度和描述: (1)分布的集中趋势,反映各数据向其中心值靠拢或聚集的程度; (2)分布的离散程度,反映各数据远离其中心值的趋势; (3)分布的形状,反映数据分布的偏态和峰态。 2.影响样本量大小的因素有哪些?简述这些因素与样本量的关系。 (1)影响样本量大小的因素有:所要求的置信水平、总体方差和估计时所希望的估计误差。 (2)关系:其他条件不变的情况下: 1)样本量的大小与置信水平成正比。置信水平越大,所需样本量也就越大; 2)样本量与总体方差成正比。总体的差异越大,所要求的样本量也越大; 3)样本量与估计误差的平方成反比,即允许的估计误差的平方越大,所需的样本量就越小。 3.简述统计数据的类型和特点。 类型:(1)按计量尺度:分类数据、顺序数据和数值型数据; (2)按收集方法:观测数据和实验数据; (3)按被描述的现象与时间的关系:截面数据和时间序列数据。 特点:(1)按计量尺度分时:分类数据中各类别间是平等的并列关系,各类别间的顺序是可任意改变的;顺序数据的类别间是可以比较顺序的;数值型数据其结果表现为具体的数值。 (2)按收集方法分时:观测数据是在没有对事物进行人为控制的条件下等到的;实验数据的在实验中控制实验对象而收集到的数据。 (3)按被描述的对象与时间关系分时:截面数据所描述的是现象在某一时刻的变化情况;时间序列数据所描述的是现象随时间而变化的情况。 4.在假设检验中,当不拒绝原假设时,为什么不采取“接受原假设”的表示方式? (1)在假设检验时,当拒绝原假设时,表明样本提供的证据证明它是错误的;当没有拒绝原假设时,也没法证明它是正确的。 (2)采用“接受”原假设的说法,意味着样本提供的证据证明了原假设是正确的。但由于原假设的真实值是什么并不知道,没有足够的证据拒绝原假设并不等于能够证明原假设是真的,它仅仅意味着目前我们还没有足够的证据拒绝原假设,只表示手头上这个样本提供的证据还不足以拒绝原假设。5.什么是判定系数?它在回归分析中的主要作用是什么? (1)判定系数:回归平方和占总平方和的比例。记为R2,公式为:R2,=SSR/SST. (2)在回归分析中,R2,主要是用于测度回归直线对观测数据的拟合程度。取值范围是[0,1]。R2,越接近于1,回归直线的拟合程度就越好;R2,越接近于0,回归直线的拟合程度就越差。若所有观测点都落在直线上,R2,=1,拟合是完全的;如果R2,=0,回归直线对数据完全没有拟合。 6.解释95%的置信区间 如果用某种方法构造的所有区间中有95%的区间包含总体参数的真值,5%的区间不包含总体参数的真值,那么,用该方法构造的区间称为置信水平为95%的置信区间。 7.说明区间估计的基本原理 区间估计是在点估计的基础上给出总体参数估计的一个估计区间,该区间通常是由样本统计量加减估计误差得到的。与点估计不同,进行区间估计时,根据样本统计量的抽样分布,可以对统计量与总体参数的接近程度给出一个概率度量。 8.测度两个分类变量相关性的统计量有哪些?他们有什么不同? 测度两个分类变量相关性的统计量有以下几个: Φ相关系数、列联相关系数(c系数)、v相关系数 (1)Φ相关系数:描述2×2列联表数据相关程度最常用的一种相关系数且Φ系数没有上限。 (2)列联相关系数(c系数):主要用于大于2×2列联表的情况且c系数小于1.

卫生统计学-重点整理资料东大

卫生统计学 第一章绪论 1、卫生统计学的概念(P1) 卫生统计学是应用概率论和数理统计学的基本原理和方法,研究居民卫生状况以及卫生服务领域中数据的收集、整理和分析的一门科学,是卫生及其相关领域研究中不可缺少的分析问题。 2、卫生统计学的4个基本步骤(P3): 设计、收集资料、整理资料、分析资料 3、卫生统计学的几个基本概念(P4): ⑴同质:在统计学中,若某些观察对象具有相同的特征或属性,我们就称 之为同质,或具有同质性。 ⑵变异:同质个体的某项特征或属性的观察值或测量值之间的差 异。 ⑶总体:同质的所有观察单位某种特征或属性的观察值或测量值 的集合。 ⑷样本:从总体中随机抽取的具有代表性的部分观察单位的集 合。样本中 包含的观察单位个数成为样本含量。 ⑸参数:反映总体特征的指标,一般是未知的,常用希腊字母表 示,如总 体均数μ、总体率π等。 ⑹统计量:根据样本观察值计算出来的指标,常用拉丁字母表 示,如样本 均数x 、样本率等。

⑺变量与资料:对每个观察单位进行观察或测量的某项特征或属 性称为变 量;变量值的集合成为资料。 ⑻定量资料:亦称计量资料,其变量值是定量的,表现为数值大 小,一般 有度、量、衡单位。 ⑼定性资料:亦称分类资料,其观察值是定性的,表现为互不相 容的类别 或属性,一般无度、量、衡单位。可细分为:①计数资料; ②等级资料 第二章调查研究设计 ★1、调查研究的特点(P7): ①不能人为施加干预措施;②不能随机分组; ③很难控制干扰因素;④一般不能下因果结论 2、常用抽样方法(名称、原理): ⑴单纯随机抽样:先将调查总体的全部观察单位统一编号,然后 采用随机数字表、统计软件或抽签方法之一随机抽取n(样本大小)个编号,由这n个编号所对应的n个观察单位构成研究样本。 ⑵系统抽样:又称机械抽样或等距抽样。事先将总体内全部观察 单位按某一顺序号等距分成n(样本大小)个部分,每一部分内含m个观察单位;然后从第一部分开始,从中随机抽出第i 号观察单位,依此用相等间隔m机械地在第2部分、第3部分直至第n部分内各抽出一个观察单位组成样本。 ⑶分层抽样:先按对观察指标影响较大的某项或某几项特征,将 总体分成若干层,该特征的测定值在层内变异较小,层间变异

卫生统计学知识点(笔记)

第一章绪论 1.统计学(statistics)是一门处理数据中变异性的科学与艺术,内容包括收集、分析、解释和表达数据,目的是求得可靠的结果。 2.▲总体(population)用来表示大同小异的对象全体,例如一个国家的所有成年人;某地的所有小学生。可分为目标总体和研究总体。若试图对某个总体下结论,这个总体便称为目标总体(target population);资料常来源于目标总体中的一个部分,它称为研究总体(study population)。需要谨慎的是,就研究总体所下的结论未必适用于目标总体。 3.▲样本(sample)是指从研究总体中抽取的一部分有代表性的个体。获取样本的过程称为抽样(sampling)。抽样研究的目的是用样本数据推断总体的特征。需要注意的是,统计学的结论从来就不是完全肯定或完全否定的,能不能成功地达到从样本推断总体的目的,关键是抽样的方法、样本的代表性和推断的技术。 4.▲同质(homogeneity)是指同一总体中个体的主要性质相同。 5.▲变异(variation)是指同质的个体之间存在的差异。 6.▲变量的类型 二分类变量 分类变量或名义变量 定性变量多分类变量 变量有序变量或等级变量 定量变量离散型变量 连续型变量 变量的转化:只能由“高级”向“低级”转化,即由信息量多的向信息量少的类型转化,如:定量有序分类二值 7.▲参数(parameter)是反映总体特征的指标,参数的大小是客观存在的,是一个常数,不会发生变化,然而往往是未知的,需要通过样本资料来估计,如总

体均数μ,总体标准差σ。 8.▲统计量(statistic)又称样本统计量,是反映样本特征的指标,是由观察资料计算出来的,如样本均数 X,样本标准差S。 统计学的任务就是依据样本统计量来推断总体参数。 9.▲概率与频率的区别:概率是参数,频率是统计量;频率总是围绕概率上下波动。当某事件发生的概率≤0.05时,即P≤0.05,统计学习惯上称该事件为小概率事件。 10.▲误差:表示统计量与参数之间的差别或测量值与真值之间的差别。可分为系统误差和随机误差,其中系统误差呈现倾向性偏大或偏小现象,是可以避免的;而随机误差,是非人为偶然因素所致,不可避免,但可通过增大样本量等措施使其减小。 11.因果与联系:存在联系未必有因果关系,需排除虚假关联、间接关联。大多数观察性研究,单靠统计学分析只能考察变量之间的联系,难以证明因果关系。

相关主题