搜档网
当前位置:搜档网 › 第五章 集中趋势和离中趋势的度量

第五章 集中趋势和离中趋势的度量

第五章   集中趋势和离中趋势的度量
第五章   集中趋势和离中趋势的度量

第五章数据分布特征的描述

第一节集中趋势指标概述

一、集中趋势指标及其特点

集中趋势(Central tendency),是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或是心值。在现象的同质总体中,各个单位的标志值是不尽相同的。如果我们的目的是要对总体的数量水平有一个概括地、一般地认识,显然不能用某一单位的标志值表示。统计平均数就是用来反映总体的一般水平和集中趋势的指标。通俗的理解就是,在不变更总体总量的情况下,对总体内的全部标志值进行“截长补短”,使得总体各单位拥有同一水平的数量表现,这个同一水平的数量表现就是平均数,即集中趋势指标。

统计平均数有两个重要的特点:

第一,平均数是一个代表值,表示被研究总体的一般水平。例如,某企业职工的工资水平有高有低,有的职工月工资1680元,有的职工月工资1900元,有的职工月工资1870元,有的职工月工资2200元,等等。若根据该企业各个职工月工资额综合计算出职工月平均工资为1860元,那么,1860元就是一个代表值。它反映了该企业职工月工资的—般水平。

第二,平均数把被研究总体各单位的标志值的数量差异抽象化了。例如,某企业职工的月平均工资为1860元,但是各个职工的工资水平有高有低,高于1860元的工资和低于1860元的工资互相抵消了,从而得出平均工资1860元。由此可见,平均工资(1860元)已把各职工月工资水平的差别抽象化了。

二、集中趋势指标的作用

集中趋势指标——统计平均数,在统计研究中被广泛应用,平均数的作用可以归纳为以下几点:

1.利用平均数对比不同总体的一般水平。平均数可以用来对同类现象在各单位、各部门、各地区之间进行比较,以说明生产水平的高低或经济效果的好坏。例如,要比较不同的生产企业生产水平的好坏,仅对比企业的产品总产量是不足以说明问题的,因为产品总产量受到企业规模大小的影响。要比较,需要计算各企业生产人员的平均产品产量,即劳动生产率,并分析不同的生产条件,才能做出正确的判断。

2.利用平均数比较和反映同一单位某一标志不同时期一般水平的发展变化,说明事物的发展过程和变化趋势。

表5—1 北京市历年在岗职工平均工资

资料来源:北京市劳动和社会保障局

由此可以看出,历年来,北京市在岗职工的工资水平在不断的提高。若用工资总额这个总量指标分析,会受职工人数变动的影响,从而得不到正确的结果,而以平均工资这个平均数对比,则能正确地反映该市职工工资水平的动态以及变化的趋势。

3.利用平均数分析现象之间的相互关系,并推算其它有关的指标。在统计估算中经常用一部分单位标志值的平均数去推算总体平均数,并据以推算总体的相关总量指标。例如,在抽样推断中,可以用某种农作物产量抽样调查的平均单位面积产量,推断农作物的总平均单位面积产量,并据以推算某地区或全国的某种农作物的总产量。

三、集中趋势指标的类型

集中趋势指标——平均数包括静态平均数和动态平均数两种。静态平均数是根据分布数

列计算而得到的一种平均数,它主要是从静态上说明总体各单位标志值的一般水平。本章的集中趋势指标就是指静态平均数。静态平均数根据其处理的方法不同又可以分为两种,一种是数值平均数,主要包括算术平均数、调和平均数、几何平均数三种;另一种是位置平均数,主要包括众数和中位数两种。另外,还有分位数,分位数也是位置平均数。动态平均数则是根据时间序列计算而得到的一种平均数,它主要是从时间变化的动态上说明一段时期内现象发展的一般水平,它的具体计算将在第九章进行详细阐述。

????

?

?

??

??

?

???????????????????????分位数中位数众数位置平均数几何平均数调和平均数算术平均数数值平均数静态平均数动态平均数统计平均数

第二节 数值平均数

数值平均数,就是对统计分布数列中的所有各项数据进行计算所得到的平均数,它能概

括地说明频数分布中全部数据的一般水平和集中趋势。如前所述,数值平均数主要包括算术平均数、调和平均数、几何平均数三种。

一、算术平均数

(一)算术平均数的基本公式

算术平均数(Arithmetic mean )是最常用的一种平均数。它是总体各单位某一数量的全部标志值的平均,它等于总体各单位某一数量标志的标志值的总和除以总体单位数。

=

总体标志值总数

算术平均数总体单位数

(公式5.1)

可见,在具备总体单位标志值总数和总体单位总数时,可直接利用基本公式计算算术平均数。例如,2006年我国职工工资总额为23439亿元,职工人数为11160.9万人,则我国2006年的职年平均工资为:

职工总人数年工资总额年平均工资=

()元万人

亿元

21001

9.1116023439== 利用上述基本公式计算平均数时,要注意公式的子项和母项在总体范围上的可比性,也

就是说,分子和分母必属同一总体,我们也可以称之为计算算术平均数时必须遵循的同质性原则。同时,平均数是一个具有计量单位的名数,它的计量单位应当和总体标志值总数的计量单位一致。

由于所掌握的资料不同,在实际计算算术平均数时,可以分别采用为简单算术平均数和加权算术平均数两种计算形式。

(二)简单算术平均数

简单算术平均数( Simple arithmetical average )是将变量数列中各标志值简单相加求得标志值总数,然后除以总体单位总数而求得的平均数。适应于根据未分组的资料计算平

均数。设()1,2,3,i x i n = 代表标志值,x 代表算术平均数,则简单算术平均数的计算公式为:

123n x

x x x x x n n

++++=

=

∑ (公式5.2) 例5-l 有五名学生参加《统计学原理》高等教育自学考试,成绩分别为70、78、80、82、

90分,则这五名学生的《统计学原理》平均成绩为:

()7078808290805

x x n

++++===∑分

(三)加权算术平均数

当掌握的资料是由标志值和次数所组成的变量数列时,可采用加权算术平均数(Weighted arithmetical average )的形式计算平均数。它是先将各组标志值与相同组的频数相乘以后得到各组标志值总数,再将各组标志值总数加总求得总体标志值总数,同时,把各组频数相加得到总体单位总数,再将两者相除得到加权算术平均数。其计算公式为:

112212n n n xf

x f x f x f x f f f f +++==

+++∑∑

(公式5.3) 式中:f 表示各组标志值出现的次数,即各组的总体单位数。

例5-2某企业某班组工人产量资料如表5-1所示。 表5-2 某企业某班组工人日产量统计表

xf x f

=

∑∑

()35442114855414596

4115146

195248.840?+?+?+?+?=

++++==公斤

须注意的是:当分组数列为组距式数列时,应先求出各组的组中值来代替各组的组平均数以后才能计算加权算术平均数。此时用组中值代替组平均数是假定标志值的分布在该组距范围内的变化是均匀的。所以,由组距式数列计算加权算术平均数是一个近似值。

例5-3 某储蓄所贷款资料如表5-2所示。

由此可知该储蓄所每个商业者的平均贷款额为:

10163028504570216010

1628452110

xf x f

?+?+?+?+?=

=

++++∑∑

()万元8.46120

5620

==

不难看出,加权算术平均数受两个因素的影响,一个是频数分布中各组标志值的水平,另一个是各组标志值出现的频数。当各组标志值确定不变时,各组频数则起着决定作用。出现次数多的标志值对平均数的影响大,使平均数向其靠拢,出现频数少的标志值对平均数的影响小,平均数远离该标志值,如上例贷款额第三组的户数最多,所以平均贷款额接近第三组的水平。从而可以看出,各组标志值出现的频数在计算平均数的过程中起着权衡轻重的作用,故称为权数,按这种方法计算得到的平均数也就叫做加权算术平均数。但权数的权衡作用不在于其本身绝对数值的大小,而在于它所占总次数比重的大小。因此,权数也可以用各组单位数占全部总体单位数的比重,即频率f

f

∑表示。这个权数叫做实质权数。加权算术

平均数的计算公式又可表示如下:

xf f x x f f ??== ?

???

∑∑∑∑ (公式5.4) 例5-4 根据表5-1资料计算按频率计算平均数如下:

平均日产量为:

f x x f ??= ? ???

∑∑

()3510%4227.5%4812.5%5135.0%5015.0%48.8=?+?+?+?+?=公斤

表5-4 按频率计算平均数

由此可以看出,如果各组的单位数相等,即12n f f f f === ,即各组的频率

f

f

∑相

等时,权数失去权衡轻重的作用。这时,加权算术平均数等于简单算术平均数。即:

xf

f x x x f

nf

n

=

=

=

∑∑∑∑ (公式5.5)

(四)算术平均数的主要数学性质

算术平均数具有很多数学性质,在此只介绍其中四条主要性 1.变量数列中各个标志值与算术平均数的离差之和等于零。即:

()()00x x x x f -=-=∑∑或 (公式5.6)

证明:

()0x x x nx x x -=-=-=∑∑∑∑

()0x x f xf xf xf x f -=-=-=∑∑∑∑∑

2.变量数列中各标志值与算术平均数的离差平方和最小。也就是说变量数列中各标志值对其它任意数的离差平方之和都大于变量数列中各标志值对算术平均数的离差平方之和。即:

()

()2

2x x x x f -=-=∑∑最小值或最小值。 (公式5.7)

证明:设0x 为任意数,00,,c x x x x c =-=- 则以0x 为中心的离差平方和为:

()

()()2

2

2

0x x x x c x x c -=--=-+????????∑∑∑

()()()()

222

2

2x x c x x nc x x nc x x =-+-+=-+≥-∑∑∑∑

所以

()

2

x x -∑为最小值。

同样的方法可以证明出

()

2

x x f -∑最小值也是成立的。

3.任何两个变量代数和的算术平均数等于两个变量的算术平均数的代数和。即:

x y x y +=+ (公式5.8)

证明:设变量x 有n 个值,变量y 有m 个值,则两个变量之和(x +y )的值则共有nm

个,推导过程如下:

()n

m

n m n m

x y x y

x y nm

nm

+++=

=

∑∑∑∑∑∑

n

m

n

m

m x n y

x y

nm

n

m x y

+=

=

+

=+∑∑∑∑

这一结论还可以推广到任意多个变量。即:

x y z m x y z m ++++=+++ (公式5.9)

4.对被平均的变量施行某种线性变换后,新变量的算术平均数就等于对原变量的算术平均数施行同样线性变换后的结果,即:

a bx a bx +=+ (公式5.10)

其中,a 和b 均为常数。 证明:()a bx a bx a bx n

n

+++=

=∑∑∑

na b x

x a b

n n a bx

+=

=+=+∑∑

以上四条数学性质主要说明了两个方面的问题,第一条和第一条说明了算术平均数是概

括反映整个变量数列集中趋势的优良的代表值;第三条和第四条说明了算术平均数在计算和分析上具有非常简捷、便利的特点。

二、调和平均数

调和平均数是平均数的一种。但统计调和平均数,与数学调和平均数不同。在数学中调和平均数与算术平均数都是独立的自成体系的。计算结果两者不相同且前者恒小于后者。 因而数学调和平均数定义为:数值倒数的平均数的倒数。但统计调和平均数则与之不同,它是算术平均数的变形,附属于算术平均数,不能单独成立体系。且计算结果与加权算术平均数完全相等。

所以统计调和平均数的概念应为:用平均标志值(变量值)的倒数作为新变量进行的算术平均数的倒数。

(一)简单调和平均数

简单调和平均数适应于未分组的资料计算调和平均数。计算公式如下:

1111

n n xH x x x

x

=

=

+++∑ (公式5.11)

式中:xH 代表调和平均数;x 代表各个标志值;n 代表标志值的项数;Σ为总和符号。 例5-5 市场上某种蔬菜的早市价格2.2元/斤,午市价格1.8元/斤,晚市价格1.6元/斤,如果早、中、晚各买1元钱的蔬菜,则平均每斤的价格为:

()33

0.81111 3.751.20.80.6

n xH x

=

=

==++∑元

(二)加权调和平均数

加权调和平均数适应于已分组的资料。如果掌握各组的标志值水平和各组的标志值总数,而不知道各组的总体单位数时,应采用加权调和平均数的方法计算调和平均数。计算公式如下:

1212

12n n n

m

m m m xH m m m m x x x x +++=

=

++∑∑ (公式5.12) 式中:xH 代表调和平均数;m 代表各组标志值总数,x 代表各个标志值水平。 如上所述,加权调和平均数是加权算术平均数的变形。它与加权算术平均数在实质上是

相同的,而仅有形式上的区别,即表现为变量对称的区别、权数对称的区别和计算位置对称的区别。因而其计算公式又可以写为:

式中:xf m =(标志总量)

从上式中可以看出,m ∑是总体标志总量,m x 是各组单位数,m

x ∑是总体单位总数。

加权调和平均数的权数是一个特定权数,同时,加权调和平均数也要符合算术平均数基本公

式的要求。因此,加权调和平均数实际上只是加权算术平均数的一种变形,它只适应于处理适当类型的分组资料。

例5-6 市场上某种蔬菜的早市价格1.2元/斤,午市价格0.8元/斤,晚市价格0.6元/斤,如果早市买180元,午市买160元,晚市买150元时,则蔬菜的平均价格为多少?

解:平均价格为

()1801601500.821801601501.20.80.6

m xH m x ++=

==++∑∑元

以上加权调和平均数是用单项式数列计算的,如果是组距式数列,那么首先要计算出各组的组中值来代替各组的组平均数,然后再按加权调和平均数的公式进行计算。

例5-7 某季度某工业公司18个工业企业产值计划完成程度分组资料见表5-5。 表中资料的第一、三、四栏是给定的,第二、五栏是计算得出的。 解:根据表中资料可知平均产值计划完成程度为:

680237518060506068023751806050600.850.95 1.05 1.15

m xH m x +++=

=+++∑∑ 26475

105.12%24900

=

=

三、几何平均数

几何平均数(Geometric mean )是n 个标志值的连乘积的n 次方根,适应于计算平均比率和平均速度。根据所掌握的资料不同,有简单几保平均数和加权几何平均数两种。

(一)简单几何平均数

简单几何平均数适应于已知每个比率或每个速度水平均数的情况。设有n 个标志值(比率或速度)分别为123,,,,,

n x x x x 则简单几何平均数G x 的计算公式为:

G x == (公式5.13)

例5-8我国2004年到2007年个人住房公积金贷款年利率如下表

如果个人住房公积金贷款利息按年复利计算,那么,根据表中资料可以计算出我国个人住房公积金贷款年平均利率为:

贷款期为5年以下的年平均贷款利率

1121-**=-n n G x x x x

=10477.10414.10396.10378.1-???

=1.0416-1=0.0416=4.16%

贷款期为5年以上的年平均贷款利率

1121-**=-n n G x x x x

=10522.10459.10441.10423.1-???

=1.0461-1=0.0461=4.61% (二)加权几何平均数

加权几何平均数适应于比率或速度已分组的情况下。设经过分组以后有n 个标志值(比

率或速度),分别为123,,,,,n x x x x 假设各标志值(比率或速度)的权数分别为

123,,,,,

n f f f f 则加权几何平均数G x 的计算公式为

G x == (公式5.14)

例5—9 我国历年个人住房商业贷款5年期以上年利率如下表(见表5-7)

表5—7 我国个人住房商业贷款5年期以上年利率

如果个人住房商业贷款5年期以上年利率按年复利计算,那么,根据表中资料可以计算出我国个人住房公积金贷款年平均利率为:

解:首先计算出平均每年的贷款本利比率G x 。

G x 13242132420783

.10612.10576.10756.1152.1++++????= =1.0815=108.15%

所以,历年个人住房商业贷款5年期以上年年平均贷款利率为:

G x -1=108.15%-100%=8.15%

四、正确应用数值平均数的原则

数值平均数在统计研究中应用十分广泛。理论上讲,变量数列中任何一项数据,都将在一定程度上影响到数值平均数大小,也就是说,数值平均数受到所有变量值的影响。因此,在运用数值平均数来分析总体现象时除了必须遵循以前所述的总体现象的同质性原则以外,还应注意以下几点:

(一)用组平均数补充说明总平均数。

总平均数不能全面说明总体的特征,因为总体单位之间还存在其它一些性质上的差别,有时被总平均数所掩盖。如前所述,加权算术平均数受两个因素的影响,一个是频数分布中

各组的标志值水平,即组平均数,另一个是各组标志值出现的频数。即使各组标志值确定不变,频率发生改变时,平均数也会变化。因此,在进行统计分析时,必须在注意总平均数发生变化的同时,还要注意各组组平均数的变化情况,只有这样,才能全面地说明问题,揭示现象的本质。

(二)用频数分布补充说明平均数。

我们知道,平均数的重要特征是把总体各单位的数量差异抽象化了,从而掩盖了各单位的数量差别及分布状况。因此,在应用平均指标说明现象的特征时,还要具体地分析总体单位的分布状况,用频数分布来补充说明平均数。

(三)把平均数和典型事例相结合。

平均数反映总体某一数量标志的一般水平,它体现了一定范围内现象的共性,但它却掩盖了现象的个性。我们知道,事物的发展都是不平衡的,在同一总体中,既有先进部分,也有落后部分,不能满足于一般状况。因此,在充分发挥平均数认识现象一般水平的作用的同时,还需要结合典型事例,特别是要研究先进和落后的典型,以补充平均数的不足。

第三节位置平均数

与前述“数值平均数”不同,位置平均数通常不是对变量数列中的所有各项数据进行计算的结果,而是根据总体中处于特殊位置上的个别单位或部分单位的标志值来确定的代表值。因此,位置平均数不会受到变量数列中所有标志值的影响,但是它对于整个总体仍然具有非常直观的代表性。常用的位置平均数有众数、中位数以及分位数。

一、众数

众数(Mode)是一组数据中出现次数最多的标志值,用M,表示。虽说平均数是用来说明现象的一般水平的,但在有些情况下用众数说明现象的一般水平也有很好的效果。例如,为了掌握集市上某种商品的价格水平,不必登记全部的成交量和成交额,只用该日市场上最普遍的成交价格即可。又如在确定某种商品的生产量、进货量时,要考虑哪一种规格的商品消费量最大。显然,用众数来表现给定总体的一般水平或变量数列的集中趋势具有非常直观的代表意义。并且,众数不仅可以对真正的数量标志来加以计算,还可以对品质标志来加以确定,也就是说,它既适应于变量数列,也适合于品质数列。例如,销售量最多的服装款式或色彩,也即通常所谓的“流行款式”,就属于这种意义的众数。

对于由变量数列来确定众数,根据所掌握的资料不同,应采用不同的方法。具体方法如下:

1.如果各标志值分布很均匀,无明显的变化,则数列无众数。

例5-10 有20名学生参加某门课程的考试,所得的分数均不相同,资料如下:61.62,63.64,65,66,67,68,69,70,71,72.73、74,75,76,77.78,79、80。则由这20名学生的考试分数所组成的这个数列就没有众数。

2.如果是单项式数列或未分组的数据,则看哪一个标志值出现的次数最多便可。此时,出现次数最多的那一个标志值就是众数。

例5—11 有20名学生参加英语口试,所得分数如下:60,60,65,67,70,74,74,74,74,74,74,74,76,79,79,80,80,85,87,88。则由这20名学生的英语口试分数所组成的这个数列中74分出现的次数是7次,为所有分数值中出现次数最多的,所以74分为该数列的众数。

例5-12根据表5-1的有关资料得表5-8。确定数列的众数如下:

由以上变量数列可以看出,日产量54公斤的工人人数14人,为最多次数,所以,日产量54公斤就是众数。

3.由组距式数列确定众数,先根据次数的多少确定众数组,然后可按下述公式之一计算:

下限公式:1

012

M L i ?=+

??+? (公式5.15)

上限公式: 012

2

M U i ?=-

??+? (公式5.16)

式中:0M 表示众数;L 表示众数组的下限;U 表示众数组的上限;i 表示众数组组距;

1?表示众数组次数与其前一组次数之差;2?表示众数组次数与其后一组次数之差。

例5-13 某商场营业员销售额资料如表5-9所示,试确定众数。

解:由表中资料可知,各组组距相等,出现次数最多的是年销售额70—80万元组。同时,1270,80,1054857,1056045,807010L U i ==?=-=?=-==-=。

则:年销售额的众数为,

1

012

M L I ?=+

??+?

()57

7010

574575.6=+

?+=百元

或: 012

2

M U i ?=-

??+?

()

45

8010

574575.6=-

?+=百元

二、中位数

中位数(Median )是指将总体各单位标志值按照大小顺序排列后,处于中间位置的那个标志值,用M.表示。中位数将变量数列分为相等的两部分,一部分的标志值小于中位数,另一部分的标志值大于中位数。用这样一个中等水平的标志值来表现数据的集中趋势,显然也具有非常直观的代表性。在许多情况下,不易计算数值平均数时,可用中位数代表总体的一般水平,尤其是在总体标志值差异很大的情况下,中位数更加具有较强的代表性。例如,人口年龄中位数,可表示人口年龄的一般水平;集贸市场上某种商品的价格中位数,可代表该种商品价格的一般水平;在收入水平差异较大的社会,用居民收入的中位数作为收入水平的代表值更为恰当,因为它排除了极端变量值的影响。

对于中位数的确定,根据具体资料不同,采用的方法也就不同,这里分以下三种情况: 1.由未分组的数据确定中位数。

根据未分组的数据确定中位数时,首先将总体各单位的标志值资料按大小顺序排列,然后按照

1

2

n +(n 表示资料的项数)来确定中位数的位次,再根据中位数的位次找出对应的标志值即可。

例5-14某企业各车间某月份的工人劳动生产率分别为2.O 、2.1、2.3、2.5、2.6、2.7、2.9万元,则:

中位数位次171

422

n ++=

== 即序列中的第四个工人劳动生产率2.5万元为中位数。

上例数据的个数为奇数,如果为偶数,如某企业各车间某月份的工人劳动生产率分别为2.0、2.3、2.5、2.6、2.7、2.9万元,则:

中位数位次161

3.522

n ++=

==,该位次在第3个位次和第4个位次中间,则中位数取第3个位次和第4个位次对应的标志值的算术平均数。即:

()2.5 2.6

2.552

e M +=

=万元 2.由单项数列确定中位数。

由单项数列确定中位数时,先向上或向下累计次数,然后按12

f +∑确定中位数的位次,

最后再根据中位数的位次,将按向上累计或向下累计的方法累计的累计次数刚好超过中位数位次

12

f +∑的组确定为中位数组,该组所对应的标志值即为中位数。

3.由组距数列确定中位数。

由组距数列确定中位数,先向上或向下累计频数,然后按12

f +∑确定中位数的位次,

再用公式计算中位数的近似值。其计算公式如下:

下限公式(向上累计用):12

m e f

S M L i fm

--=+

?∑ (公式5.17)

上限公式(向下累计用): 12

m e f

S M U i fm

+-=-

?∑ (公式5.18)

式中:L 表示中位数组的下限,以表示中位数组的上限,i 表示中位数组的组距,m f 表示中位数组的频数。1m S -表示中位数组前一组的累计次数, 1m S +表示中位数组后一组的累计次数

例5-15 某商场营业员商品销售资料如表5-10所示。试计算销售额的中位数。 解:根据资料先计算出中位数的位次为:

13001150.52

2

f ++==∑

再计算出累计次数(见表5-10中的第三栏和第四栏)。经过观察又可以看出,第150.5项无论从哪个方向累计都包括在第3组中,即位于70—80这一组,所以70—80这一组就是中位数组。运用前述公式可以计算中位数如下:

12

m e f

S M L i fm

--=+

?∑

()300

72

2701077.43105

-=+?=百元

12

m e f

S M U i fm

+-=-

?∑

()300

123

2801077.43105

-=-?=百元

表5-10 某商场营业员销售额资料

很显然,当累计次数是向上累计时,须用下限公式计算中位数;当累计次数是向下累计时,则要用上限公式计算中位数。按照一般习惯,用下限公式计算中位数较多见。

三、分位数( Division figure )*

上面的中位数作为变量数列中处于中等水平的代表值,能够将全部总体单位按标志值的大小等分为两个部分,因此,中位数也称为“1/2分位数”或“二分位数”。类似的,我们还可以定义出其它的分位数,如四分位数(quartile )、十分位数(decile )和百分位数( percentile )等等。

一般地,称能够将全部总体单位按标志值大小等分为k 个部分的数值为“k 分位数”。由此可知,这样的k 分位数共有k-1个。即有3个四分位数,9个十分位数,99个百分位数。确定各种分位数,目的在于进一步把握变量值的分布范围和内部结构。与中位数和众数一样,这些分位数也反映了总体分布的位置特征。尽管它们一般并不表明分布的集中趋势(也即本身并不属于位置平均数),但却可以作为考察分布的集中趋势和变异状况的有效工具,尤其是在强调“稳健性”和“耐抗性”的现代探索性数据分析中,分位数这一工具获得了许多重要运用。本书只介绍四分位数。

四分位数(quartile )是指将按标志值大小顺序排列的变量数列的全部总体单位等分为四个部分的三个数值,分别记为1Q 、2Q 和3Q 。第一个四分位数1Q 叫做“1/4四分位数”或“下四分位数”;第二个四分位数就是中位数;第三个四分位数也叫做“3/4四分位数”或“上四分位数”。

1.由未分组的数列计算四分位数。

首先按照确定四分位数位次的公式来确定四分位数的位次,然后再根据四分位数的位次找出相对应的标志值,位于相对应位次上的标志值就是相应的四分位数。三个四分位数的位次分别为:

1Q 的位次1

4

n +=

(公式5.19) ()21

42n Q +=2n+1的位次=

(公式5.20) 3Q 的位次()

314

n +=

(公式5.21) 式中,n 表示资料的项数。

例5-l6 某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4、15.7公斤,则三个四分位数的位次分别为:

1Q 的位次1111

344

n ++=

== ()21111

6422

n Q ++===2n+1的位次=

3Q 的位次()()

313111944

n +?+=

== 即变量数列中的第3个、第6个、第9个工人的某种产品产量分别为“1/4四分位数”、

中位数和“3/4四分位数”。

即: 1Q =13.8公斤;2Q =14.6公斤;3Q =15.2公斤。

上例(n +1)恰好为4的倍数,所以确定四分位数较简单;如果(n +1)不为4的整数倍数,按上面公式计算出来的四分位数位次就可能带有小数(也即是一个带分数),这时,有关的四分位数就应该是与该带分数相邻的两个整数位次上的标志值的某种加权算术平均数,权数的大小取决于两个整数位次与四分位数位次(带分数)距离的远近,距离越近权数越大,距离越远权数越小。

例5-17某车间某月份的工人生产某产品的数量分别为13、13.5、13.8、13.9、14、14.6、14.8、15、15.2、15.4公斤,则三个四分位数的位次分别为:

1Q 的位次1101

2.7544

n ++=

== ()21101

5.5422

n Q ++===2n+1的位次=

3Q 的位次()()

3131018.2544

n +?+=

== 即变量数列中的第2.75项、第5.5项、第8.25项工人的某种产品产量分别为“1/4四

分位数”、“中位数”和“3/4四分位数”。则

10.250.75Q =?+?第二项第三项

()

13.50.2813.80.7513.73=?+?=公斤

20.50.5Q =?+?第五项第六项

()1414.6

14.32+=

=公斤

30.750.25Q =?+?第八项第九项

()

150.7515.20.2515.05=?+?=公斤

2.由组距式数列确定四分位数

由组距式数列计算四分位数按以下步骤进行。 第一步,向上或向下累计次数.

第二步,根据累计次数确定四分位数的位置. (1)、当采用向上累计次数的资料确定四分位数时,四分位数位置的公式是:

1

Q 的位置=

4

1+∑f (公式5.22)

2Q 的位置=()2

14

12+=

+∑∑f f (公式5.23)

3Q 的位置=

()4

13+∑f (公式5.24)

式中:

∑f 表示资料的总次数。

(2)、当采用向下累计次数的资料确定四分位数时,四分位数位置的公式是:

1Q 的位置=

()4

13+∑f (公式5.25)

2Q 的位置=

()2

14

12+=

+∑∑f f (公式5.26) 3Q 的位置=

4

1∑+f (公式5.27)

式中:

∑f 表示资料的总次数。

第三步,根据四分位数的位置算出各四分位数. (1)、当累计次数是向上累计时,按下限公式计算各四分位数.

1

111

114

i f S f

L Q Q Q ?-+

=-∑ (公式5.28)

2

12222

4

2i f S f

L Q Q Q ?-+

=-∑ (公式5.29)

3

13333

4

3i f S f

L Q Q Q ?-+

=-∑ (公式5.30)

式中:1Q 、2Q 、3Q 分别表示下四分位数、中位数和上四分位数;

1L 、2L 、3L 分别表示下四分位数、中位数和上四分位数所在组的下限;

1i 、2i 、3i 分别表示下四分位数、中位数和上四分位数所在组的组距;

∑f 表示总次数;

1Q f 、2Q f 、3Q f 分别表示下四分位数、中位数和上四分位数所在组的次数;

11-Q S 表示下四分位数前一组的累计次数; 12-Q S 表示中位数前一组的累计次数; 1

3-Q

S 表示上四分位数前一组的累计次数。

(2)、当累计次数是向下累计时,按上限公式计算各四分位数.

1

1111

143i f S f

U Q Q Q ?--

=+∑ (公式5.31)

2

1

222

24

2i f S f

U Q Q Q ?--

=+∑ (公式5.32)

3

13333

4

i f S f

U Q Q Q ?--

=+∑ (公式5.33)

式中:1Q 、2Q 、3Q 分别表示下四分位数、中位数和上四分位数;

1U 、2U 、3U 分别表示下四分位数、中位数和上四分位数所在组的上限;

1i 、2i 、3i 分别表示下四分位数、中位数和上四分位数所在组的组距;

∑f 表示总次数;

1Q f 、2Q f 、3Q f 分别表示下四分位数、中位数和上四分位数所在组的次数; 11+Q S 表示下四分位数后一组的累计次数; 12+Q S 表示中位数后一组的累计次数; 1

3+Q

S 表示上四分位数后一组的累计次数.

例5—18某企业职工月工资的分组资料如下表

表5—11 某企业职工月工资的分组资料

根据上述资料确定某企业职工的月工资的三个四分位数如下: (1)采用向上累计职工人数的资料得月工资四分位数的位置为:

1Q 的位置=75.1414156641=+=+∑f

2Q 的位置=()2

15662

14

12+=+=+∑∑f f =283.5

3Q 的位置=()()25.4254

15663413=+?=+∑f

根据计算结果可知,1Q 、2Q 、3Q 分别位于向上累计职工人数的第二组、第三组和第四组,月工资四分位数分别为:

()元75.1698100120234566

160041111

11=?-+=?-+

=-∑i f S f

L Q Q Q ()元33.1793100150

1434566

217004

2212222

=?-?+=?-+

=-∑i f S f

L Q Q Q ()元41.1897100135

2934566

318004

3313333

=?-?+=?-+

=-∑i f S f

L Q Q Q (2)采用向下累计职工人数的资料得月工资四分位数的位置为:

1Q 的位置=()25.4254)1566(3413=+?=+∑f

2Q 的位置=()2

15662

14

12+=+=+∑∑f f =283.5

3Q 的位置=75.1414

156641=+=+∑f

同样可知:1Q 、2Q 、3Q 分别位于向下累计职工人数的第二组、第三组和第四组,月工资四分位数分别为:

()元75.1698100120

423

4566

317004

311111

1=?-?-=?--

=+∑i f S f

U Q Q Q

()元33.1793100150

2734566

218004

221222

2=?-?-=?--

=+∑i f S f

U Q Q Q ()元41.1897100135

138

4566

19004

313333

=?--=?--

=+∑i f S f

U Q Q Q

计算结果同按下限公式计算的一致,即所求某企业职工月工资的三个四分数也分别为698.75元、793.33元和897.41元。

在实际运用中,由于标志值序列中的相邻标志值常常相同,因而不一定要通过计算才能得到有关的四分位数。

第四节 离中趋势的度量

一、离中趋势指标的涵义

统计平均数是一组数据的一般水平或代表值、中心值,说明了一组数据的集中趋势。而集中趋势只是数据组数量特征的一个方面,另一方面还应表明该数据组的分布偏离一般水平或中心值的程度,说明平均数对所平均的数据的代表性大小。因此,在运用平均指标反映数据组集中趋势的同时,还要观察数据组的离中程度,这就需要设置一类反映离中程度大小的指标。

离中趋势,是指一组数据中各数据值以不同程度的距离偏离其中心(平均数)的趋势,又称标志变动度。它是综合反映现象总体各单位标志值差异程度的指标,亦即用来反映分配数列中个标志值的变动范围及离散程度的。在对统计数据进行综合分析时,将集中趋势指标和离中趋势指标互相配合、互相补充,可以对统计数据进行较全面的观察。

常用的离中趋势指标有极差、分位差、平均差、方差、标准差、离散系数等。 二、极差和分位差 (一)极差

极差(Range )是一组数据中的最大值与最小值的差距。用公式表示为: 极差 = 最大变量值 - 最小变量值 (公式5.34) 根据所掌握的资料不同,极差有两种计算方法:

由未分组或单项分组资料计算极差,只要用其中的最大值减去最小值即可求得。 如果统计数据已经过整理,并形成组距数列,则极差的近似值为:

极差 = 最大组的上限 - 最小组的下限 (公式5.35)

极差是测定离中趋势的一种简便方法,它能说明数据组中各数据值的最大变动范围,但由于它是根据数据组的两个极端值进行计算的,没有考虑到中间变量值的变动情况,所以不能充分反映数据组所有各项数据的离中趋势,只是一个较粗糙的测定数据离中趋势的指标。

在实际工作中,极差可用于粗略检查产品质量的稳定性和进行质量控制。因为在正常生产的条件下,产品质量比较稳定,误差总是在一定范围内波动。如有不正常情况时,误差将会超出一定范围。这样,利用极差有助于及时发现问题,以便采取措施,保证产品质量。

(二)分位差

分位差是对极差的一种改进,它是从一组数据中剔除了一部分极端值之后重新计算的类似于极差的指标。常用的有四分位差、八分位差和十分位差等。本书只介绍四分位差(9uartile devi-ation )。四分位差是第三个四分位数减去第一个四分位数的差的一半,即:

2

第一个四分位数第三个四分位数四分位差-=

(公式5.36)

四分位差排除了数列两端各25%单位标志值的影响,反映了数据组中间部分各变量值的最大数与最小数距离中位数的平均离差。

例5-19 已知有八个数字7、6、8、9、8、4、8、6,求这组数的四分位差。

首先,将其按从小到大顺序排列,即4、6、6、7、8、8、8、9,然后分成四等份,第一个四分位数位于第二、三个数字之间,取其平均数为(6+6)/2=6,依次,第二个四分位数为(7+8)/2=7.5,第三个四分泣数为(8+8)/2=8,则这组数据的四分位差为(8-6)/2=1。

这种为了消除极端变量值对测定结果影响的方法,在实际中也是常用的,例如歌手大奖赛中,去掉评委一个最高分,去掉评委一个最低分,然后再计算其平均值,就是为了消除极端变量值对歌手得分的影响。

三、平均差

平均差(Mean deviation )是数据组中各数据值与其算术平均数离差绝对值的算术平均数,常用符号“M.D ”表示。

因掌握资料形式不同,有两种计算公式。 1.简单平均式

.x x M D n

-=

∑ (公式5.37)

当变量数列是由没有分组的数据组成或分组后每组的次数相等的数据组成时采用。

例5-20某车间有两个班组,各有10名工人,其日产量见表5-12。 表5-12 平均差计算表

两组工人日产量的平均差为:

(完整版)度量分析指南(参考).docx

度量与分析指南xxx科技股份有限公司

变更记录 版本号修改点说明变更日期变更人审批人V1.0创建EPG 修改点说明的内容有如下几种:创建、修改(+修改说明)、删除( +删除说明)

目录 1.简介 (1) 1.1目的 (1) 1.2适用范围 (1) 1.3背景描述 (1) 2.度量分析过程概述 (1) 2.1简要说明 (1) 2.2方法概述 (2) 2.3度量方法(项目级) (3) 2.3.1工作量度量 (3) 2.3.2工作进度度量 (5) 2.3.3缺陷度量 (6) 2.3.4变更度量 (8) 2.3.5不符合项度量 (9) 2.3.6规模数据度量 (11) 2.4度量方法(组织级) (12) 2.4.1工作量 (12) 2.4.2进度偏差率 (13) 2.4.3测试缺陷关闭率 (14) 2.4.4评审缺陷关闭率 (15) 2.4.5缺陷分布情况 (16) 2.4.6不符合项解决情况 (17) 2.4.7生产率 (18) 3.附录 (19)

1.简介 1.1 目的 本规程文件是为度量过程中所进行的数据采集、记录及分析工作提供规范 性的指导。 1.2 适用范围 适用于所有项目所产生的产品质量和过程能力的度量分析。 1.3 背景描述 在项目策划阶段,如果没有项目历史数据积累将无法对项目规模、工作量、进度等指标进行准确的估计。项目进行过程中,没有项目度量数据的收集,将无法对项目状态和质量进行有效的分析,也无法对公司过程改进工作提供量化的数据支持。因此,有效开展度量与分析活动是非常重要的。 采集度量数据,目的在于使过程可视化,分析造成过程现状的原因和寻找 可能的改进措施;存储数据,目的在于保存历史信息,显示变化趋势,提供过程 改进的依据。 无论采集的度量数据代表什么或者数值如何表现,都必须使用某种分析方 法来提取和解释隐藏在数据中的信息。解释清楚数据意义的本身就是一个过程, 即数据分析的过程。 2.度量分析过程概述 2.1 简要说明 EPG根据本公司现阶段项目和开发的特点,以及过程改进的目标,经过权衡,决定选择工作量、进度、缺陷、变更和规模数据作为公司项目的标准度量项。 通过对本公司既往项目实施状况的调查和分析,EPG认为,我们在限定规模、保证进度、合理分配工作量、保持优良质量等方面还存在一些缺陷,所以需 要通过这些项目属性进行度量、分析和监控,有效改进研发过程,达成公司的质量目标和盈利目标。

项目度量指标介绍

项目管理度量指标介绍 概述: 项目管理者和高层管理对于项目的信息,除项目质量外,非常关注项目的进度情况和成本情况。进度情况决定是否可以按时达成项目的时间计划承诺;项目成本情况直接决定本次项目是否可以盈利。本文简要介绍项目管理的几个度量指标:BCWS、BCWP、ACWP,并通过这几个指标去查看项目的健康状况。 指标介绍 BCWS BCWS(Budgeted Cost for Work Scheduled), 完成计划工作的预算成本。是指在某一个时刻检查该时刻在项目计划中应该完成的工作对应的预算。该指标跟项目的实际进展无关,在项目计划确定后,即可以计算出每个时点的BCWS。其特征关注两点:计划工作、预算。对应计算公式:BCWS=计划工作量×预算单价。 事实上在该时刻,项目实际完成的工作不一定与计划一致;工作队应所花费的成本可能也跟预算不一致。 BCWP BCWP(Budgeted Cost of Work Performed),已完成工作量的预算费用。是指在某一个时刻检查在项目计划的预算中对应实际完成工作的预算费用。该指标又称为挣得值或挣值或“已完成投资额”。项目属主正是根据这个值为承包商完成的工作量支付相应的费用,也就是承包获得(挣得)的金额。计算公式:BCWP=已完成工作量×预算单价。 ACWP ACWP(Actual Cost for Work Performed)已完成工作量的实际费用。是指完成特定的工作量实际花费的成本,该成本可能会高于预算,也可能会低于预算。该指标不关注时间,只关注完成特定工作量的成本。ACWP主要反映项目执行的实际消耗指标。计算公式:ACWP=实际完成工作量*实际单价。

第三章 数据的集中趋势和离散程度小结与思考

第三章 数据的集中趋势和离散程度小结与思考 一、基础知识: 1、平均数:如果有n 个数x 1 ,x 2 ,…,x n ,那么:= x 叫做这n 个数 的 ,简称为 . 2、中位数: 一般地,将一组数据按 顺序排列,如果数据的个数是奇数,那么处于 位置的数叫做这组数据的中位数;如果数据的个数是偶数,那么处于 位置的 数的 叫做这组数据的中位数. 3、众数:一组数据中出现次数最 的数据叫做这组数据的众数。 4、方差:用一组数据x 1,x 2,…,x n 与它们的平均数x 差的平方的平均数,即 s =2 叫做这组数据的方差。 5、极差:一组数据的最 数与最 数的差叫做这组数据的极差。 二、经典例题: 例1、在“感恩一日捐”捐赠活动中,某班40位同学捐款金额统计如下,则在这次活动中, 该班同学捐款金额的平均数是 元. 金额(元) 20 30 36 50 100 学生数(人) 3 7 5 15 10 例2、某户家庭今年1-5月的用电量分别是:72,66,52,58,68,这组数据的中位数是( ) A .52 B .58 C .66 D .68 例3、某校六个绿化小组一天植树的棵数如下:10 , 11 , 12 , 13 ,9 , x .若这组数据的平均数是11,则这组数据的众数是 。 例4、为了筹备班级初中毕业联欢会,班长对全班同学爱吃哪几种水果作了民意调查,那么最终买什么水果,下面的调查数据中最值得关注的是( ) A 、平均数 B 、加权平均数 C 、中位数 D 、众数 例5、小明和小刚两人参加体育项目训练,近期的5次测试成绩如下表所示,谁的成绩比较稳定?为什么? 测试次数 1 2 3 4 5 小明 13 14 13 12 13 小刚 10 13 16 14 12 n x x x n +?++21

从统计图分析数据的集中趋势教案

从统计图分析数据的集中趋势教案

121教学模式 科目_________________________ 年级_________________________ 教师____________ 数学 八年级 潘明明

课前1分钟防火教育 “121”教学模式导学案(______科) 数学 2013 年 11 月 29 日制订

检测预习交代目标检测预习: 平均数、中位数、众数等的实际含义 交代目标: 1. 知识与技能:进一步理解平均数、中位数、众数等的实际含义;能从条形统计图、扇形统计图等统计图表中获取信息,求出或估计相关数据的平均数、中位数、众数。 2. 过程与方法:初步经历数据的获取,并求出或估计相关数据的平均数、中位数、众数的过程,发展学生初步的统计意识和数据处理能力。 合作探究交流共享 第一环节:情境引入 内容:为了检查面包的质量是否达标,随机抽取了同种规格的面包10个,这10个面包的质量如下图所示。 (1)这10个面包质量的众数、中位数分别是多少? (2)估计这10个面包的平均质量,再具体算一算,看看你的估计水平如何。 目的:通过学生读取随机抽取了同种规格面包的统计图的信息,复习平均数、中位数、众数的概念,初步体会估计相关数据的平均数、中位数、众数的过程,从而引入新课。 注意事项:引例的解答要让学生自主参与,带着积极的状态进入新课的学习。 第二环节:活动探究

目的:以上“试一试”、“议一议”、“做一做”的活动,让学生经历数据的收集、加工与整理的过程,分别从折线图、条形图、扇形图中获取信息,估计数据的平均数、中位数、众数,并与同伴交流,学生能都有所获,形成学习经验,进一步发展初步的统计意识和数据处理能力,培养学生的探索精神和创新意识; 注意事项:注重学生读图、估计的过程、方法与结果,及时评价矫正。 合作探究交流共享 第三环节:运用提高 内容:1. 课本P145随堂练习题。 目的:通过学生的反馈练习,使教师及时了解学生从统计图估计数据的平均数、中位数和众数的情况,及分析数据的能力,以便教师及时对学生进行矫正。 注意事项:教师除了掌握学生从统计图估计数据的平均数、中位数和众数的情况,还要关注学生分析数据的能力,帮助学生提高认识。 第四环节:课堂小结 内容:在本节课的学习中,你通过从统计图估计数据的平均数、中位数和众数的学习有什么认识,有什么经验?(学生交流,教师小结)。

KPI.标准说明

KPI指标说明 第一部分PMT 类KPI指标 一、CPD 推行类指标 1、决策评审点管理效率 2、项目进度偏差率 3、项目周期, 阶段周期及偏差 4、市场响应速度 二、质量类指标 5、客户满意度 6、客户反馈产品缺陷(产品故障率) 7、客户服务支持费用比重 8、产品保修费用比重 三、效率类指标 9、产品器件效率 9.1 PMT 器件替代率 9.2 PMT 器件复用率 9.3 PMT 器件优选率 9.4 PMT 器件累计增长率 四、市场成功/投资类指标 10、市场份额

11、税前利润率 12、销售收入增长率 13、毛利率 14、研发投资效益 15、废弃项目比重 16、新产品销售比重 第二部分PDT 类KPI指标 一、CPD 推行类指标 1、决策评审点准备度 2、项目进度偏差率 3、项目周期, 阶段周期及偏差 4、研发费用预算执行符合度 5、设计成本目标完成率 二、质量类指标 6、客户反馈产品缺陷 三、效率类指标 7、产品器件效率 7.1 器件替代率 7.2 器件复用率 7.3 器件优选率 四、市场成功/投资类指标

8、PDT合同-关键要素

第一部分PMT 类KPI指标 1、决策评审点管理效率 【指标名称】决策评审点管理效率 【指标定义】PMT对产品进行的各类决策评审活动的有效性统计。 【考核对象】 PMT 【设置目的】衡量PMT决策评审工作的效率,发现评审点管理中的问题,分析问题产生的原因并提出改进措施(例如促使PDT全面充分地完成决策评审准备工作等),以促进PMT 准确高效地作出决策。 【统计部门】PMT的秘书机构 【统计方法】 秘书机构的秘书根据自己的记录,对一个季度内PMT的决策评审数据进行统计: 1、实际决策评审次数。 2、有效决策评审次数; 一个产品或版本到了一定阶段,PMT需要对其进行决策评审以确定下一步的发展方向。对于正式发布以前的产品,一般在每个决策评审点时进行1次决策评审;对于进入生命周期阶段的产品,可根据公司规定,每隔一段时间进行

苏科版九年级数学上册第三章数据的集中趋势和离散程度单元复习及测试卷及答案

初中数学试卷 灿若寒星整理制作 第三章《数据的集中趋势和离散程度》复习卷 (一)“三数” 1、平均数:先求和,在平均分。 A 、先求和再平均分)(1 21n x x x n x +++= 【算术平均数】适用所有 B 、相同时减去接近数a ,求出新平均数。a x x +=' 适用所有数据在某一值附近 C 、1x 出现1f 次,2x 出现2f 次,…k x 出现k f 次,k k k f f f f x f x f x x ++++++= 212211 适用多个数 据出现多次。 2、一组数据的平均数,不仅与这组数据中各个数据的值有关,而且与个个数据的“重要程度”有关。我们把衡量各个数据“重要程度”的数值叫做权(权重)。例如下面是一个同学的某一科的考试成绩:平时测验 80, 期中 90, 期末 95学校规定的科目成绩的计算方式是:平时测验占 20%;期中成绩占 30%;期末成绩占 50%;这里,每个成绩所占的比重叫做权数或权重。那么,加权平均值 = 80×20% + 90×30% + 95×50% = 90.5(分)算术平均值 = 3 1 (80 + 90 + 95) = 88.3(分) 3、将一组数据顺序排列,中间的一个数或两个数的平均数叫做这组数据的中位数。 4、一组数据中,出现次数最多的数据叫做这组数据的众数 5、平均数、中位数、众数都反映了一组数据的集中趋势。并且数据“三数”都有单位。 6、极差:一组数据中最大值与最小值的差叫做这组数据的极差。 7、方差:一组数据与它们的平均数的差的平方的平均数叫做这组数据的方差。 公式:])()()[(1 222212 x x x x x x n s n -++-+-= 8、标准差:一组数据方差的算术平方根叫做这组数据的标准差。2s s =

第四章 中心趋势测量

第四章中心趋势测量 一、单项选择题(在各题的备选答案中,只有1项是正确的,请将正确答案的序号,填写在题中的括号内。每小题2分,共20分) 1. 在某市随机抽取10 家企业,7月份利润额(单位:万元) 分别为7 2.0 、6 3. 1 、20. 0 、23. 0 、5 4. 7 、54.3 、23. 9 、2 5.0 、2 6. 9 、29.0,那么这10家企业7月份利润额均值为( )。 A. 39. 19 B. 28. 90 C. 19.54 D. 27.95 2. 对于右偏分布,平均数、中位数和众数之间的关系是( )。 A. 平均数〉中位数〉众数 B. 中位数〉平均数〉众数 C. 众数〉中位数〉平均数 D. 众数〉平均数〉中位数 二、名词解释(每题4分,共20分) 3. 中位数 4. 均值 三、简答题{每题 1 0分,共30分} 5. 简述众数、中位数和平均数作为测量中心趋势的指标所适用的数据类型。 6. 简述定类变量、定序变量和数值型变量集中趋势测量的方法。

四、计算题(每题 1 5分,共30分) 7. 某校社会学专业同学统计课成绩如下表所示。 社会学专业同学统计课成绩表 学号成绩学号成绩学号成绩101023 76 101037 75 101052 70 101024 91 101038 70 101053 88 101025 87 101039 76 101054 93 101026 78 101040 90 101055 62 101027 85 101041 76 101056 95 101028 96 101042 86 101057 95 101029 87 101043 97 101058 66 101030 86 101044 93 101059 82 101031 90 101045 92 101060 79 101032 91 101046 82 101061 76 101033 80 101047 80 101062 76 101034 81 101048 90 101063 68 101035 80 101049 88 101064 94 101036 83 101050 77 101065 83 要求: (1) 对考试成绩按由低到高进行排序,求出众数、中位数和平均数。 (2) 对考试成绩进行适当分组,编制频数分布表,并计算累计频数和累计频率。

数据集中趋势和离散程度(名师总结)

数据的集中趋势和离散程度 【知识点1】正确理解平均数、众数和中位数的概念 一、平均数:平均数是反映一组数据的平均水平的特征数,反映一组数据的集中趋势.平均数的大小与一组数 据里的每一个数据都有关系,任何一个数据的变化都会引起平均数的变化. 例1:有四个数每次取三个数,算出它们的平均数再加上另一个数,用这种方法计算了四次,分别得到以下四个数:86, 92, 100, 106,那么原4个数的平均数是________ . 例2:有几位同学参加语文考试,赵峰的得分如果再提高13分,他们的平均分就达到90分,如果赵峰的得分降低5分,他们的平均分就只得87分,那么这些同学共有________人. 例3:有5个数,其平均数为138,按从小到大排列,从小端开始前3个数的平均数为127,从大端开始顺次取出3个数,其平均数为148,则第三个数是_______ . 例4:某5个数的平均值为60,若把其中一个数改为80,平均值为70,这个数是________ . 例5:A、B、C、D四个数,每次去掉一个数,将其余下的三个数求平均数,这样计算了4次,得到下面4个数. 23, 26, 30, 33 A、B、C、D 4个数的平均数是多少 例6:有5个抽屉,分别有图书33本、42本、20本、53本和32本,平均每个抽屉里有图书多少本? 例7:小明参加了四次数学测验,平均成绩是88分,他想再通过一次数学测验将五次的平均成绩提高到最少90分,那么在下次测验中,至少要得多少分? 例8:四个数的平均值是30,若把其中一个改为50,平均值就变为40,这个数原来是多少? 例9:有甲、乙、丙三个数,甲数和乙数的平均数是42,甲数和丙数的平均数是46,乙数和丙数的平均数是47,求甲、乙、丙三个数各是多少? 例10:某人沿一条长为12千M的路上山,又从原路返回,上山的速度是2千M/小时,下山的速度是6千M/小时。那么,他在上山和下山的全过程当中的平均速度是多少千M每小时? 例11:若不选择教材中的引入问题,也可以替换成更贴近学生学习生活中的实例,下举一例可供借鉴参考。 某校初二年级共有4个班,在一次数学考试中参考人数和成绩如下: 求该校初二年级在这次数学考试中的平均成绩? 二、众数:在一组数据中出现次数最多的数据叫做这一组数据的众数.一组数据中的众数有时不唯一.众数着

测试度量指标介绍

测试度量指标介绍 在CMMI4体系的测试过程中定义了四个度量指标:测试覆盖率、测试执行率、测试执行通过率、测试缺陷解决率。为了使专/兼职测试人员理解这四个度量指标,了解如何利用现有资源收集度量数据,本文介绍这四个指标的含义及数据收集方法。 1 测试覆盖率 测试覆盖率是指测试用例对需求的覆盖情况。 计算公式:已设计测试用例的需求数/需求总数。 测试覆盖率从纬度上说包括广度覆盖和深度覆盖;从内容上说包括用户场景覆盖、功能覆盖、功能组合覆盖、系统场景覆盖。 首先说广度,是否需求规格说明书中的每个需求项都在测试用例中得到设计。其次说深度,通俗的说,是不使我们的测试设计流于表面,是否能够透过客户需求文档,挖掘出可能存在问题的地方。例如:重复点击某个按钮10次,或者依次执行新增、删除、新增同一数据的记录、再次删除该记录操作。在笔者的实际工作中碰到过这么一个例子,一个使用PL/SQL编写的系统,在某个查询界面,重复点击《查询》按钮6次后,系统就会出现查询功能失效的问题。经调试,开发人员发现是由于gdi资源未完全释放的缘故。 在设计测试用例时,我们很少单独设计广度或深度方面的测试用例,而一般是结合在一起设计。为了从广度和深度上覆盖测试用例,我们需要考虑设计各种测试用例,如:用户场景(识别最常用的20%的操作)、功能点、功能组合、系统场景、性能、语句、分支等。在执行时,需要根据测试时间的充裕程度按照一定的顺序执行。通常是先执行用户场景的测试用例,然后再执行具体功能点、功能组合的测试。 测试覆盖率数据的收集,我们可以通过需求跟踪矩阵RTM来实现。在需求跟踪矩阵,测试人员填写的“系统测试用例”列的数据,如图一所示。测试人员通过计算RTM列出的需求数量,和已设计测试用例的需求数量,可以快速的计算出测试覆盖率。通过RTM,测试人员,包括项目组成员都可以很清楚的、快速的知道当前这个项目测试的测试覆盖情况。 图一需求跟踪矩阵例子 注:本RTM例子中,笔者将“概要设计”、“详细设计”、“编码”等列隐藏,只显示与测试覆盖率计算有关的内容。

集中趋势与离中趋势的度量习题

第五章集中趋势与离中趋势的度量习题 一、填空题 1.平均数就是在——内将各单位数量差异抽象化,用以反映总体的。 2.权数对算术平均数的影响作用不决定于权数的大小,而决定于权数的的大小。 3.几何平均数是,它是计算和平均速度的最适用的一种方法。 4.当标志值较大而次数较多时,平均数接近于标志值较的一方;当标志值较小而次数较多时,平均数靠近于标志值较的一方。 5.当时,加权算术平均数等于简单算术平均数。 6.利用组中值计算加权算术平均数是假定各组内的标志值是分布的,其计算结果是一个。 7.统计中的变量数列是以为中心而左右波动,所以平均数反映了总体分布的。 8.中位数是位于变量数列的那个标志值,众数是在总体中出现次数的那个标志值。中位数和众数也可以称为平均数。 9.调和平均数是平均数的一种,它是的算术平均数的。 10.现象的是计算或应用平均数的原则。 11.当变量数列中算术平均数大于众数时,这种变量数列的分布呈分布;反之算术平均数小于众数时,变量数列的分布则呈分布。 12.较常使用的离中趋势指标有、、、、。 13.极差是总体单位的与之差,在组距分组资料中,其近似值是。 14.是非标志的平均数为、标准差为。 15.标准差系数是与之比。 16.已知某数列的平均数是200,标准差系数是30%,则该数列的方差是。 则该数列的极差为,四分位差为。 18.对某村6户居民家庭共30人进行调查,所得的结果是,人均收入400元,其离差平方和为5100000,则标准差是,标准差系数是。 19.测定峰度,往往以为基础。依据经验,当β=3时,次数分配曲线为;当β<3时,为曲线;当β>3时,为曲线。 20.在对称分配的情况下,平均数、中位数与众数是的。在偏态分配的情况下,平均数、中位数与众数是的。如果众数在左边、平均数在右边,称为偏态。如果众数在右边、平均数在左边,则称为偏态。 21.采用分组资料,计算平均差的公式是,计算标准差的公式是。 二、单项选择题 1.加权算术平均数的大小( ) A受各组次数f的影响最大B受各组标志值X的影响最大 C只受各组标志值X的影响D受各组次数f和各组标志值X的共同影响 2,平均数反映了( ) A总体分布的集中趋势B总体中总体单位分布的集中趋势 C总体分布的离散趋势D总体变动的趋势

第四章集中趋势测量法

第四章 集中趋势测量法 统计资料经分类整理后,已经使杂乱无章的资料成为有系统有条理的资料。为从中获取有用信息,寻求一简单数值以代表总体(或样本)是最起码的,这就提出了平均指标的计算问题。平均指标的功用是表明现象总体在一定条件下某一数量标志所达到的一般水平。 第一节 算术平均数 在社会统计学中.算术平均数是反映集中趋势最常用、最基本的平均指标。由于统计总体的标志总量通常都是各总体单位标志值之和,而且是与其总体单位数相对应的,因此用总体标志总量除以总体单位数即得算术平均数。算术平均数一般用X 表示,它在推论统计中被称为均值。 算术平均数表示某一总体之总体单位平均所得的标志值的水平。在实际工作中,由于统计资料整理的情况不尽相同,我们在运用定义计算算术平均数时,要视资料有没有分组加以区别对待。在形式上,分组资料的计算式与未分组资料的计算式是有区别的,尽管它们在本质上并没有什么不同。以后我们将看到,其他平均和变异指标的计算也同样如此。 1.对于未分组资料 对于未分组资料,计算算术平均数要用原始式。 2.对于分组资料 对于分组资料,计算算术平均数要用加权式。 对于单项数列,很显然,算术平均数X 不仅受各变量值(i X )大小的影响,而且受各组单位数(频数)的影响。由于i X 对于总体的影响要由频数(i f )大小所决定,所以i f 也被称为权数。值得注意的是,在统计计算中,权数不仅用来衡量总体中各标志值在总体中作用,同时反映了指标的结构,所以它有两种表现形式:绝对数(频数)和相对数(频率)。这样一来,在统计学中,凡对应于分组资料的计算式,都被称为加权式。 对于组距数列,由于每一组变量值不止一个,因此先要用每一组的组中值权充该组统一的变量值,然后再计算给定数列的算术平均数。 3.算术平均数的性质 (1) 各变量值与算术平均数的离差之和等于0。 (2)各变量值对算术平均数的离差的平方和,小于它们对任何其他数(X ’)偏差的平方和。也就是说,各变量值与算术平均数的离差的平方和为最小值。在统计学中,这被称为“最小平方”性质。 (3)算术平均数受抽样变动影响微小,通常它是反映总体分布集中趋势的最佳指标。 (4)算术平均数受极端值的影响颇大,遇到这种情况时,就不宜用它来代表集中趋势了。 (5)分组资料如通有开放组距时,不经特殊处理,算术平均数将无法得到。 第二节 中位数 把总体单位某一数量标志的各个数值按大小顺序排列,位于正中处的变量值,即为中位数,用d M 表示。中位数是把某一变量的全部数值分成了相等的两部分,一半数值比它大,

第三章数据的集中趋势和离散程度单元测试

第三章数据的集中趋势和离散程度单元测试 满分:100分,时间:45分钟 班级:姓名:学号:成绩: 一、选一选:(每小题4分,共20分) 1.小明上学期期末语文、数学、英语三科平均分为92分,他记得语文得了88分,英语得了93分,但他把数学成绩忘记了,则他数学应得分数()A.80分 B. 85分 C.90分 D.95分 2.一般具有统计功能的计算器,可以直接求出()A.平均数与标准差 B.平均数和方差 C.方差和众数 D.标准差和方差 3.某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为15,那么所求出平均数与实际平均数的差是() A、3.5 B、3 C、0.5 D、-3 4.对甲、乙两同学100米短跑进行5次测试,他们的成绩通过计算得;x 甲=x 乙,S2甲=0.025,S2乙=0.026, 下列说法正确的是() A.甲短跑成绩比乙好 B.乙短跑成绩比甲好 C.甲比乙短跑成绩稳定 D.乙比甲短跑成绩稳定5.某校有9名同学报名参加科技竞赛,学校通过测试取前4名参加决赛,测试成绩各不相同,小英已经知道了自己的成绩,她想知道自己能否参加决赛,还需要知道这9名同学测试成绩的() A.中位数 B.平均数 C.众数 D.方差 二、填一填:(每小题5分,共35分) 6.某校规定学生的体育成绩由三部分组成:早锻炼及课外活动表现占成绩的20%,体育理论测试占30%,体育技能测试占50%,小颖的上述成绩依次是92分、80分、84分,则小颖这学期的体育成绩是分.7.在一次数学考试中,第一小组的14名同学的成绩与全班平均分的差是2,3,-5,10,12,8,-1,2,-5,4,-10,-2,5,5,全班平均成绩为83分,则这个小组的平均成绩是_________分. 8.样本数据3,6,a, 4,2的平均数是3,则这个样本的方差是 9.如果样本方差 []2 4 2 3 2 2 2 1 2)2 ( )2 ( )2 ( )2 ( 4 1 - + - + - + - =x x x x S,那么这个样本的平均数为, 样本容量为. 10.已知一组数据x1,x2,x3,x4,x5的平均数是2,方差是1 3 ,那么另一组数据3x1-2,3x2-2,3x3-2,3x4-2, 3x 5-2的平均数是________,方差是________。 11.一组数据-1,0,3,5,x的极差是10 ,那么x的值可能是. 12.某班4个课外兴趣小组的人数如下:x,8,10,10。如果这组数据的中位数与平均数相等,则这组数据的中位数. 三、解答题:(共45分)

第五章 离趋势测量法

第五章离中趋势测量法 主要内容:(1)变异指标;(2)全距和四分位差;(3)平均差、标准差和标准分;(4)绝对离势和相对离势;(5)偏度(及峰度) 所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。 例如有A、B、C、D四组学生各5人的成绩如下: A组:60 ,60,60,60,60 B组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80 数据显示,平均数相同,离势可能不同;平均数不同,离势可能相同。 变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。 变异指标如按数量关系来分有以下两类: 凡用绝对数来表达的变异指标,统称绝对离势; 主要有极差、平均差、四分位差、标准差等。 凡用相对数来表达的变异指标,统称相对离势; 主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。 第一节全距与四分位差 1.全距(Range) 全距(R):最大值和最小值之差。也叫极差。全距越大,表示变动越大。 R =Xmax - Xmin [例] 求74,84,69,91,87,74,69这些数字的全距。 [解] 把数字按顺序重新排列:69,69,74, 74,84,87,91,显然有 R =Xmax - Xmin=91 - 69=22

对分组资料,不能确知最大值和最小值,求全距: (1)用组值最大组的组中值减去最小组的组中值 (2)用组值最大组的上限减去最小组的下限 (3)用组值最大组的组中值减去最小组的下限;或最大组的上限减去最小组的组中值 优点:计算简单、直观。 缺点:(1)受极端值影响大; (2) 没有量度中间各个单位间的差异性,数据利用率低,信息丧失严重; (3)受抽样变动影响大,大样本全距比小样本全距大。 2. 四分位差(Quartile deviation) 第三四分位数和第一四分位数的半距。 避免全距受极端值影响大的缺点。 求下列两组成绩的四分位差: A: 78 80 82 85 89 87 90 86 79 88 84 81 B: 55 68 78 88 99 100 98 90 85 83 84 81 第二节 平均差(Mean absolute deviation) 要测定变量值的离中趋势,尤其是要测定各变量值相对于平均数的差异情况,一个很自然的想法就是计算各变量值与算术平均数的离差。平均差是离差绝对值的算术平均数。(mean deviation) 1.对于未分组资料 A · 2.对于分组资料 A · D=

第四章集中趋势测量法

第四章 集中趋势测量法 第一节 算术平均数 简单算术平均数·加权算术平均数·算术平均数的性质 第二节 中位数 对于未分组资料·对于分组资料·四分位数与其他分位数·中位数的性质 第三节 众数 对于未分组资料·对于分组资料·众数的性质 第四节 几何平均数与调和平均数及其他 几何平均数·调和平均数·各种平均数的关系 一、填空 1.某班级中男生人数所占比重是66.7%,则男生和女生的比例关系是( )。 2.在频数分布图中,( )标示为曲线的最高点所对应的变量值。 3.在频数呈偏态分布时,( )必居于X 和M 0之中。 4.算术平均数、调和平均数、几何平均数又称为( )平均数,众数、中位数又称为( )平均数,其中( )平均数不受极端变量值得影响。 5.调和平均数是根据( )来计算的,所以又称为( )平均数。 6.加权算术平均数是以( )为权数,加权调和平均数是以( )为权数的。 7.对于未分组资料,如总体单位数是偶数,则中间位置的两个标志值的算术平均数就是( )。 二、单项选择 1.分析统计资料,可能不存在的平均指标是( )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 2.对于同一资料,算术平均数,调和平均数和几何平均数在数量级上一般存在如下关系( )。 A g M ≥h M ≥X B h M ≥X ≥g M C h M ≥g M ≥X D X ≥g M ≥h M 3.下面四个平均数中,只有( )是位置平均数。 A 算术平均数 B 中位数 C 调和平均数 D 几何平均数 4.从计算方法上看, P K Q P Q P /111 1∑∑是( )。 A 算术平均数 B 调和平均数 C 中位数 D 几何平均数

集中趋势的统计描述

集中趋势的统计描述 练习题 一、单项选择题 1. 某医学资料数据大的一端没有确定数值,描述其集中趋势适用的统计指标是 A. 中位数 B. 几何均数 C. 均数 D. 95P百分位数 E. 频数分布 2. 算术均数与中位数相比,其特点是 A.不易受极端值的影响B.能充分利用数据的信息 C.抽样误差较大D.更适用于偏态分布资料 E.更适用于分布不明确资料 3. 一组原始数据呈正偏态分布,其数据的特点是***正的反而小! A. 数值离散度较小 B. 数值离散度较大 C. 数值分布偏向较大一侧 D. 数值分布偏向较小一侧 E. 数值分布不均匀 4. 将一组计量资料整理成频数表的主要目的是 A.化为计数资料 B. 便于计算 C. 形象描述数据的特点 D. 为了能够更精确地检验 E. 提供数据和描述数据的分布特征 5. 6人接种流感疫苗一个月后测定抗体滴度为1:20、1:40、1:80、1:80、1:160、1:320,求平均滴度应选用的指标是 A. 均数 B. 几何均数 C. 中位数 D. 百分位数 E. 倒数的均数 答案: A B D E B 二、计算与分析 1. 现测得10名乳腺癌患者化疗后血液尿素氮的含量(mmol/L)分别为 3.43,2.96, 4.43,3.03,4.53, 5.25,5.64,3.82,4.28,5.25,试计算其均数和中位数。 [参考答案] 3.43+2.96+ 4.43+3.03+4.53+ 5.25+5.64+3.82+4.28+5.25 X== 4.26 (mmol/L) 10 4.28+4.43 M== 4.36(m m o l/L) 2 2. 某地100例30-40岁健康男子血清总胆固醇值(mg/dl)测定结果如下: 202 165 199 234 200 213 155 168 189 170 188 168 184 147 219 174 130 183 178 174 228 156 171 199 185 195 230 232 191 210 195 165 178 172 124 150 211 177 184 149 159 149 160 142 210 142 185 146 223 176 241 164 197 174 172 189 174 173 205

第五章 集中趋势和离中趋势的度量

第五章数据分布特征的描述 第一节集中趋势指标概述 一、集中趋势指标及其特点 集中趋势(Central tendency),是指一组数据向某一中心值靠拢的倾向,测度集中趋势也就是要寻找数据一般水平的代表值或是心值。在现象的同质总体中,各个单位的标志值是不尽相同的。如果我们的目的是要对总体的数量水平有一个概括地、一般地认识,显然不能用某一单位的标志值表示。统计平均数就是用来反映总体的一般水平和集中趋势的指标。通俗的理解就是,在不变更总体总量的情况下,对总体内的全部标志值进行“截长补短”,使得总体各单位拥有同一水平的数量表现,这个同一水平的数量表现就是平均数,即集中趋势指标。 统计平均数有两个重要的特点: 第一,平均数是一个代表值,表示被研究总体的一般水平。例如,某企业职工的工资水平有高有低,有的职工月工资1680元,有的职工月工资1900元,有的职工月工资1870元,有的职工月工资2200元,等等。若根据该企业各个职工月工资额综合计算出职工月平均工资为1860元,那么,1860元就是一个代表值。它反映了该企业职工月工资的—般水平。 第二,平均数把被研究总体各单位的标志值的数量差异抽象化了。例如,某企业职工的月平均工资为1860元,但是各个职工的工资水平有高有低,高于1860元的工资和低于1860元的工资互相抵消了,从而得出平均工资1860元。由此可见,平均工资(1860元)已把各职工月工资水平的差别抽象化了。 二、集中趋势指标的作用 集中趋势指标——统计平均数,在统计研究中被广泛应用,平均数的作用可以归纳为以下几点: 1.利用平均数对比不同总体的一般水平。平均数可以用来对同类现象在各单位、各部门、各地区之间进行比较,以说明生产水平的高低或经济效果的好坏。例如,要比较不同的生产企业生产水平的好坏,仅对比企业的产品总产量是不足以说明问题的,因为产品总产量受到企业规模大小的影响。要比较,需要计算各企业生产人员的平均产品产量,即劳动生产率,并分析不同的生产条件,才能做出正确的判断。 2.利用平均数比较和反映同一单位某一标志不同时期一般水平的发展变化,说明事物的发展过程和变化趋势。 表5—1 北京市历年在岗职工平均工资 资料来源:北京市劳动和社会保障局 由此可以看出,历年来,北京市在岗职工的工资水平在不断的提高。若用工资总额这个总量指标分析,会受职工人数变动的影响,从而得不到正确的结果,而以平均工资这个平均数对比,则能正确地反映该市职工工资水平的动态以及变化的趋势。 3.利用平均数分析现象之间的相互关系,并推算其它有关的指标。在统计估算中经常用一部分单位标志值的平均数去推算总体平均数,并据以推算总体的相关总量指标。例如,在抽样推断中,可以用某种农作物产量抽样调查的平均单位面积产量,推断农作物的总平均单位面积产量,并据以推算某地区或全国的某种农作物的总产量。 三、集中趋势指标的类型 集中趋势指标——平均数包括静态平均数和动态平均数两种。静态平均数是根据分布数

项目度量指标介绍(BCWS、BCWP、ACWP)

项目管理度量指标介绍 刘申岭概述: 项目管理者和高层管理对于项目的信息,除项目质量外,非常关注项目的进度情况和成本情况。进度情况决定是否可以按时达成项目的时间计划承诺;项目成本情况直接决定本次项目是否可以盈利。本文简要介绍项目管理的几个度量指标:BCWS、BCWP、ACWP,并通过这几个指标去查看项目的健康状况。 指标介绍 BCWS BCWS(Budgeted Cost for Work Scheduled), 完成计划工作的预算成本。是指在某一个时刻检查该时刻在项目计划中应该完成的工作对应的预算。该指标跟项目的实际进展无关,在项目计划确定后,即可以计算出每个时点的BCWS。其特征关注两点:计划工作、预算。对应计算公式:BCWS=计划工作量×预算单价。 事实上在该时刻,项目实际完成的工作不一定与计划一致;工作队应所花费的成本可能也跟预算不一致。 BCWP BCWP(Budgeted Cost of Work Performed),已完成工作量的预算费用。是指在某一个时刻检查在项目计划的预算中对应实际完成工作的预算费用。该指标又称为挣得值或挣值或“已完成投资额”。项目属主正是根据这个值为承包商完成的工作量支付相应的费用,也就是承包获得(挣得)的金额。计算公式:BCWP=已完成工作量×预算单价。 ACWP ACWP(Actual Cost for Work Performed)已完成工作量的实际费用。是指完成特定的工作量实际花费的成本,该成本可能会高于预算,也可能会低于预算。该指标不关注------------------------------------------------------------------------------------------------------------------------------------------------------

第四章 集中趋势测量法习题_社会统计学1

第四章 集中趋势测量法 一、填空 1.某班级中男生人数所占比重是66.7%,则男生和女生的比例关系是( )。 2.在频数分布图中,( )标示为曲线的最高点所对应的变量值。 3.在频数呈偏态分布时,( )必居于X 和M 0之中。 4.算术平均数、调和平均数、几何平均数又称为( )平均数,众数、中位数又称为( )平均数,其中( )平均数不受极端变量值得影响。 5.调和平均数是根据( )来计算的,所以又称为( )平均数。 6.加权算术平均数是以( )为权数,加权调和平均数是以( )为权数的。 7.对于未分组资料,如总体单位数是偶数,则中间位置的两个标志值的算术平均数就是( )。 二、单项选择 1.分析统计资料,可能不存在的平均指标是( )。 A 众数 B 算术平均数 C 中位数 D 几何平均数 2.对于同一资料,算术平均数,调和平均数和几何平均数在数量级上一般存在如下关系( )。 A g M ≥h M ≥X B h M ≥X ≥g M C h M ≥g M ≥X D X ≥g M ≥h M 3.下面四个平均数中,只有( )是位置平均数。 A 算术平均数 B 中位数 C 调和平均数 D 几何平均数 4.从计算方法上看, P K Q P Q P /1111∑∑是( )。 A 算术平均数 B 调和平均数 C 中位数 D 几何平均数 5.由右边的变量数列可知:( )。 A 0M >d M ; B d M >0M ; C 0M >30 D d M >30 6.某车间三个小组,生产同种产品,其劳动生产率某月分别为150,160,165(件/工日),产量分别为4500,4800,5775(件),则该车间平均劳动生产率计算式为( )。 A 33.1583 165 160150=++(件/工日) 完成生产定额数 工人数 10-20 20-30 30-40 40-50 50-60 35 20 25 10 15

教案4统计数据特征的描述数据集中趋势的描述:平均指标

此案例出自《统计与真理:怎样运用偶然性》 C.新课讲授(45分钟) 一、集中趋势(5分钟) ?一组数据向其中心值靠拢的倾向和程度 ?测度集中趋势就是寻找数据一般水平的代表值或中心值

2. 中位数Me—顺序数据(5分钟) 排序后处于中间位置的值 位置数据,不受极端值的影响 主要用于顺序数据,也可以用于数值型数据,但不可用于分类数据

3. 四分位数QL QU—顺序数据(10分钟) 排序后处于25%和75%位置上的值 不受极端值的影响 主要用于顺序数据,也可用于数值型数据,但不能用于分类数据4. 简单算术平均数—数值型数据(未分组)(5分钟) 想一想:6名学生的考试成绩分别为(分)79、82、87、60、95、91,他们的平均成绩是多少? 答:(79+82+97+60+60+95+91)/6=84(分)

权数(Weighted ),是分布数列中的频数或频率。对求平均数具有权衡轻重的作用,是影响平均数变动的两个因素之一(另一因素是变量值)。 权数的两种形式: ? 绝对数(次数) xf f x f x f x x n n n ∑=+++= 212211

6. 调和平均数(5分钟) 通常作为加权算术平均数的变形公式使用。 当缺乏分子数据时,采用算术平均数; 当缺乏分母数据时,采用调和平均数。 几何平均数—数值型数据(5分钟) 个变量值乘积的 n 次方根 适用于对比率数据的平均 主要用于计算平均增长率 计算公式为:n n i i n n m x x x x G ∏== ???= 1 21

1.数据集中趋势的度量值有哪些,各有什么特点?思考题与作业 2.找出生活中几何平均数的案例并计算。

离中趋势测量法word版

第五章离中趋势测量法 平均指标对总体的共性和一般水平作了概括,以此来说明总体标志值分布的集中趋势。但是总体作为统计对象,还有其变异性的一面。变异指标用以反映总体各单位标志值的变动范围或参差程度,与平均指标相对应,从另一个侧面反映了总体的特征。变异指标不仅可以综合地显示变量值的离中趋势,还可以用来判别平均数的代表性。 所谓离中趋势,是指数列中各变量值之间的差距和离散程度。离势小,平均数的代表性高;离势大,平均数代表性低。例如有A、B、C、D四组学生各5人的成绩如下: A组:60,60,60,60,60 B组:58,59,60,61,62 C组:40,50,60,70,80 D组:80,80,80,80,80 A组、B组、C组的平均成绩均为60分,D组的平均成绩为80分。就平均数而言,A、B、C三组相同,D组的平均数高于前三组。就离势而言,A,D两组一样,都为0;C组的离势最大,B组次之。所以,平均数不同,离势可能相同;平均数相同.离势可能不同;平均数不同,当然离势也可能不同。可见,要掌握总体资料中各标志值的离散、参差或分布情况,测定离中趋势也是必不可少的。 变异指标的种类较多,如按计算的基准来分有以下两类: (1)以两数之差来表达的有全距和四分位差等。 (2)以对平均数偏差来表达的有平均差、标准差等。 变异指标如按数量关系来分有以下两类; (1)凡用绝对数来表达的变异指标,统称绝对离势,主要有极差、平均差、四分位差、标准差等。 (2)凡用相对数来表达的变异指标,统称相对离势,主要有异众比率、标准差系数、平均差系数和一些常用的偏态系数。 第一节全距与四分位差 关于变异指标,前面其实我们已有所接触,第三章讨论统计分组时谈到的全距便是。全距是测定离中趋势最简单的一种指标。它和四分位差一样,是以两数之差来表达的。 1.全距 全矩是最大变量值与最小变量值之差,用R来表示。对未分组资料,计算全距用原始式。由于全距是一组数据中两个极端值之差,所以它又称极差。 R=X N—X1 (5.1) 其中:X N是全部数据中最大的标志值,X1是最小的标志值。

相关主题