第十章 统计与统计案例
第一节 随机抽样
一、基础知识
1.简单随机抽样
(1)定义:一般地,设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.这样抽取的样本,叫做简单随机样本.
(2)常用方法:抽签法和随机数法. 2.分层抽样
(1)在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.
(2)分层抽样的应用范围:
当总体是由差异明显的几个部分组成时,往往选用分层抽样. 3.系统抽样
(1)定义:当总体中的个体数较多时,可以将总体分成均衡的几部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需的样本,这种抽样的方法叫做系统抽样.
(2)系统抽样的步骤
假设要从容量为N 的总体中抽取容量为n 的样本. ①先将总体的N 个个体编号;
②确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =N
n ;
当总体中的个体数不能被样本容量整除时,可先用简单随机抽样的方法从总体中剔除几个个体,使剩下的个体数能被样本容量整除,然后再按系统抽样进行.这时在整个抽样过程中每个个体被抽取的可能性仍然相等.
③在第1段用简单随机抽样确定第一个个体编号l (l ≤k );
④按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号l +k ,再加k 得到第3个个体编号l +2k ,依次进行下去,直到获取整个样本.
二、常用结论
(1)不论哪种抽样方法,总体中的每一个个体入样的概率都是相同的.
(2)系统抽样一般也称为等距抽样,入样个体的编号相差分段间隔k的整数倍.
(3)分层抽样是按比例抽样,每一层入样的个体数为该层的个体数乘抽样比.
(4)三种抽样方法的特点、联系及适用范围
类别共同点各自特点联系适用范围
简单随
机抽样
①抽样过程中每
个个体被抽到的
可能性相等;
②每次抽出个体
后不再将它放回,
即不放回抽样从总体中逐个抽取
总体个数
较少
系统抽样将总体均分成几部分,按
预先定出的规则在各部
分中抽取
在起始部分取样
时,采用简单随
机抽样
总体个数
较多
分层抽样将总体分成几层,分层进
行抽取
各层抽样时,采
用简单随机抽样
或系统抽样
总体由差
异明显的
几部分组
成
考点一简单随机抽样
[典例]下列抽取样本的方式属于简单随机抽样的个数有()
①从无限多个个体中抽取100个个体作为样本;
②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;
③用抽签方法从10件产品中选取3件进行质量检验;
④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.
A.0个B.1个
C.2个D.3个
[解析]①不是简单随机抽样,因为被抽取样本的总体的个数是无限的,而不是有限的;②不是简单随机抽样,因为它是有放回抽样;③明显为简单随机抽样;④不是简单随机抽样,因为不是等可能抽样.[答案] B
[解题技法] 应用简单随机抽样应注意的问题
(1)一个抽样试验能否用抽签法,关键看两点:一是抽签是否方便;二是号签是否易搅匀.一般地,当总体容量和样本容量都较小时可用抽签法.
(2)在使用随机数法时,如遇到三位数或四位数,可从选择的随机数表中的某行某列的数字计起,每三个或四个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.
[题组训练]
1.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是
从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( )
7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481
A.08 C .02
D .01
解析:选D 由随机数法的随机抽样的过程可知选出的5个个体是08,02,14,07,01,所以第5个个体的编号是01.
2.利用简单随机抽样,从n 个个体中抽取一个容量为10的样本.若第二次抽取时,余下的每个个体被抽到的概率为1
3
,则在整个抽样过程中,每个个体被抽到的概率为( )
A.14
B.13
C.514
D.1027
解析:选C 根据题意,9n -1=1
3,
解得n =28.
故在整个抽样过程中每个个体被抽到的概率为1028=5
14.
考点二 系统抽样
[典例] (1)某校为了解1 000名高一新生的身体生长状况,用系统抽样法(按等距的规则)抽取40名同学进行检查,将学生从1~1 000进行编号,现已知第18组抽取的号码为443,则第一组用简单随机抽样抽取的号码为( )
A .16
B .17
C .18
D .19 (2)中央电视台为了解观众对某综艺节目的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.
[解析] (1)因为从1 000名学生中抽取一个容量为40的样本,所以系统抽样的分段间隔为1 000
40=25,
设第一组随机抽取的号码为x ,
则抽取的第18组编号为x +17×25=443,所以x =18.
(2)把502名观众平均分成50组,由于502除以50的商是10,余数是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观
众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含500
50=10个个体.所
以需剔除2个个体,抽样间隔为10.
[答案] (1)C (2)2 10
[变透练清]
1.(变结论)若本例(1)的条件不变,则编号落入区间[501,750]的人数为________.
解析:从1 000名学生中抽取一个容量为40的样本,系统抽样分40组,每组1 000
40=25个号码,每组抽
取一个,从501到750恰好是第21组到第30组,共抽取10人.
答案:10
2.(2018·南昌摸底调研)某校高三(2)班现有64名学生,随机编号为0,1,2,…,63,依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8的样本,若在第1组中随机抽取的号码为5,则在第6组中抽取的号码为________.
解析:由题知分组间隔为64
8=8,又第1组中抽取的号码为5,所以第6组中抽取的号码为5×8+5=45.
答案:45
[解题技法] 系统抽样中所抽取编号的特点
系统抽样又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取样本的号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.
[提醒] 系统抽样时,如果总体中的个数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.
考点三 分层抽样
[典例] 某电视台在网上就观众对其某一节目的喜爱程度进行调查,参加调查的一共有20 000人,其中各种态度对应的人数如下表所示:
最喜爱 喜爱 一般 不喜欢 4 800
7 200
6 400
1 600
电视台为了了解观众的具体想法和意见,打算从中抽取100人进行详细的调查,为此要进行分层抽样,那么在分层抽样时,每类人中应抽取的人数分别为( )
A .25,25,25,25
B .48,72,64,16
C .20,40,30,10
D .24,36,32,8
[解析] 法一:因为抽样比为
10020 000=1200,所以每类人中应抽取的人数分别为 4 800×1
200
=24,7
200×1200=36,6 400×1200=32,1 600×1
200
=8.
法二:最喜爱、喜爱、一般、不喜欢的比例为4 800∶7 200∶6 400∶1 600=6∶9∶8∶2, 所以每类人中应抽取的人数分别为66+9+8+2×100=24,96+9+8+2×100=36,8
6+9+8+2
×100=32,
2
6+9+8+2
×100=8.
[答案] D
[解题技法] 分层抽样问题的类型及解题思路 (1)求某层应抽个体数量:按该层所占总体的比例计算.
(2)已知某层个体数量,求总体容量或反之求解:根据分层抽样就是按比例抽样,列比例式进行计算. (3)分层抽样的计算应根据抽样比构造方程求解,其中“抽样比=样本容量总体容量=各层样本数量
各层个体数量”.
[题组训练]
1.(2019·山西五校联考)某校为了解学生的学习情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,若高二被抽取的人数为30,则n =( )
A .860
B .720
C .1 020
D .1 040
解析:选D 由已知条件知抽样比为301 200=140,从而811 000+1 200+n =1
40,解得n = 1 040,故选D.
2.(2018·广州高中综合测试)已知某地区中小学学生人数如图所示.为了解该区学生参加某项社会实践活动的意向,拟采用分层抽样的方法来进行调查.若高中需抽取20
名学生,则小学与初中共需抽取的学生人数为________.
解析:设小学与初中共需抽取的学生人数为x ,依题意可得错误!=
20
x +20
,解得x =85. 答案:85
[课时跟踪检测]
1.从2 019名学生中选取50名学生参加全国数学联赛,若采用以下方法选取:先用简单随机抽样法从2 019名学生中剔除19名学生,剩下的2 000名学生再按系统抽样的方法抽取,则每名学生入选的概率( )
A .不全相等
B .均不相等
C .都相等,且为50
2 019
D .都相等,且为1
40
解析:选C 从N 个个体中抽取M 个个体,则每个个体被抽到的概率都等于M
N
,故每名学生入选的概率
都相等,且为50
2 019
.
2.福利彩票“双色球”中红球的号码可以从01,02,03,…,32,33这33个两位号码中选取,小明利用如下所示的随机数表选取红色球的6个号码,选取方法是从第1行第9列的数字开始,从左到右依次读取数据,则第四个被选中的红色球的号码为( )
81 47 23 68 63 93 17 90 12 69 86 81 62 93 50 60 91 33 75 85 61 39 85 06 32 35 92 46 22 54 10 02 78 49 82 18 86 70 48 05 46 88 15 19 20 49
A.12 C .06
D .16
解析:选C 被选中的红色球的号码依次为17,12,33,06,32,22,所以第四个被选中的红色球的号码为06. 3.某班共有学生52人,现根据座号,用系统抽样的方法,抽取一个容量为4的样本.已知5号、18号、44号同学在样本中,那么样本中还有一个同学的座号是( )
A .23
B .27
C .31
D .33
解析:选C 分段间隔为52
4
=13,故样本中还有一个同学的座号为18+13=31.
4.某工厂在12月份共生产了3 600双皮靴,在出厂前要检查这批产品的质量,决定采用分层抽样的方法进行抽取,若从一、二、三车间抽取的产品数分别为a ,b ,c ,且a ,b ,c 构成等差数列,则第二车间生产的产品数为( )
A .800双
B .1 000双
C .1 200双
D .1 500双
解析:选C 因为a ,b ,c 成等差数列,所以2b =a +c ,即第二车间抽取的产品数占抽样产品总数的三分之一,根据分层抽样的性质可知,第二车间生产的产品数占12月份生产总数的三分之一,即为1 200双皮靴.
5.(2018·南宁摸底联考)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为( )
A.100,20 B.200,20
C.200,10 D.100,10
解析:选B由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以抽取高中生的近视人数为40×50%=20,故选B.
6.一个总体中有100个个体,随机编号为0,1,2,…,99.依编号顺序平均分成10个小组,组号依次为1,2,3,…,10.现用系统抽样方法抽取一个容量为10的样本,如果在第一组随机抽取的号码为m,那么在第k 组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是() A.63 B.64
C.65 D.66
解析:选A若m=6,则在第7组中抽取的号码个位数字与13的个位数字相同,而第7组中的编号依次为60,61,62,63,…,69,故在第7组中抽取的号码是63.
7.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间(450,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为() A.7 B.9
C.10 D.15
解析:选C960÷32=30,故由题意可得抽到的号码构成以9为首项,以30为公差的等差数列,其通项公式为a n=9+30(n-1)=30n-21.由450<30n-21≤750,解得15.7<n≤25.7.又n为正整数,所以16≤n≤25,故做问卷B的人数为25-16+1=10.故选C.
8.某企业三月中旬生产A,B,C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的统计表格:
产品类别 A B C
产品数量(件) 1 300
样本容量(件)130
由于不小心,表格中A ,C 产品的有关数据已被污染看不清楚,统计员记得A 产品的样本容量比C 产品
的样本容量多10,根据以上信息,可得C 的产品数量是________件.
解析:设样本容量为x ,则x
3 000×1 300=130,∴x =300.
∴A 产品和C 产品在样本中共有300-130=170(件). 设C 产品的样本容量为y ,则y +y +10=170,∴y =80. ∴C 产品的数量为3 000
300×80=800(件).
答案:800
9.某企业三个分厂生产同一种电子产品,三个分厂产量分布如图所示,现在用分层抽样方法从三个分厂生产的该产品中共抽取100件做使用寿命的测试,则第一分厂应抽取的件数为________;由所得样品的测试结果计算出一、二、三分厂取出的产品的使用寿命平均值分别为1 020小时、980小时、1 030小时,估计这个企业所生产的该产品的平均使用寿命为________小时.
解析:第一分厂应抽取的件数为100×50%=50;该产品的平均使用寿命为 1 020×0.5+980×0.2+1 030×0.3=1 015.
答案:50 1 015
10.将参加冬季越野跑的600名选手编号为:001,002,…,600,采用系统抽样方法抽取一个容量为50的样本,把编号分为50组后,在第一组的001到012这12个编号中随机抽得的号码为004,这600名选手穿着三种颜色的衣服,从001到301穿红色衣服,从302到496穿白色衣服,从497到600穿黄色衣服,则抽到穿白色衣服的选手人数为________.
解析:由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k (k ∈N *)组抽中的号码是4+12(k -1).令302≤4+12(k -1)≤496,得255
6≤k ≤42,因此抽到穿白色衣服
的选手人数为42-25=17(人).
答案:17
11.某初级中学共有学生2 000名,各年级男、女生人数如下表:
初一年级初二年级初三年级
女生373x y
男生377370z
(1)求x的值;
(2)现用分层抽样的方法在全校抽取48名学生,问应在初三年级抽取多少名?
解:(1)∵
x
2 000=0.19,∴x=380.
(2)初三年级人数为y+z=2 000-(373+377+380+370)=500,现用分层抽样的方法在全校抽取48名学
生,应在初三年级抽取的人数为48
2 000×500=12(名).
第二节 用样本估计总体
一、基础知识
1.频率分布直方图
(1)纵轴表示频率组距,即小长方形的高=频率
组距;
(2)小长方形的面积=组距×
频率
组距
=频率; (3)各个小方形的面积总和等于1 . 2.频率分布表的画法
第一步:求极差,决定组数和组距,组距=极差
组数
;
第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; 第三步:登记频数,计算频率,列出频率分布表. 3.茎叶图
茎叶图是统计中用来表示数据的一种图, 茎是指中间的一列数,叶就是从茎的旁 边生长出来的数.
4.中位数、众数、平均数的定义 (1)中位数
将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
(2)众数
一组数据中出现次数最多的数据叫做这组数据的众数. (3)平均数
一组数据的算术平均数即为这组数据的平均数,n 个数据x 1,x 2,…,x n 的平均数x =1
n (x 1+x 2+…+x n ).
5.样本的数字特征
如果有n 个数据x 1,x 2,…,x n ,那么这n 个数的 (1)平均数x =1
n (x 1+x 2+…+x n ).
(2)标准差s =
1
n [(x 1
-x )2+(x 2-x )2+…+(x n -x )2]. (3)方差s 2=1
n
[(x 1-x )2+(x 2-x )2+…+(x n -x )2].
二、常用结论
1.频率分布直方图中的常见结论
(1)众数的估计值为最高矩形的中点对应的横坐标.
(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 2.平均数、方差的公式推广
(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a .
(2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2.
考点一 茎叶图
[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分
别为( )
A .3,5
B .5,5
C .3,7
D .5,7
[解析] 由两组数据的中位数相等可得65=60+y ,解得y =5,又它们的平均值相等, 所以15×[56+62+65+74+(70+x )]=1
5×(59+61+67+65+78),解得x =3.
[答案] A
[解题技法] 茎叶图的应用
(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.
(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小. [题组训练]
1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组
数据的极差与中位数之和为61,则被污染的数字为( )
A .1
B .2
C .3
D .4
解析:选B 由图可知该组数据的极差为48-20=28,则该组数据的中位数为61-28=33,易得被污染
的数字为2.
2.甲、乙两名篮球运动员5场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为x 甲,x 乙,则下列结论正确的是( )
A.x 甲<x 乙;乙比甲得分稳定
B.x 甲>x 乙;甲比乙得分稳定
C.x 甲>x 乙;乙比甲得分稳定
D.x 甲<x 乙;甲比乙得分稳定
解析:选A 因为x 甲=2+7+8+16+225=11,x 乙=8+12+18+21+25
5=16.8,所以x 甲<x 乙且乙比
甲成绩稳定.
考点二 频率分布直方图
[典例] 某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.
(1)求直方图中x 的值;
(2)求月平均用电量的众数和中位数.
[解] (1)由(0.002+0.009 5+0.011+0.012 5+x +0.005+0.002 5)×20=1,解得x =0.007 5. 即直方图中x 的值为0.007 5.
(2)月平均用电量的众数是220+240
2=230.
∵(0.002+0.009 5+0.011)×20=0.45<0.5, (0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5, ∴月平均用电量的中位数在[220,240)内.
设中位数为a ,则0.45+0.012 5×(a -220)=0.5,解得a =224,即中位数为224. [变透练清]
1.某校随机抽取20个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以5为组距将数
据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是( )
解析:选A 以5为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项A 中的图.
2.(变结论)在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取________户.
解析:月平均用电量在[220,240)的用户有0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280]的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为1125+15+10+5=15
.
所以月平均用电量在[220,240)的用户中应抽取25×1
5
=5(户).
答案:5
3.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.
(1)求直方图中a的值;
(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由.
解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.
由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,
解得a=0.30.
(2)估计全市居民中月均用水量不低于3吨的人数为3.6万.理由如下:
由(1)知,100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000=3.6(万).
考点三样本的数字特征
考法(一)样本的数字特征与频率分布直方图交汇
[典例](2019·辽宁师范大学附属中学模拟)某校初三年级有400名学生,随机抽查了40名学生测试1分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是()
A.该校初三学生1分钟仰卧起坐的次数的中位数为25
B.该校初三学生1分钟仰卧起坐的次数的众数为24
C.该校初三学生1分钟仰卧起坐的次数超过30的人数约有80
D.该校初三学生1分钟仰卧起坐的次数少于20的人数约为8
[解析]第一组数据的频率为0.02×5=0.1,第二组数据的频率为0.06×5=0.3,第三组数据的频率为0.08×5=0.4,∴中位数在第三组内,设中位数为25+x,则x×0.08=0.5-0.1-0.3=0.1,∴x=1.25,∴中位数为26.25,故A错误;第三组数据所在的矩形最高,第三组数据的中间值为27.5,∴众数为27.5,故B 错误;1分钟仰卧起坐的次数超过30的频率为0.2,∴超过30次的人数为400×0.2=80,故C正确;1分钟仰卧起坐的次数少于20的频率为0.1,∴1分钟仰卧起坐的次数少于20的人数为400×0.1=40,故D错误.故选C.
[答案] C
[解题技法]
频率分布直方图与众数、中位数、平均数的关系
(1)最高的小长方形底边中点的横坐标为众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
考法(二)样本的数字特征与茎叶图交汇
[典例]将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x表示,则7个剩余分数的方差为________.
[解析]由茎叶图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.
故s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367
.
[答案] 36
7
[解题技法]
样本的数字特征与茎叶图综合问题的注意点
(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.
(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.
考法(三) 样本的数字特征与优化决策问题交汇
[典例] (2018·周口调研)甲、乙两人在相同条件下各射击10次,每次中靶环数情况如图所示.
(1)请填写下表(写出计算过程):
平均数 方差 命中9环及9环以上的次数
甲 乙
(2)①从平均数和方差相结合看(分析谁的成绩更稳定);
②从平均数和命中9环及9环以上的次数相结合看(分析谁的成绩好些); ③从折线图上两人射击命中环数的走势看(分析谁更有潜力). [解] 由题图,知
甲射击10次中靶环数分别为9,5,7,8,7,6,8,6,7,7. 将它们由小到大排列为5,6,6,7,7,7,7,8,8,9. 乙射击10次中靶环数分别为2,4,6,8,7,7,8,9,9,10.
将它们由小到大排列为2,4,6,7,7,8,8,9,9,10.
(1)x甲=1
10×(5+6×2+7×4+8×2+9)=7(环),
x乙=1
10×(2+4+6+7×2+8×2+9×2+10)=7(环),
s2甲=1
10×[(5-7)
2+(6-7)2×2+(7-7)2×4+(8-7)2×2+(9-7)2]=1
10×(4+2+0+2+4)=1.2,
s2乙=1
10×[(2-7)
2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2]
=1
10×(25+9+1+0+2+8+9)=5.4.
填表如下:
平均数方差命中9环及9环以上的次数
甲7 1.2 1
乙7 5.4 3
(2)甲乙
∴甲成绩比乙稳定.
②∵平均数相同,命中9环及9环以上的次数甲比乙少,
∴乙成绩比甲好些.
③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.
[解题技法]
利用样本的数字特征解决优化决策问题的依据
(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.
[题组训练]
1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示),则该样本中的中位数、众数、极差分别是()
A .46,45,56
B .46,45,53
C .47,45,56
D .45,47,53
解析:选A 样本共30个,中位数为45+47
2=46;显然样本数据出现次数最多的为45,故众数为45;
极差为68-12=56,故选A.
2.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:
甲 乙 丙 丁 平均环数x 8.3 8.8 8.8 8.7 方差s 2
3.5
3.6
2.2
5.4
A .甲
B .乙
C .丙
D .丁
解析:选C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选C.
3.某仪器厂从新生产的一批零件中随机抽取40个进行检测,如图是根据抽样检测得到的零件的质量(单位:克)绘制的频率分布直方图,样本数据按照[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96]分成8组,将其按从左到右的顺序分别记为第一组,第二组,……,第八组.则样本数据的中位数在第________组.
解析:由题图可得,前四组的频率为(0.037 5+0.062 5+0.075 0+0.100 0)×2=0.55,则其频数为40×0.55=22,且第四组的频数为40×0.100 0×2=8,故中位数在第四组.
答案:四
[课时跟踪检测]
A级
1.一个频数分布表(样本容量为30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为0.8,则估计样本在[40,60)内的数据个数为()
A.14B.15
C.16 D.17
解析:选B由题意,样本中数据在[20,60)上的频数为30×0.8=24,
所以估计样本在[40,60)内的数据个数为24-4-5=15.
2.(2019·长春质检)如图所示是某学校某年级的三个班在一学期内的六次数学测试的平均成绩y关于测试序号x的函数图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:
①一班成绩始终高于年级平均水平,整体成绩比较好;
②二班成绩不够稳定,波动程度较大;
③三班成绩虽然多数时间低于年级平均水平,但在稳步提升.
其中正确结论的个数为()
A.0 B.1
C.2 D.3
解析:选D①由图可知一班每次考试的平均成绩都在年级平均成绩之上,故①正确.②由图可知二班平均成绩的图象高低变化明显,可知成绩不稳定,波动程度较大,故②正确.③由图可知三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选D.
3.(2018·贵阳检测)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是()
A.15 B.18
C.20 D.25
解析:选A根据频率分布直方图,得第二小组的频率是0.04×10=0.4,∵频数是40,∴样本容量是40
0.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,∴成绩在80~100分的学生人数是100×0.15=15.故选A.
4.2017年4月,泉州有四处湿地被列入福建省首批重要湿地名录,某同学决定从其中A,B两地选择一处进行实地考察.因此,他通过网站了解上周去过这两个地方的人对它们的综合评分,并将评分数据记录为右图的茎叶图,记A,B两地综合评分数据的均值分别为x A,x B,方差分别为s2A,s2B.若以备受好评为依据,则下述判断较合理的是()
A.因为x A>x B,s2A>s2B,所以应该去A地
B.因为x A>x B,s2A<s2B,所以应该去A地
C.因为x A<x B,s2A>s2B,所以应该去B地
D.因为x A<x B,s2A<s2B,所以应该去B地
解析:选B因为x A=1
6×(72+86+87+89+92+94)≈86.67,x B=
1
6×(74+73+88+86+95+94)=