搜档网
当前位置:搜档网 › 专题五 第1讲 统计与统计案例

专题五 第1讲 统计与统计案例

专题五   第1讲 统计与统计案例
专题五   第1讲 统计与统计案例

本资料分享自千人QQ 群323031380 期待你的加入与分享

第1讲 统计与统计案例

[考情分析] 高考对本讲内容的考查往往以实际问题为背景,考查随机抽样与用样本估计总体,线性回归方程的求解与运用,独立性检验问题.常与概率综合考查,中等难度. 考点一 统计图表 核心提炼

1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率

组距.

2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中:

(1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等.

(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.

例1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( )

A .这11天复工指数和复产指数均逐日增加

B .这11天期间,复产指数增量大于复工指数的增量

C .第3天至第11天复工复产指数均增大都超过80%

D .第9天至第11天复产指数增量大于复工指数的增量

答案CD

(2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根据调查结果绘制学生周末阅读时间的频率分布直方图如图所示:

将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是()

A.抽样表明,该校约有一半学生为阅读霸

B.该校只有50名学生不喜欢阅读

C.该校只有50名学生喜欢阅读

D.抽样表明,该校有50名学生为阅读霸

答案 A

解析根据频率分布直方图可列下表:

阅读时间(分钟)[0,10)[10,20)[20,30)[30,40)[40,50)[50,60] 抽样人数(名)1018222520 5

抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸.

易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂.(2)频率分布直方图中纵坐标不要误以为频率.

跟踪演练1(1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是()

A.各月的平均最低气温都在0 ℃以上

B.七月的平均温差比一月的平均温差大

C.三月和十一月的平均最高气温基本相同

D.平均最高气温不低于20 ℃的月份有5个

答案 D

解析由题中雷达图易知A,C正确.七月份平均最高气温超过20 ℃,平均最低气温约为13 ℃;一月份平均最高气温约为6 ℃,平均最低气温约为2 ℃,所以七月的平均温差比一月平均温差大,故B正确.由题图知平均最高气温不低于20 ℃的月份为六、七、八月,有3个.

(2)(多选)(2020·重庆模拟)新高考方案规定,普通高中学业水平考试分为合格性考试(合格考)和选择性考试(选择考),其中“选择考”成绩将计入高考总成绩,即将学生考试时的原始卷面分数由高到低进行排序,评定为A,B,C,D,E五个等级,再转换为分数计入高考总成绩.某试点高中2020年参加“选择考”总人数是2018年参加“选择考”总人数的2倍,为了更好地分析该校学生“选择考”的水平情况,统计了该校2018年和2020年“选择考”成绩等级结果,得到如图所示的统计图.

针对该校“选择考”情况,2020年与2018年比较,下列说法正确的是()

A.获得A等级的人数增加了

B.获得B等级的人数增加了1.5倍

C.获得D等级的人数减少了一半

D.获得E等级的人数相同

答案AB

解析设2018年参加“选择考”的总人数为x,则2020年参加“选择考”的总人数为2x,根据图表得出2018年和2020年各个等级的人数如表所示.

等级 年份 A B C D E 2018 0.28x 0.32x 0.30x 0.08x 0.02x 2020

0.48x

0.8x

0.56x

0.12x

0.04x

由表可知,获得A 等级的人数增加了,故A 正确;获得B 等级的人数增加了0.8x -0.32x

0.32x =1.5

倍,故B 正确;获得D 等级的人数增加了,故C 错误;获得E 等级的人数不相同,故D 错误.

考点二 回归分析 核心提炼

在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有相关关系.若具有线性相关关系,则回归直线过样本点的中心(x ,y ),并且可通过线性回归方程估计预报变量的值.

例2 (2020·全国Ⅱ)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得

∑i =120x i =60,∑i =1

20y i =1 200,∑i =1

20

(x i -x )2=80,

∑i =1

20

(y i -y

)2=9 000,∑i =1

20 (x i -x )(y i -y )=800.

(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);

(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01);

(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.

附:相关系数r =∑i =1

n

(x i -x )(y i -y )

∑i =1

n

(x i -x

)2∑i =1

n

(y i -y )2

,2≈1.414.

解 (1)由已知得样本平均数y =120∑i =1

20

y i =60,

从而该地区这种野生动物数量的估计值为 60×200=12 000.

(2)样本(x i ,y i )(i =1,2,…,20)的相关系数

r =

∑i =1

20

(x i -x )(y i -y )

∑i =1

20

(x i -x )2∑i =1

20

(y i -y )2

80080×9 000

=22

3≈0.94.

(3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样. 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计. 规律方法 样本数据的相关系数

r =

∑n

i =1 (x i -x )(y i -y )

∑n

i =1

(x i -x )2∑n

i =1

(y i -y )2

反映样本数据的相关程度,|r |越大,则相关性越强.

跟踪演练2 (1)已知某产品的销售额y 与广告费用x 之间的关系如下表:

若求得其线性回归方程为y ^

=6.5x +a ^

,则预计当广告费用为6万元时的销售额为( ) A .42万元 B .45万元 C .48万元 D .51万元 答案 C

解析 由题意,根据上表中的数据, 可得x =2,y =22, 即样本点的中心为(2,22),

又线性回归方程y ^

=6.5x +a ^经过样本点的中心, 所以22=6.5×2+a ^

,解得a ^

=9, 所以y ^

=6.5x +9,当x =6时,y ^

=48.

(2)(2020·河北衡水中学月考)有一散点图如图所示,在5个(x ,y )数据中去掉D (3,10)后,下列

说法正确的是()

A.残差平方和变小

B.相关系数r变小

C.相关指数R2变小

D.解释变量x与预报变量y的相关性变弱

答案 A

解析∵从散点图可分析得出:

只有D点偏离直线远,去掉D点,解释变量x与预报变量y的线性相关性变强,

∴相关系数变大,相关指数变大,残差平方和变小,故选A.

考点三独立性检验

核心提炼

假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为:

y1y2总计

x1 a b a+b

x2 c d c+d

总计a+c b+d a+b+c+d

K2=n(ad-bc)2

(a+b)(a+c)(b+d)(c+d)

(其中n=a+b+c+d为样本容量).

例3(2020·新高考全国Ⅰ)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:

SO2

PM2.5

[0,50](50,150](150,475]

[0,35]3218 4

(35,75]6812

(75,115]3710

(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;

(2)根据所给数据,完成下面的2×2列联表:

(3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?

附:K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

解(1)由表格可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+6+18+8=64,

所以该市一天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为64

100=0.64.

(2)由所给数据,可得2×2列联表:

(3)根据2×2列联表中的数据可得

K2=n(ad-bc)2

(a+b)(c+d)(a+c)(b+d)

=100×(64×10-16×10)2 80×20×74×26

≈7.484>6.635,

故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.

规律方法独立性检验的关键

(1)根据2×2列联表准确计算K2,若2×2列联表没有列出来,要先列出此表.

(2)K2的观测值k越大,对应的假设H0成立的概率越小,H0不成立的概率越大.

跟踪演练3(1)随着国家二胎政策的全面放开,为了调查一线城市和非一线城市的二胎生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.

附表:

由K 2=

n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

计算得,

K 2的观测值

k =100×(45×22-20×13)258×42×35×65

≈9.616,

参照附表,得到的正确结论是( )

A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”

B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”

C .有99%以上的把握认为“生育意愿与城市级别有关”

D .有99%以上的把握认为“生育意愿与城市级别无关” 答案 C

解析 由题意知,

K 2的观测值k ≈9.616>6.635,

∴有99%以上的把握认为“生育意愿与城市级别有关”.

(2)某校团委对“学生性别和喜欢某视频APP 是否有关”做了一次调查,其中被调查的女生人数是男生人数的一半,男生喜欢某视频APP 的人数占男生人数的1

6,女生喜欢某视频APP

的人数占女生人数的2

3,若有95%的把握认为喜欢某视频APP 和性别有关,则男生至少有

( ) 附:

K 2=

n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

.

A .12人

B .6人

C .10人

D .18人 答案 A

解析 设被调查的男生人数为x ,则被调查的女生人数为x

2

,则2×2列联表为

喜欢某视频APP

不喜欢某视频APP

总计 男生 x

6 5x 6 x 女生 x 3 x 6 x 2 总计

x 2

x

3x 2

若有95%的把握认为喜欢某视频APP 和性别有关,则K 2≥3.841,即K 2=3x 2

????x 6×x 6-5x 6×x 32

x ×x 2×x 2×x =

3x 8≥3.841,则x ≥3.841×83≈10.243,又x 2,x 3,x

6

均为整数,所以男生至少有12人. 专题强化练

一、单项选择题

1.某人5次上班途中所花的时间(单位:分钟)分别为x ,y,10,11,9,已知这组数据的平均数为10,方差为2,则|x -y |的值为( ) A .4 B .3 C .2 D .1 答案 A 解析 依题意有

x +y +10+11+9

5

=10,(x -10)2+(y -10)2+(10-10)2+(11-10)2+(9-10)2

=5×2,解得x =8,y =12或x =12,y =8,故|x -y |=4.

2.(2019·全国Ⅲ)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7 D .0.8 答案 C

解析 根据题意阅读过《红楼梦》《西游记》的人数用韦恩图表示如下:

所以该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为70

100

=0.7.

3.(2020·全国Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y 和温度x (单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i ,y i )(i =1,2,…,20)得到下面的散点图:

由此散点图可以看出,在10℃至40℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x 的回归方程类型的是( ) A .y =a +bx B .y =a +bx 2 C .y =a +b e x D .y =a +b ln x

答案 D

解析 由散点图可以看出,点大致分布在对数型函数的图象附近.

4.某生产车间的甲、乙两位工人生产同一种零件,这种零件的标准尺寸为85 mm ,现分别从他们生产的零件中各随机抽取8件进行检测,其尺寸(单位:mm)用茎叶图表示如图所示,则估计( )

A .甲、乙生产的零件尺寸的中位数相等

B .甲、乙生产的零件质量相当

C .甲生产的零件质量比乙生产的零件质量好

D .乙生产的零件质量比甲生产的零件质量好 答案 D

解析 甲生产的零件尺寸是93,89,88,85,84,82,79,78;乙生产的零件尺寸是90,88,86,85,85,84,84,78.故甲生产的零件尺寸的中位数是

85+84

2

=84.5,乙生产的零件尺寸的中位数是85+85

2=85,故A 错误;根据数据分析,乙的数据较稳定,故乙生产的零件质量比

甲生产的零件质量好,故B ,C 错误.

5.某校进行了一次创新作文大赛,共有100名同学参赛,经过评判,这100名参赛者的得分都在[40,90]之间,其得分的频率分布直方图如图所示,则下列结论错误的是( )

A .得分在[40,60)之间的共有40人

B .从这100名参赛者中随机选取1人,其得分在[60,80)之间的概率为0.5

C .估计得分的众数为55

D .这100名参赛者得分的中位数为65 答案 D

解析 根据频率和为1,计算(a +0.035+0.030+0.020+0.010)×10=1,解得a =0.005, 得分在[40,60)之间的频率是0.4,估计得分在[40,60)之间的有100×0.4=40(人),A 正确; 得分在[60,80)之间的频率为0.5,可得从这100名参赛者中随机选取1人,得分在[60,80)之间的概率为0.5,B 正确;

根据频率分布直方图知,最高的小矩形对应的底边中点为50+60

2=55,即估计众数为55,C

正确;

根据频率分布直方图知,得分低于60分的直方图面积为(0.005+0.035)×10=0.4<0.5,而得分低于70分的直方图面积为(0.005+0.035+0.030)×10=0.7>0.5,所以100名参赛者得分的中位数估计为60+0.5-0.4

0.030≈63.3,D 错误.

二、多项选择题

6.(2020·烟台模拟)某大学为了解学生对学校食堂服务的满意度,随机调查了50名男生和50名女生,每位学生对食堂的服务给出满意或不满意的评价,得到如下表所示的列联表,经计算K 2的观测值k ≈4.762,则可以推断出( )

满意 不满意 男 30 20 女

40

10

P (K 2≥k 0)

0.100 0.050 0.010 k 0

2.706

3.841

6.635

A.该学校男生对食堂服务满意的概率的估计值为35

B .调研结果显示,该学校男生比女生对食堂服务更满意

C .有95%的把握认为男、女生对该食堂服务的评价有差异

D .有99%的把握认为男、女生对该食堂服务的评价有差异 答案 AC

解析 对于选项A ,该学校男生对食堂服务满意的概率的估计值为3030+20=3

5,故A 正确;

对于选项B ,该学校女生对食堂服务满意的概率的估计值为

4040+10=45>3

5

,故B 错误;因为k ≈4.762>3.841,所以有95%的把握认为男、女生对该食堂服务的评价有差异,故C 正确,D 错误.

7.(2020·河北衡水中学月考)5G 时代已经到来,5G 的发展将直接带动包括运营、制造、服务在内的通信行业经济的快速增长,进而对GDP 增长产生直接贡献,并通过产业间的关联效应和波及效应,间接带动国民经济各行业的发展,创造出更多的经济增加值.如图是某单位结合近几年数据,对今后几年的5G 经济产出所做的预测.

结合上图,下列说法正确的是( )

A .5G 的发展带动今后几年的总经济产出逐年增加

B .设备制造商的经济产出前期增长较快,后期放缓

C .信息服务商与运营商的经济产出的差距有逐步拉大的趋势

D .设备制造商在各年的经济产出中一直处于领先地位 答案 ABC

解析 由图易知A ,B ,C 正确,而设备制造商的经济产出在2029年和2030年将低于信息服务商的经济产出,故D 错误.

8.(2020·青岛模拟)某调查机构对全国互联网行业进行调查统计,得到整个互联网行业从业者年龄分布饼状图、90后从事互联网行业岗位分布条形图,则下列结论正确的是( ) 注:90后指1990年及以后出生,80后指1980-1989年之间出生,80前指1979年及以前出生.

A .互联网行业从业人员中从事技术和运营岗位的人数占总人数的三成以上

B .互联网行业中从事技术岗位的人数超过总人数的20%

C .互联网行业中从事运营岗位的人数90后比80前多

D .互联网行业中从事技术岗位的人数90后比80后多 答案 ABC

解析 选项A ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术和运营岗位的人数占的比分别为39.6%和17%,则“90后”从事技术和运营岗位的人数占总人数的56%×(39.6%+17%)≈31.7%.“80前”和“80后”中必然也有从事技术和运营岗位的人,则总的占比一定超过三成,故选项A 正确;

选项B ,因为互联网行业从业人员中,“90后”占比为56%,其中从事技术岗位的人数占的比为39.6%,则“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%.“80前”和“80后”中必然也有从事技术岗位的人,则总的占比一定超过20%,故选项B 正确; 选项C ,“90后”从事运营岗位的人数占总人数的比为56%×17%≈9.5%,大于“80前”的总人数所占比3%,故选项C 正确;

选项D ,“90后”从事技术岗位的人数占总人数的56%×39.6%≈22.2%,“80后”的总人数所占比为41%,条件中未给出“80后”从事技术岗位的占比,故不能判断,所以选项D 错误. 三、填空题

9.某企业的一种商品的产量与成本数据如下表:

若根据表中提供的数据,求出y 关于x 的线性回归方程为y ^

=-1.15x +28.1,则a 的值为________. 答案 5

解析 由题意知x =14+16+18+20+225=905=18,

y =

12+10+7+a +35=32+a

5

又y =-1.15×18+28.1=7.4, 所以32+a

5

=7.4,解得a =5.

10.已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量为________,抽取的高中生近视人数为________.

答案 200 20

解析 由题图甲知,总人数为3 500+2 000+4 500=10 000,所以样本容量为10 000×2%=200,抽样比例为1

50,所以高中生抽取的学生数为40,所以抽取的高中生近视人数为40×50%

=20.

11.下面的折线图给出的是甲、乙两只股票在某年中每月的收盘价格,已知股票甲的极差是6.88元,标准差为2.04元;股票乙的极差为27.47元,标准差为9.63元,根据这两只股票在这一年中的波动程度,给出下列结论:①股票甲在这一年中波动相对较小,表现的更加稳定;②购买股票乙风险高但可能获得高回报;③股票甲的走势相对平稳,股票乙的收盘价格波动较大;④两只股票在全年都处于上升趋势.其中正确的结论是________.(填序号)

答案 ①②③

解析 由题意可知,甲的标准差为2.04元,乙的标准差为9.63元,可知股票甲在这一年中波动相对较小,表现的更加稳定,故①正确;甲的极差是6.88元,乙的极差为27.47元,可知购买股票乙风险高但可能获得高回报,故②正确;通过折线图可知股票甲的走势相对平稳,股票乙的收盘价格波动较大,故③正确;通过折线图可得乙在6月到8月明显是下降趋势,故④错误.

12.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^

=0.85x -85.71,则下列结论中不正确的是________.(填序号) ①y 与x 具有正的线性相关关系; ②回归直线过样本点的中心(x ,y );

③若该大学某女生身高增加1 cm ,则其体重约增加0.85 kg ; ④若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg. 答案 ④

解析 由于线性回归方程中x 的系数为0.85,因此y 与x 具有正的线性相关关系,故①正确;因为回归直线必过样本点的中心

(x ,y ),所以②正确;由线性回归方程的意义知,某女生的身高增加1 cm ,其体重约增加0.85 kg ,故③正确;当某女生的身高为170 cm 时,其体重估计值是58.79 kg ,这不是确定值,因此④不正确. 四、解答题

13.某公司为了了解广告投入对销售收益的影响,在若干地区各投入3.5万元广告费用,并将各地的销售收益绘制成频率分布直方图,如图所示,由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.

(1)根据频率分布直方图计算图中各小长方形的宽度;

(2)估计该公司投入3.5万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);

(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:

广告投入x (单位:万元) 1 2 3 4 5 销售收益y (单位:万元)

2

3

2

7

表中的数据显示,x 与y 之间存在线性相关关系,请将(2)中的结果填入空白栏,并计算y 关于x 的线性回归方程.

附:b ^

∑i =1

n

x i y i -n x y

∑i =1

n

x 2i -n x

2

,a ^=y -b ^

x .

解 (1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.10+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.

(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04,

故可估计平均值为1×0.16+3×0.20+5×0.28+7×0.24+9×0.08+11×0.04=5. (3)空白栏中填5.由题意可知, x =

1+2+3+4+55=3,y =2+3+2+5+7

5

=3.8,

∑5

i =1

x i y i =1×2+2×3+3×2+4×5+5×7=69, ∑5

i =1

x 2i =12+22+32+42+52=55. 根据公式可求得

b ^

∑i =1

5

x i y i -5 x y

∑i =1

5

x 2i -5x

2

=69-5×3×3.855-5×32

=12

10=1.2,

a ^

=3.8-1.2×3=0.2, 即线性回归方程为y ^

=1.2x +0.2.

14.(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):

(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;

(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);

(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?

附:K 2=

n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

.

解 (1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25

100=0.43,

等级为2的概率为5+10+12

100=0.27,

等级为3的概率为6+7+8

100=0.21,

等级为4的概率为7+2+0

100

=0.09.

(2)由频数分布表可知,一天中到该公园锻炼的人次的平均数为100×20+300×35+500×45

100

=350.

(3)2×2列联表如下:

K 2=

100×(33×8-37×22)2

55×45×70×30

≈5.820>3.841,

因此,有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.

数学选修2-3第三章-统计案例阶段测试3(含详

数学选修2-3第三章-统计案例阶段测试3(含详细答案)

阶段测试三 (第三章统计案例) (时间:120分钟,满分:150分) 一、选择题(每小题5分,共60分) 1.下列关系中是相关关系的是() ①路程与时间、速度的关系; ②加速度与力的关系; ③产品成本与产量的关系; ④圆周长与面积的关系; ⑤广告费支出与销售额的关系. A.①②④B.①③⑤ C.③⑤D.③④⑤ 2.下列说法中表述恰当的个数为() ①相关指数R2可以刻画回归模型的拟合效果,R2越接近于1,说明模型的拟合效果越好; ②在线性回归模型中,R2表示解释变量对预报变量的贡献率,R2越接近于1,表示解释变量

和预报变量的线性相关关系越强; ③若残差图中个别点的残差比较大,则应确认在采集样本点的过程中是否有人为的错误或模型是否恰当. A.0 B.1 C.2 D.3 3.(2016·重庆南开中学期末)巧克力很甜、很好吃,数学很妙、很有趣,某中学统计了部分同学“爱吃巧克力”与“数学成绩好”的关系,得到下表: 经计算得k≈4.167,由此可以判断()

参考数据: A.至少有99%的把握认为“数学成绩好” 与“爱吃巧克力”有关 B .至少有95%的把握认为“数学成绩好” 与“爱吃巧克力”有关 C . 至少有99%的把握认为“数学成绩好” 与“爱吃巧克力”无关 D .至少有95%的把握认为“数学成绩好” 与“爱吃巧克力”无关 4.某车间为了规定工时定额,需要确定加 工零件所花费的时间,为此进行了5次试验,收集数据如下:

经检验,这组样本数据具有线性相关关系,那么对于加工零件的个数x与加工时间y这两个变量,下列判断正确的是() A.成正相关,其回归直线经过点(30,75) B.成正相关,其回归直线经过点(30,76) C.成负相关,其回归直线经过点(30,76) D.成负相关,其回归直线经过点(30,75) 5.下列关于等高条形图说法正确的是() A.等高条形图表示高度相对的条形图 B.等高条形图表示的是分类变量的频数 C.等高条形图表示的是分类变量的百分比 D.等高条形图表示的是分类变量的实际高度 6.下面是调查某地区男女中学生喜欢理科的等高条形图,阴影部分表示喜欢理科的百分比,从下图可以看出()

数学第一章统计案例测试1新人教A版选修1 2

高中新课标选修(1-2)统计案例测试题1 一、选择题 1.下列属于相关现象的是() A.利息与利率 B.居民收入与储蓄存款 C.电视机产量与苹果产量 D.某种商品的销售额与销售价格 答案:B 2.如果有95%的把握说事件A和B有关,那么具体算出的数据满足() A.23.841K?B.23.841K? C.26.635K?D.26.635K? 答案:A 3.如图所示,图中有5组数据,去掉组数据后(填字母代),剩下的4组数据的线性相关性最大() A.EB.CC.DD.A 答案:A 4.为调查吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结 果(单位:人) 不患肺癌患肺癌不吸烟 7775 42 7817 吸烟 2099 49 2148 合计 9874 91

9 965 根据表中数据,你认为吸烟与患肺癌有关的把握有() A.90% B.95% C.99% D.100% 答案:C 5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表: 晚上白天合计 男婴 24 31 55 女婴 8 26 34 合计 32 57 89 你认为婴儿的性别与出生时间有关系的把握为() A.80% B.90% C.95% D.99% 答案:B 6.已知有线性相关关系的两个变量建立的回归直线方程为yabx??,方程中的回归系数b() A.可以小于0 B.只能大于0 C.可以为0 D.只能小于0 答案:A 7.每一吨铸铁成本c y(元)与铸件废品率x%建立的回归方程568c yx??,下列说法正确的是() A.废品率每增加1%,成本每吨增加64元 B.废品率每增加1%,成本每吨增加8% C.废品率每增加1%,成本每吨增加8元 D.如果废品率增加1%,则每吨成本为56元 答案:C 8.下列说法中正确的有:①若0r?,则x增大时,y也相应增大;②若0r?,则x增

统计与统计案例真题与解析

统计与统计案例 A 级 基础 一、选择题 1.某校为了解学生学习的情况,采用分层抽样的方法从高一1 000人、高二1 200人、高三n 人中抽取81人进行问卷调查,已知高二被抽取的人数为30,那么n =( ) A .860 B .720 C .1 020 D .1 040 2.为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A .13 B .19 C .20 D .51 3.“关注夕阳、爱老敬老”——某爱心协会从2013年开始每年向敬老院捐赠物资和现金,下表记录了第x 年(2013年是第一年)与捐赠的现金y (单位:万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程y ^ =mx +0.35,则预测2019年捐赠的现金大约是( ) A.5万元 C .5.25万元 D .5.5万元 4.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )

A.3,5 B.5,5 C.3,7 D.5,7 5.(2019·衡水中学检测)某超市从2019年甲、乙两种酸奶的日销售量(单位:箱)的数据中分别随机抽取100个,并按(0,10],(10,20],(20,30],(30,40],(40,50]分组,得到频率分布直方图如下: 记甲种酸奶与乙种酸奶的日销售量(单位:箱)的方差分别为s21,s22,则频率分布直方图(甲)中的a的值及s21与s22的大小关系分别是() A.a=0.015,s21s22 C.a=0.015,s21>s22D.a=0.15,s21

2019年高考数学统计案例(文科) 含解析

统计案例 一、选择题 1.(2018·长春一模)完成下列两项调查:①从某社区125户高收入家庭、280户中等收入家庭、95户低收入家庭中选出100户,调查社会购买能力的某项指标;②从某中学的15名艺术特长生中选出3名调查学习负担情况.宜采用的抽样方法依次是( ) A .①简单随机抽样,②系统抽样 B .①分层抽样,②简单随机抽样 C .①系统抽样,②分层抽样 D .①②都用分层抽样 答案:B 解析:因为社会购买能力的某项指标受到家庭收入的影响,而社区中各个家庭收入差别明显,所以①用分层抽样法;从某中学的15名艺术特长生中选出3名调查学习负担情况,个体之间差别不大,且总体和样本容量较小,所以②用简单随机抽样法,故选B. 2.(2018·贵州遵义联考)某校高三年级有1 000名学生,随机编号为0001,0002,…,1 000.现按系统抽样方法,从中抽出200人,若0122号被抽到了,则下列编号也被抽到的是( ) A .0927 B .0834 C .0726 D .0116 答案:A 解析:系统抽样就是等距抽样,被抽到的编号满足0122+5k ,k ∈Z .因为0927=0122+5×161,故选A. 3.(2018·江西九校联考(一))一组数据共有7个数,其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数据的平均数、中位数、众数依次成等差数列,则这个数的所有可能值的和为( ) A .3 B .17 C .-11 D .9 答案:D 解析:设这个数是x ,则平均数为25+x 7,众数为2,若x ≤2,则

中位数为2,此时x =-11,若2

专题五 第1讲 统计与统计案例(解析版)

第1讲 统计与统计案【典例】 【要点提炼】 考点一 统计图表 1.频率分布直方图中横坐标表示组距,纵坐标表示频率组距,频率=组距×频率 组距. 2.频率分布直方图中各小长方形的面积之和为1. 3.利用频率分布直方图求众数、中位数与平均数. 频率分布直方图中: (1)最高的小长方形底边中点的横坐标即众数. (2)中位数左边和右边的小长方形的面积和相等. (3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和. 【热点突出】 【典例】1 (1)(多选)(2020·新高考全国Ⅱ)我国新冠肺炎疫情防控进入常态化,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是( ) A .这11天复工指数和复产指数均逐日增加 B .这11天期间,复产指数增量大于复工指数的增量 C .第3天至第11天复工复产指数均增大都超过80% D .第9天至第11天复产指数增量大于复工指数的增量 【答案】 CD (2)学校为了了解新课程标准提升阅读要求对学生阅读兴趣的影响情况,随机抽取了100名学生进行调查.根

据调查结果绘制学生周末阅读时间的频率分布直方图如图所示: 将阅读时间不低于30分钟的学生称为“阅读霸”,则下列结论正确的是( ) A.抽样表明,该校约有一半学生为阅读霸 B.该校只有50名学生不喜欢阅读 C.该校只有50名学生喜欢阅读 D.抽样表明,该校有50名学生为阅读霸 【答案】 A 【解析】根据频率分布直方图可列下表: 阅读时间(分 钟) [0,10 ) [10,20) [20,30) [30,40) [40,50) [50,60] 抽样人数(名) 10 18 22 25 20 5 抽样100名学生中有50名为阅读霸,占一半,据此可判断该校约有一半学生为阅读霸. 易错提醒(1)对于给出的统计图表,一定要结合问题背景理解图表意义,不能似懂非懂. (2)频率分布直方图中纵坐标不要误以为频率. 【拓展训练】1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )

数学选修23第三章统计案例教案

第三章 统计案例 §3.1 独立性检验(1) 1. 某医疗机构为了了解呼吸道疾病与吸烟是否有关,进行了一次抽样调查,共调查了515个成年人,其中吸烟者220人, 不吸烟者295人.调查结果是:吸烟的220人中有37人患呼吸道疾病(简称患病),183人未患呼吸道疾病(简称未患病);不吸烟的295人中有21人患病,274人未患病. 问题:根据这些数据能否断定“患呼吸道疾病与吸烟有关”? 为了研究这个问题,(1)引导学生将上述数据用下表来表示: 一.建构数学 1.独立性检验: (1)假设0H :患病与吸烟没有关系. 若将表中“观测值”用字母表示,则得下表: 如果实际观测值与假设求得的估计值相差不大,就可以认为所给数据(观测值)不能否定假设0H .否则,应认为假设0H 不能接受,即可作出与假设0H 相反的结论. (2)卡方统计量: 为了消除样本对上式的影响,通常用卡方统计量(χ22 ()-=∑ 观测值预期值预期值 )来进行估计. 卡方χ2统计量公式: χ2() ()()()() 2 n ad bc a b c d a c b d -=++++(其中n a b c d =+++) 由此若0H 成立,即患病与吸烟没有关系,则χ2的值应该很小.把37,183,21,274a b c d ====代入计算得 χ211.8634=,统计学中有明确的结论,在0H 成立的情况下,随机事件“2 6.635χ≥” 发生的概率约为0.01,即2 ( 6.635)0.01P χ ≥≈,也就是说,在0H 成立的情况下,对统计量χ2进行多次观测, 观测值超过6.635的频率约为0.01.由此,我们有99%的把握认为0H 不成立,即有99%的把握认为“患病与吸烟有关系”. 象以上这种用2 χ统计量研究吸烟与患呼吸道疾病是否有关等问题的方法称为独立性检验.

第一章《统计案例》练习

----------专业最好文档,专业为你服务,急你所急,供你所需------------- §1.1 独立性检验 1.当χ2>2.706时,就有________的把握认为“x 与y 有关系”. 2.分类变量X 和Y .(填序号) ①ad -bc 越小,说明X 与Y 的关系越弱; ②ad -bc 越大,说明X 与Y 的关系越强; ③(ad -bc )2越大,说明X 与Y 的关系越强; ④(ad -bc )2越接近于0,说明X 与Y 的关系越强. 3.通过随机询问110 χ2=110×(40×30-20×20) 60×50×60×50 ≈7.8,得到的正确结论是________. ①在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”; ②在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关”; ③有99%以上的把握认为“爱好该项运动与性别有关”; ④有99%以上的把握认为“爱好该项运动与性别无关”. 4.为了研究男子的年龄与吸烟的关系,抽查了100个男子,按年龄超过和不超过40岁,吸 则有________的把握确定吸烟量与年龄有关. 5.下列说法正确的是________.(填序号) ①对事件A 与B 的检验无关,即两个事件互不影响;

----------专业最好文档,专业为你服务,急你所急,供你所需------------- ②事件A 与B 关系越密切,χ2就越大; ③χ2的大小是判断事件A 与B 是否相关的惟一数据; ④若判定两事件A 与B 有关,则A 发生B 一定发生. 6 设H 0:主修统计专业与性别无关,则 χ2的值约为________,从而得出结论有 把握认为主修统计专业与性别有关系,这种判断出错的可能性为________. 7.某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的 零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表: (1)分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填写2×2列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.

高中数学 专题 统计与统计案例

一、选择题 1.利用系统抽样法从编号分别为1,2,3,…,80的80件不同产品中抽出一个容量为16的样本,如果抽出的产品中有一件产品的编号为13,则抽到产品的最大编号为( ) A .73 B .78 C .77 D .76 解析:样本的分段间隔为80 16=5,所以13号在第三组,则最大的编号为13+(16-3)×5 =78.故选B. 答案:B 2.某课外小组的同学们在社会实践活动中调查了20户家庭某月的用电量如下表所示: 则这20A .180,170 B .160,180 C .160,170 D .180,160 解析:用电量为180度的家庭最多,有8户,故这20户家庭该月用电量的众数是180,排除B ,C ;将用电量按从小到大的顺序排列后,处于最中间位置的两个数是160,180,故这20户家庭该月用电量的中位数是170.故选A. 答案:A 3.(2017·高考全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图,根据该折线图,下列结论错误的是( ) A .月接待游客量逐月增加 B .年接待游客量逐年增加 C .各年的月接待游客量高峰期大致在7,8月 D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳

解析:根据折线图可知,2014年8月到9月、2014年10月到11月等月接待游客量都在减少,所以A 错误.由图可知,B 、C 、D 正确. 答案:A 4.(2018·宝鸡质检)对一批产品的长度(单位:毫米)进行抽样检测,样本容量为200,如图为检测结果的频率分布直方图,根据产品标准,单件产品长度在区间[25,30)的为一等品,在区间[20,25)和[30,35)的为二等品,其余均为三等品,则该样本中三等品的件数为( ) A .5 B .7 C .10 D .50 解析:根据题中的频率分布直方图可知,三等品的频率为1-(0.050 0+0.062 5+0.037 5)×5=0.25,因此该样本中三等品的件数为200×0.25=50. 答案:D 5.(2018·兰州模拟)已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据: 根据表中提供的全部数据,用最小二乘法得出y 与x 的线性回归方程为y ^ =6.5x +17.5,则表中m 的值为( ) A .45 B .50 C .55 D .60 解析:∵x =2+4+5+6+8 5=5, y = 30+40+50+m +705=190+m 5 , ∴当x =5时,y =6.5×5+17.5=50, ∴190+m 5=50,解得m =60. 答案:D

高中数学统计与统计案例概率知识点上课讲义

高中数学统计与统计案例概率知识点

统计与统计案例概率(文科) 知识点 1.抽样调查 (1)抽样调查 通常情况下,从调查对象中按照一定的方法抽取一部分,进行______,获取数据,并以此对调查对象的某项指标作出______,这就是抽样调查. (2)总体和样本 调查对象的称为总______体,被抽取的称为样______本. (3)抽样调查与普查相比有很多优点,最突出的有两点: ①______ ②节约人力、物力和财力. 2.简单随机抽样 (1)简单随机抽样时,要保证每个个体被抽到的概率. (2)通常采用的简单随机抽样的方法:_____ 3.分层抽样 (1)定义:将总体按其属性特征分成若干类型(有时称作层),然后在每个类型中按照所占比例随机抽取一定的样本.这种抽样方法通常叫作分层抽样,有时也称为类型抽样. (2)分层抽样的应用范围: 当总体是由差异明显的几个部分组成时,往往选用分层抽样. 4.系统抽样 系统抽样是将总体中的个体进行编号,等距分组,在第一组中按照简单随机抽样抽取第一个样本,然后按______(称为抽样距)抽取其他样本.这种抽样方法有时也叫等距抽样或机

械抽样. 5.统计图表 统计图表是______数据的重要工具,常用的统计图表有______ 6.数据的数字特征 (1)众数、中位数、平均数 众数:在一组数据中,出现次数最多的数据叫作这组数据的众数. 中位数:将一组数据按大小依次排列,把处在______位置的一个数据(或最中间两个数据的平均数)叫作这组数据的中位数. 平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ). 在频率分布直方图中,中位数左边和右边的直方图的面积应该______ (2)样本方差 标准差s = 1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2], 其中x n 是样本数据的第n 项,n 是,______x 是______ 标准差是刻画数据的离散程度的特征数,样本方差是标准差的______.通常用样本方差估计总体方差,当______时,样本方差很接近总体方差. 7.用样本估计总体 (1)通常我们对总体作出的估计一般分成两种,一种是______,另一种______. (2)在频率分布直方图中,纵轴表示,______数据落在各小组内的频率用______表示,各小长方形的面积总和等于.______ (3)在频率分布直方图中,按照分组原则,再在左边和右边各加一个区间.从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,称之为频率折线图. (4)当样本数据较少时,用茎叶图表示数据的效果较好,它没有信息的缺失,而且______,方便表示与比较.

2015届高考数学二轮专题训练:专题七 第3讲 统计与统计案例

第3讲 统计与统计案例 考情解读 1.该部分常考内容:样本数字特征的计算、各种统计图表、线性回归方程、独立性检验等;有时也会在知识交汇点处命题,如概率与统计交汇等.2.从考查形式上来看,大部分为选择题、填空题,重在考查基础知识、基本技能,有时在知识交汇点处命题,也会出现解答题,都属于中、低档题. 1.随机抽样 (1)简单随机抽样特点是从总体中逐个抽取.适用范围:总体中的个体较少. (2)系统抽样特点是将总体均分成几部分,按事先确定的规则在各部分中抽取.适用范围:总体中的个体数较多. (3)分层抽样特点是将总体分成几层,分层进行抽取.适用范围:总体由差异明显的几部分组成. 2.常用的统计图表 (1)频率分布直方图 ①小长方形的面积=组距× 频率 组距 =频率; ②各小长方形的面积之和等于1; ③小长方形的高=频率组距,所有小长方形的高的和为1 组距. (2)茎叶图 在样本数据较少时,用茎叶图表示数据的效果较好. 3.用样本的数字特征估计总体的数字特征 (1)众数、中位数、平均数

(2)方差:s 2=1 n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 标准差: s = 1 n [(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 4.变量的相关性与最小二乘法 (1)相关关系的概念、正相关和负相关、相关系数. (2)最小二乘法:对于给定的一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),通过求Q =∑i =1 n (y i -a -bx i )2 最小时,得到线性回归方程y ^ =b ^ x +a ^ 的方法叫做最小二乘法. 5.独立性检验 对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是 则K 2 (χ2 )=n (ad -bc )2 (a +b )(c +d )(a +c )(b +d ) (其中n =a +b +c +d 为样本容量). 热点一 抽样方法 例1 (1)(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A .11 B .12 C .13 D .14 (2)(2014·石家庄高三调研)某学校共有师生3 200人,现用分层抽样的方法,从所有师生中抽取一个容量为160的样本,已知从学生中抽取的人数为150,那么该学校的教师人数是________. 思维启迪 (1)系统抽样时需要抽取几个个体,样本就分成几组,且抽取号码的间隔相同;(2)分层抽样最重要的是各层的比例. 答案 (1)B (2)200 解析 (1)由840 42=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为 720-48020=240 20 =12. (2)本题属于分层抽样,设该学校的教师人数为x ,所以1603 200=160-150 x ,所以x =200.

2020版高中数学 第三章 统计案例 3.2 独立性检验的基本思想及其初步应用学案 新人教A版选修2-3

§3.2 独立性检验的基本思想及其初步应用 学习目标 1.了解分类变量的意义.2.了解2×2列联表的意义.3.了解随机变量K 2 的意义.4.通过对典型案例分析,了解独立性检验的基本思想和方法. 知识点一 分类变量及2×2列联表 思考 山东省教育厅大力推行素质教育,增加了高中生的课外活动时间,某校调查了学生的课外活动方式,结果整理成下表: 体育 文娱 合计 男生 210 230 440 女生 60 290 350 合计 270 520 790 如何判定“喜欢体育还是文娱与性别是否有联系”? 答案 可通过表格与图形进行直观分析,也可通过统计分析定量判断. 梳理 (1)分类变量 变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量. (2)列联表 ①定义:列出的两个分类变量的频数表,称为列联表. ②2×2列联表 一般地,假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(也称为2×2列联表)为下表. y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计 a +c b +d a + b + c +d 知识点二 等高条形图 1.与表格相比,图形更能直观地反映出两个分类变量间是否相互影响,常用等高条形图展示列联表数据的频率特征. 2.如果通过直接计算或等高条形图发现a a + b 和 c c +d 相差很大,就判断两个分类变量之间有关系. 知识点三 独立性检验

1.定义:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验. 2.K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d为样本容量. 3.独立性检验的具体做法 (1)根据实际问题的需要确定容许推断“两个分类变量有关系”犯错误概率的上界α,然后查表确定临界值k0. (2)利用公式计算随机变量K2的观测值k. (3)如果k≥k0,就推断“X与Y有关系”,这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够证据支持结论“X与Y有关系”. 1.列联表中的数据是两个分类变量的频数.( √) 2.事件A与B的独立性检验无关,即两个事件互不影响.( ×) 3.K2的大小是判断事件A与B是否相关的统计量.( √) 类型一等高条形图的应用 例1 为了解铅中毒病人与尿棕色素为阳性是否有关系,分别对病人组和对照组的尿液作尿棕色素定性检查,结果如下: 组别阳性数阴性数总计 铅中毒病人29736 对照组92837 总计383573 试画出列联表的等高条形图,分析铅中毒病人和对照组的尿棕色素阳性数有无差别,铅中毒病人与尿棕色素为阳性是否有关系? 考点定性分析的两类方法 题点利用图形定性分析 解等高条形图如图所示: 其中两个浅色条的高分别代表铅中毒病人和对照组样本中尿棕色素为阳性的频率. 由图可以直观地看出铅中毒病人与对照组相比,尿棕色素为阳性的频率差异明显,因此铅中毒病人与尿棕色素为阳性有关系.

专题突破练20 统计与统计案例

专题突破练20 统计与统计案例 1. (2020吉林辽源高三检测,18)某城市在进行创建文明城市的活动中,为了解居民对“创建文明城市”的满意程度,组织居民给活动打分(分数为整数.满分为100分).从中随机抽取一个容量为120的样本.发现所有数据均在[40,100]内.现将这些分数分成以下6组并画出了样本的频率分布直方图,但不小心污损了部分图形,如图所示.观察图形,回答下列问题: (1)算出第三组[60,70)的频数,并补全频率分布直方图; (2)请根据频率分布直方图,估计样本的众数、中位数和平均数.(每组数据以区间的中点值为代表) 2.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图. 为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①;y ^ =-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^ =99+17.5t. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.

3.(2020河南郑州高三检测,19)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K2=n(ad-bc)2 (a+b)(c+d)(a+c)(b+d) ,其中n=a+b+c+d.

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案:C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在

抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

数学: 专题十五 统计、统计案例

专题十五 ? ?? 统计、统计案例 [题组全练]

1.(2018·石家庄模拟)某校高一年级有男生560人,女生420人,用分层抽样的方法从该年级全体学生中抽取一个容量为140的样本,则此样本中男生人数为() A.80B.120 C.160 D.240 解析:选A因为男生和女生的比例为560∶420=4∶3,样本容量为140,所以应该 抽取男生的人数为140× 4 4+3 =80,故选A. 2.(2018·南宁模拟)已知某地区中小学生人数和近视情况分别如图甲和图乙所示.为了了解该地区中小学生的近视形成原因,用分层抽样的方法抽取2%的学生进行调查,则样本容量和抽取的高中生近视人数分别为() A.100,20 B.200,20 C.200,10 D.100,10 解析:选B由题图甲可知学生总人数是10 000,样本容量为10 000×2%=200,抽取的高中生人数是2 000×2%=40,由题图乙可知高中生的近视率为50%,所以高中生的近视人数为40×50%=20,故选 B. 3.从30个个体(编号为00~29)中抽取10个样本,现给出某随机数表的第11行到第15行(见下表),如果某人选取第12行的第6列和第7列中的数作为第一个数并且由此数向右读,则选取的前4个的号码分别为() 92644607202139207766381732561640 5858 7766 3170 0500 2593 0545 5370 7814 2889 6628 6757 8231 1589 0062 0047 3815 5131 8186 3709 4521 6665 5325 5383 2702 9055 7196 2172 3207 1114 1384 4359 4488 A.76,63,17,00B.16,00,02,30 C.17,00,02,25 D.17,00,02,07 解析:选D在随机数表中,将处于00~29的号码选出,满足要求的前4个号码为17,00,02,07. 4.(2019届高三.南昌调研)某校高三(2)班现有64名学生,随机编号为0,1,2, (63) 依编号顺序平均分成8组,组号依次为1,2,3,…,8.现用系统抽样方法抽取一个容量为8

高中数学第三章统计案例2独立性检验教学案北师大版选修2_3

§2独立性检验 [对应学生用书P40] 1.2×2列联表 设A ,B 为两个变量,每个变量都可以取两个值,变量A :A 1,A 2=A - 1;变量B :B 1,B 2 =B - 1,用下表表示抽样数据 并将此表称为2.χ2 的计算公式 χ2 = n ad -bc 2a +b c + d a +c b +d . 3.独立性判断的方法 (1)当χ2 ≤2.706时,没有充分的证据判定变量A ,B 有关联,可以认为变量A ,B 是没有关联的; (2)当χ2>2.706时,有90%的把握判定变量A ,B 有关联; (3)当χ2>3.841时,有95%的把握判定变量A ,B 有关联; (4)当χ2>6.635时,有99%的把握判定变量A ,B 有关联. (1)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的统计量,对假设的正确性进行判断. (2)使用χ2统计量作2×2列联表的独立性检验时,一般要求表中的4个数据都大于5,数据越大,越能说明结果的普遍性. [对应学生用书P41]

[例1] 在调查的6名患有色盲,试作出性别与色盲的列联表. [思路点拨] 在2×2列联表中,共有两类变量,每一类变量都有两个不同的取值,然后出相应的数据,列表即可. [精解详析] 根据题目所给的数据作出如下的列联表: [一点通] 1.下面是一个2×2列联表:则表中a ,b 处的值分别为( ) A.32,40 B C .74,82 D .64,72 解析:a =53-21=32,b =a +8=40. 答案:A 2.某学校对高三学生作一项调查后发现:在平时的模拟考试中,性格内向的426名学生中有332名在考前心情紧张,性格外向的594名学生中在考前心情紧张的有213人.试作出2×2列联表. 解:列联表如下:

第一章 统计案例 复习题

第一章 统计案例 复习题 一、选择题 1.下列属于相关现象的是( ) A.利息与利率 B.居民收入与储蓄存款 C.电视机产量与苹果产量 D.某种商品的销售额与销售价格 2.如果有95%的把握说事件A 和B 有关,那么具体算出的数据满足( ) A.2 3.841K > B.2 3.841K < C.2 6.635K > D.2 6.635K < 3.下列变量之间:①人的身高与年龄、产品的成本与生产数量;②商品的销售额与广告费; ③家庭的支出与收入.其中不是函数关系的有( ) A.0个 B.1个 C.2个 D.3个 4.当2 3.841K >时,认为事件A 与事件B ( ) A.有95%的把握有关 B.有99%的把握有关 C.没有理由说它们有关 D.不确定 5.已知回归直线方程 y bx a =+,其中3a =且样本点中心为(1 2),,则回归直线方程为( ) A.3y x =+ B.23y x =-+ C.3y x =-+ D.3y x =- 6.为了考察中学生的性别与是否喜欢数学课程之间的关系,在某校中学生中随机抽取了300名学生,得到如下列联表: 你认为性别与是否喜欢数学课程之间有关系的把握有( ) A.0 B.95% C.99% D.100% 7.在回归直线方程 y a bx =+中,回归系数b 表示( ) A.当0x =时,y 的平均值 B.x 变动一个单位时,y 的实际变动量 C.y 变动一个单位时,x 的平均变动量 D.x 变动一个单位时,y 的平均变动量 8.对于回归分析,下列说法错误的是( ) A.在回归分析中,变量间的关系若是非确定关系,那么因变量不能由自变量唯一确定 B.线性相关系数可以是正的,也可以是负的 C.回归分析中,如果21r =,说明x 与y 之间完全相关 D.样本相关系数(11) r ∈-, 9. 在画两个变量的散点图时,下面哪个叙述是正确的( ) (A)预报变量在x 轴上,解释变量在y 轴上 (B)解释变量在x 轴上,预报变量在y 轴上 (C)可以选择两个变量中任意一个变量在x 轴上(D)选择两个变量中任意一个变量在y 轴上 10、一位母亲记录了儿子3~9岁的身高,由此建立的身高与年龄的回归模型为y=7.19x+73.93用这个模型预测这个孩子10岁时的身高,则正确的叙述是( ) A.身高一定是145.83cm; B.身高在145.83cm 以上; C.身高在145.83cm 以下; D.身高在145.83cm 左右. 11、两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数2R 如下 ,其中拟合效果最好的模型是( ) A.模型1的相关指数2R 为0.98 B.模型2的相关指数2R 为0.80 C.模型3的相关指数2R 为0.50 D.模型4的相关指数2R 为0.25 12、在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( ) A.总偏差平方和 B.残差平方和 C.回归平方和 D.相关指数R 2 13、工人月工资y (元)依劳动生产率x (千元)变化的回归直线方程为?6090y x =+,下列判断正确的是( ) A.劳动生产率为1000元时,工资为50元 B.劳动生产率提高1000元时,工资提高150元 C.劳动生产率提高1000元时,工资提高90元 D.劳动生产率为1000元时,工资d 的90元 14、对分类变量X 与Y 的随机变量2K 的观测值K ,说法正确的是( ) A . k 越大," X 与Y 有关系”可信程度越小; B . k 越小," X 与Y 有关系”可信程度 越小; C . k 越接近于0," X 与Y 无关”程度越小 D . k 越大," X 与Y 无关”程度越大 15、在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )

统计与统计案例(文科)教程文件

统计与统计案例(文科)

统计与统计案例 第一节随机抽样 1.下面的抽样方法是简单随机抽样的是( ) A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖 B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格 C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见 D.用抽签方法从10件产品中选取3件进行质量检验 答案:D 2.总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为( ) 答案:D 3.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为( ) A.50 B.40 C.25 D.20 答案: C 4.某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( ) A.11 B.12 C.13 D.14 答案:B 5.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示. 若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________. 答案:4 6.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,

在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( ) A.90 B.100 C.180 D.300 答案:C 7.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为________. 答案:5 8.某工厂生产甲、乙、丙三种型号的产品,产品数量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=() A.54 B.90 C.45 D.126 答案:B 9.某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人). 个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________. 答案:30 10.甲、乙两套设备生产的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本进行质量检测.若样本中有50件产品由甲设备生产,则乙设备生产的产品总数为________件. 答案:1800 11.某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人数成等差数列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人. 答案:40

相关主题