搜档网
当前位置:搜档网 › 数据分析测试题

数据分析测试题

数据分析测试题
数据分析测试题

数据分析测试题

TYYGROUP system office room 【TYYUA16H-TYY-TYYYUA8Q8-

数据分析测试题

一、选择题(每小题3分,共30分)

1.有19位同学参加歌咏比赛,所得的分数互不相同,取前10位同学进入决赛.某同学知道自己的分数后,要判断自己能否进入决赛,他只需知道这19位同学成绩的()

A.平均数

B.中位数

C.众数

D.方差

2.某特警部队为了选拔“神枪手”,举行了1 000米射击比赛,最后由甲、乙两名战士进入决赛,在相同条件下,两人各射靶10次,经过统计计算,甲、乙两名战士的总成绩都是环,甲的方差是,乙的方差是,则下列说法中,正确的是()

A.甲的成绩比乙的成绩稳定

B.乙的成绩比甲的成绩稳定

C.甲、乙两人成绩的稳定性相同

D.无法确定谁的成绩更稳定

3.对于数据3,3,2,3,6,3,10,3,6,3,2.①这组数据的众数是3;②这组数据的众数与中位数的数值不相等;③这组数据的中位数与平均数的数值相等;④这组数据的平均数与众数的数值相等.其中正确结论的个数为

()

4.综合实践活动中,同学们做泥塑工艺制作.小明将活动组各同学的作品完成情况绘成了下面的条形统计图.根据图表,我们可以知道平均每个学生完成作品()件.

5.某公司员工的月工资如下表:

A. B.

C. D.

6.下列说法中正确的有()

①描述一组数据的平均数只有一个;

②描述一组数据的中位数只有一个;

③描述一组数据的众数只有一个;

④描述一组数据的平均数、中位数和众数都一定是这组数据里的数;

⑤一组数据中的一个数大小发生了变化,一定会影响这组数据的平均数、众数和中位数.

个个个个

7.某同学在本学期的前四次数学测验中得分依次是95,82,76,88,马上要进行第五次测验了,他希望五次成绩的平均分能达到85分,那么这次测验他应得()分.

8.样本方差的计算公式中,数字20和30分别表示样本的()

A.众数、中位数

B.方差、偏差

C.数据个数、平均数

D.数据个数、中位数

9.某同学使用计算器求30个数据的平均数时,错将其中一个数据105输入为15,那么所求出的平均数与实际平均数的差是()

10.某赛季甲、乙两名篮球运动员12场比赛得分情况用图表示如下:

对这两名运动员的成绩进行比较,下列四个结论中,不正确

...的是()

A.甲运动员得分的方差大于乙运动员得分的方差

B.甲运动员得分的中位数大于乙运动员得分的中位数

C.甲运动员得分的平均数大于乙运动员得分的平均数

D.甲运动员的成绩比乙运动员的成绩稳定

二、填空题(每小题3分,共24分)

11.某果园有果树200棵,从中随机抽取5棵,每棵果树的产量如下:(单位:

kg)

98 102 97 103 105

这棵果树的平均产量为 kg,估计这棵果树的总产量为 kg.

12.在航天知识竞赛中,包括甲同学在内的6?名同学的平均分为74分,其中甲

同学考了89分,则除甲以外的5名同学的平均分为_______分.

13.已知一组数据它们的中位数是,则______.

14.有个数由小到大依次排列,其平均数是,如果这组数的前个数的平均数

是,后个数的平均数是,则这个数的中位数是_______.

15.若已知数据的平均数为,则数据的平均数(用含的表达式表示)为_______.

16.某超市招聘收银员一名,对三名应聘者进行了三项素质测试.下面是三名应

聘者的素质测试成绩:

测试成绩

素质测试

小李小张小赵

计算机70 90 65

商品知识50 75 55

语言80 35 80

4,3,2,则这三人中将被录用.

年南京青奥会某项目6名礼仪小姐的身高如下(单位:cm):168,166,168,167,169,168,则她们身高的众数是_____cm.

18.某校八年级甲、乙两班举行电脑汉字输入比赛,两个班参加比赛的学生每分

钟输入汉字的个数经统计和计算后结果如下表:

班级参加人数平均字数中位数方差

甲55 135 149 191

乙55 135 151 110

①甲、乙两班学生的平均水平相同;

②乙班优秀人数比甲班优秀人数多(每分钟输入汉字达150个以上为优秀);

③甲班学生比赛成绩的波动比乙班学生比赛成绩的波动大.

上述结论正确的是___________(填序号).

三、解答题(共46分)

19.(6分)某乡镇企业生产部有技术工人15人,生产部为了合理制定产品的每月生产定额,统计了15人某月的加工零件数如下:

加工零件数/件

540 450 300 240 210 120 人数

1

1

2

6

3

2

(1(2)假如生产部负责人把每位工人的月加工零件数定为260件,你认为这个定额是否合理为什么?

20.(6分)为调查八年级某班学生每天完成家庭作业所需时间,在该班随机抽查了8名学生,他们每天完成作业所需时间(单位:)分别为60,55,75,55,55,43,65,40.

(1)求这组数据的众数、中位数.

(2)求这8名学生每天完成家庭作业的平均时间;如果按照学校要求,学生每天完成家庭作业时间不能超过,问该班学生每天完成家庭作业的平均时间是否符合学校的要求?

21.(6分)某校260名学生参加植树活动,要求每人植4~7棵,活动结束后随机抽查了20名学生每人的植树量,并分为四种类型,A :4棵;B :5棵;C :6棵;D :7棵.将各类型的人数绘制成扇形统计图(如图①)和条形统计图(如图②),经确认扇形统计图是正确的,而条形统计图尚有一处错误. 回答下列问题:

(1)写出条形统计图中存在的错误,并说明理由. (2)写出这20名学生每人植树量的众数、中位数.

(3)在求这20名学生每人植树量的平均数时,小宇是这样分析的:

第一步:求平均数的公式是12n

x x x x n

++

+=

第二步:在该问题中,n =4,x 1=4,x 2=5,x 3=6,x 4=7; 第三步:4567

554

x .+++=

=(棵).

②请你帮他计算出正确的平均数,并估计这260名学生共植树多少棵

22.(7分)某校在一次数学检测中,八年级甲、乙两班学生的数学成绩统计如下表:

分数50 60 70 80 90 100

人数甲班 1 6 12 11 15 5 乙班 3 5 15 3 13 11

请根据表中提供的信息回答下列问题:

(1)甲班的众数是多少分,乙班的众数是多少分,从众数看成绩较好的是哪个班

(2)甲班的中位数是多少分,乙班的中位数是多少分,甲班成绩在中位数以上(包括中位数)的学生所占的百分比是多少,乙班成绩在中位数以上(包括中位数)的学生所占的百分比是多少,从中位数看成绩较好的是哪个班

(3)甲班的平均成绩是多少分,乙班的平均成绩是多少分,从平均成绩看成绩较好的是哪个班

23.(7分)某单位欲从内部招聘管理人员一名,对甲、乙、丙三名候选人进行了笔试和面试两项测试,三人的测试成绩如下表所示:

测试项目

测试成绩(分)

甲乙丙

笔试75 80 90

面试93 70 68

进行民主评议,三人得票率(没有弃权票,每位职工只能推

荐1人)如图所示,每得一票记作1分.

(1)请算出三人的民主评议得分.

(2)如果根据三项测试的平均成绩确定录用人选,那么谁将被录用

(精确到)

(3)根据实际需要,单位将笔试、面试、民主评议三项测试得分按的比例确定个人成绩,那么谁将被录用?

24.(7分)我们约定:如果身高在选定标准的±2%范围之内都称为“普通身

高”.为了解某校九年级男生中具有“普通身高”的人数,我们从该校九年级男生中随机选出10名男生,分别测量出他们的身高(单位:cm)收集

(1)计算这组数据的三个统计量:平均数、中位数和众数;

(2)请你选择一个统计量作为选定标准,找出这10名具有“普通身高”的是哪几位男生

并说明理由;

(3)若该年级共有280名男生,按(2)中选定标准,请你估算出该年级男生中“普通身高”

的人数约有多少名?

25.(7分)某校八年级学生开展踢毽子比赛活动,每班派5名学生参加,按团体总分多少排列名次,在规定时间内每人踢100个以上(含100)为优秀.下表是成绩最好的甲班和乙班5名学生的比赛数据(单位:个):

作为参考.

请你回答下列问题:

(1)计算两班的优秀率.

(2)求两班比赛成绩的中位数.

(3)估计两班比赛数据的方差哪一个小.

(4)根据以上三条信息,你认为应该把冠军奖杯发给哪一个班级?简述你的理由.

九年级数学数据分析专题检测试卷参考答案

解析:19位同学参加歌咏比赛,所得的分数互不相同,取前10位同学进入决赛,中位数就是第10位同学的成绩,因而要判断自己能否进入决赛,他只需知道这19位同学成绩的中位数就可以.故选B .

解析:本题考查了方差的意义,方差越小,数据越稳定.在甲、乙两名战士总成绩相同的条件下,∵ >,∴ 乙的成绩比甲的成绩稳定.

解析:将这组数据从小到大排列为:2,2,3,3,3,3,3,3,6,6,10,共11个数,所以第6个数据是中位数,即中位数为3.因为数据3的个数为6,所以众数为3.平均数为,由此可知①正确,②③④均错误,故选A. 解析:

625.862412610

692481276=+++?+?+?+?.

解析:元出现了次,出现的次数最多,所以这组数据的众数为元;将这 组数据按从大到小的顺序排列,中间的(第5个)数是元,即其中位数为元;

,即平均数为2 200元.

解析:一组数据的中位数和平均数只有一个,但出现次数最多的数即众数,可以有

多个,所以①②对,③错;

由于一组数据的平均数是取各数的平均值,中位数是将原数据按由小到大顺序排列后,进行计算得来的,所以平均数与中位数不一定是原数据里的数,故④错;

一组数据中的一个数大小发生了变化,它的平均数一定发生变化,众数、中位数可能发生

改变,也可能不发生改变,所以⑤错.

解析:利用求平均数的公式解决.设第五次测验得分,则

5

88768295x ++++, 解得.

解析:设其他29个数据的和为,则实际的平均数为,而所求出的平均数为,故.

11. 解析:抽取的5棵果树的平均产量为; 估计这棵果树的总产量为. 解析:

13. 解析:将除外的五个数从小到大重新排列后为中间的数是,由于中位数是,所以应在20和23中间,且

212

20=+x

,解得. 14. 解析:设中间的一个数即中位数为,则,所以中位数为. 15. 解析:设的平均数为,则

31)(21)(21)(2321+++++x x x 13

233)2(321321+++?=+++=x

x x x x x .

又因为3

321x x x ++=x ,于是y . 16.小张 解析:∵ 小李的成绩是:

9

5

65234280350470=++?+?+?,

小张的成绩是:97

72234235375490=++?+?+?,

小赵的成绩是:652

342

80355465=++?+?+?,

∴ 小张将被录用.

解析:众数是在一组数据中,出现次数最多的数据,这组数据中168出现了3次,出现的次数最多,故这组数据的众数为168.

18. ①②③ 解析:由于乙班学生每分钟输入汉字的中位数为151,说明有一半以上的学生都达到每分钟150个及以上,而甲班学生的中位数为149,说明不到一半的学生达到150个及以上,说明乙班优秀人数比甲班优秀人数多,故②正确;由平均数和方差的意义可知①③也正确. 19.解:(1)平均数:

5404503002240621031202

26015++?+?+?+?=(件);

中位数:240件,众数:240件.

(2)不合理,因为表中数据显示,每月能完成件以上的一共是4人,还有11人不能达到此定额,尽管是平均数,但不利于调动多数员工的积极性.因为既是中位数,又是众数,是大多数人能达到的定额,故定额为件较为合理.

20.解:(1)在这8个数据中,55出现了3次,出现的次数最多,即这组数据的众数是55;将这8个数据按从小到大的顺序排列为40,43,55,55,55,60,65,75,其中最中间的两个数据都是55,即这组数据的中位数是55. (2)这8个数据的平均数是,

所以这8名学生完成家庭作业的平均时间为.

因为,所以估计该班学生每天完成家庭作业的平均时间符合学校的要求. 21.分析:(1)A 类型人数为20×20%=4,B 类型人数为20×40%=8,C 类型人数为20×30%=6,D 类型人数为20×10%=2,所以条形统计图中D 类型数据有错.(2)这20个数据中,有4个4,8个5,6个6,2个7,所以每人植树量的众数是5棵,中位数是5棵.(3)小宇的分析是从第一步出现错误的,公式不正确,应该使用44586672

20

x ?+?+?+?=

计算出正确的平均数.把这个平均

数乘260可以估计这260名学生共植树的棵数. 解:(1)D 有错. 理由:10%×20=2≠3. (2)众数为5棵. 中位数为5棵. (3)①第一步. ②44586672

20

x ?+?+?+?=

=(棵).

估计这260名学生共植树:×260=1 378(棵).

点拨:(1)众数是一组数据中出现次数最多的数据.(2)求一组数据的中位数时,一定要先把这组数据按照大小顺序排列.(3)在求一组数据的平均数时,如果各个数据都重复出现若干次,应选用加权平均数公式

112212(=)k k

k x w x w x w x n w w w n

++

+=

+++求出平均数.

22.解:(1)甲班中分出现的次数最多,故甲班的众数是分; 乙班中分出现的次数最多,故乙班的众数是分. 从众数看,甲班成绩好.

(2)两个班都是人,甲班中的第名的分数都是分,故甲班的中位数是分; 乙班中的第名的分数都是分,故乙班的中位数是分.

甲班成绩在中位数以上(包括中位数)的学生所占的百分比为 ;

乙班成绩在中位数以上(包括中位数)的学生所占的百分比为 .

从中位数看,成绩较好的是甲班. (3)甲班的平均成绩为 ;

乙班的平均成绩为 .

从平均成绩看,成绩较好的是乙班.

23.分析:通过阅读表格获取信息,再根据题目要求进行平均数与加权平均数的计算.

解:(1)甲、乙、丙的民主评议得分分别为:50分、80分、70分. (2)甲的平均成绩为:75935021872.673

3

++=≈(分),

乙的平均成绩为:80708023076.673

3

++=≈(分),

丙的平均成绩为:90687022876.003

3

++==(分).

由于76.677672.67>>,所以乙将被录用.

(3)如果将笔试、面试、民主评议三项测试得分按的比例确定个人成绩,那么

甲的个人成绩为:

472.9433

?75+3?93+3?50

=++(分),

乙的个人成绩为:477433

?80+3?70+3?80

=++(分),

丙的个人成绩为:477.4433

?90+3?68+3?70=++(分),

由于丙的个人成绩最高,所以丙将被录用. 24.解:(1)平均数为

()163171173159161174164166169164

166.4cm 10

+++++++++=,

中位数为166164

165cm 2

+=(),

众数为164cm ().

(2)选平均数作为标准: 身高x 满足166.412%166.412%x ?-?+()≤≤()

,即163.072169.728x ≤≤时为“普通身高”,此时⑦、⑧、⑨、⑩男生的身高为“普通身高”.

(3)以平均数作为标准,估计全年级男生中“普通身高”的人数约为

428011210

?

=. 25.解:(1)甲班的优秀率:

5

2, 乙班的优秀率:5

3

.(2)甲班5名学生比赛成绩的中位数是97个;

乙班5名学生比赛成绩的中位数是100个. (3)甲班的平均数=1005

97

+118+96+100+89=(个),

甲班的方差 ;

乙班的平均数=1005

104

+91+110+95+100=(个),

乙班的方差 .

∴ .即乙班比赛数据的方差小.

(4)冠军奖杯应发给乙班.因为乙班5名学生的比赛成绩的优秀率比甲班高,中位数比甲班大,方差比甲班小,综合评定乙班踢毽子水平较好.

【分析】数据的分析单元测试题含答案供参考

【关键字】分析 第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是() A.50 B..48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,.8.5,8 D.8.5,9 5.为鼓励市民珍惜每一滴水,某居委会表扬了100个节约用水模范户,8月份节约用水的情况如下表: 那么,8月份这100() A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8.甲、乙两班举行电脑汉字输入速度比赛,?参赛学生每分钟输入汉字的个数经统计计算后结果如下表: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小

《数据分析》练习题

《数据分析》练习题 1.一个地区某月前两周从星期一到星期五各天的最低气温依次是(单位:℃):x 1, x 2, x 3, x 4, x 5和x 1+1, x 2+2, x 3+3, x 4+4, x 5+5,若第一周这五天的平均最低气温为7℃,则第二周这五天的平均最低气温为 。 2.有10个数据的平均数为12,另有20个数据的平均数为15,那么所有这30个数据的平均数是( ) A .12 B. 15 C. 1 3.5 D. 14 3.一组数据8,8,x ,6的众数与平均数相同,那么这组数据的中位数是 ( ) A. 6 B. 8 C.7 D. 10 4.某校在一次考试中,甲乙两班学生的数学成绩统计如下: 请根据表格提供的信息回答下列问题: (1)甲班众数为 分,乙班众数为 分,从众数看成绩较好的是 班; (2)甲班的中位数是 分,乙班的中位数是 分; (3)若成绩在80分以上为优秀,则成绩较好的是 班;、 (4)甲班的平均成绩是 分,乙班的平均成绩是 分,从平均分看成绩较好的是 班. 5.在方差的计算公式 ()()()222 21210120202010 s x x x ??= -+-+???+-??中, 数字10和20分别表示的意义可以是( ) A .数据的个数和方差 B .平均数和数据的个数 C .数据的个数和平均数 D .数据组的方差和平均数 6..如果将所给定的数据组中的每个数都减去一个非零常数,那么该数组的 ( ) A.平均数改变,方差不变 B.平均数改变,方差改变 C.平均输不变,方差改变 D.平均数不变,方差不变 7..已知7,4,3,,321x x x 的平均数是6,则_____________321=++x x x . 8..已知一组数据-3,-2,1,3,6,x 的中位数为1,则其方差为 . 9..已知一组数据x 1,x 2,x 3,x 4,x 5的平均数是2,方差是 3 1 ,那么另一组数据3x 1-2,3x 2-2,3x 3-2, 3x 4-2,3x 5-2的平均数是和方差分别是 . 10..关于一组数据的平均数、中位数、众数,下列说法中正确的是( ) A.平均数一定是这组数中的某个数 B. 中位数一定是这组数中的某个数 C.众数一定是这组数中的某个数 D.以上说法都不对 分数 50 60 70 80 90 100 人数 甲 1 6 12 11 15 5 乙 3 5 15 3 13 11

数据分析基础测试题含答案

数据分析基础测试题含答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.甲、乙、丙三个不同品种的苹果树在同一地区进行对比试验,从每个品种的苹果树中随机各抽取10棵,对它们的产量进行统计,绘制统计表如下: 品种甲乙丙 平均产量/(千克/棵)9090 方差10.224.88.5 若从这三个品种中选择一个在该地区推广,则应选择的品种是() A.甲B.乙C.丙D.甲、乙中任选一个【答案】A 【解析】 【分析】 根据平均数、方差等数据的进行判断即可. 【详解】 根据平均数、方差等数据的比较可以得出甲品种更适在该地区推广. 故选:A 【点睛】 本题考查了平均数、方差,掌握平均数、方差的定义是解题的关键. 3.某射击俱乐部将11名成员在某次射击训练中取得的成绩制成如图所示的条形统计图,由图可知,11名成员射击成绩的众数和中位数分别是()

A.8,9 B.8,8 C.8,10 D.9,8 【答案】B 【解析】 分析:中位数,因图中是按从小到大的顺序排列的,所以只要找出最中间的一个数(或最中间的两个数)即可,本题是最中间的那个数;对于众数可由条形统计图中出现频数最大或条形最高的数据写出. 详解:由条形统计图知8环的人数最多, 所以众数为8环, 由于共有11个数据, 所以中位数为第6个数据,即中位数为8环, 故选B. 点睛:本题主要考查了确定一组数据的中位数和众数的能力.注意找中位数的时候一定要先排好顺序,然后再根据奇数和偶数个来确定中位数,如果数据有奇数个,则正中间的数字即为所求.如果是偶数个,则找中间两个数的平均数. 4.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

数据分析期末试题及答案

数据分析期末试题及答案 一、人口现状.sav数据中是1992年亚洲各国家和地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)的数据,试用多元回归分析的方法分析各国家和地区平均寿命与人均GDP、成人识字率、一岁儿童疫苗接种率的关系。(25分) 解: 1.通过分别绘制地区平均寿命(y)、按购买力计算的人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间散点图初步分析他们之间的关系 上图是以人均GDP(x1)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系。尝试多种模型后采用曲线估计,得出 表示地区平均寿命(y)与人均GDP(x1)的对数有线性关系

上图是以成人识字率(x2)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间基本呈正线性关系。 上图是以疫苗接种率(x3)为横轴,地区平均寿命(y)为纵轴的散点图,由图可知,他们之间没有呈线性关系 。 x)为横轴,地区平均寿命(y)为纵轴的散点图,上图是以疫苗接种率(x3)的三次方(3 3 由图可知,他们之间呈正线性关系 所以可以采用如下的线性回归方法分析。

2.线性回归 先用强行进入的方式建立如下线性方程 设Y=β0+β1*(Xi1)+β2*Xi2+β3* X+εi i=1.2 (24) 3i 其中εi(i=1.2……22)相互独立,都服从正态分布N(0,σ^2)且假设其等于方差 R值为0.952,大于0.8,表示两变量间有较强的线性关系。且表示平均寿命(y)的95.2%的信息能由人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)一起表示出来。 建立总体性的假设检验 提出假设检验H0:β1=β2=β3=0,H1,:其中至少有一个非零 得如下方差分析表 上表是方差分析SAS输出结果。由表知,采用的是F分布,F=58.190,对应的检验概率P值是0.000.,小于显著性水平0.05,拒绝原假设,表示总体性假设检验通过了,平均寿命(y)与人均GDP(x1)、成人识字率(x2),一岁儿童疫苗接种率(x3)之间有高度显著的的线性回归关系。

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答案解析)

深圳市高级中学二年级数学下册第一单元《数据收集整理》单元测试题(含答 案解析) 一、选择题 1.李兵和王芳做“石头、剪刀、布”的游戏。下面是李兵画“正”字记录的自己游戏的结果。那么王芳赢了()次。 A. 14 B. 6 C. 8 2.下面是三(1)班男生1分钟跳绳测试的成绩统计图。男生达标成绩是110个,达标的人数是()人。 A. 25 B. 20 C. 18 3.选一选 种类连环画故事书科技书其他 人数(人)181284 A.连环画 B.故事书 C.科技书 D.其他 (2)喜欢()的人数最少。 A.连环画 B.故事书 C.科技书 D.其他 (3)喜欢故事书的比喜欢连环画的少()人。 A.10 B.6 C.4 D.8 (4)喜欢连环画的和喜欢科技书的一共()人。 A.30 B.20

C.26 D.12 4.心心幼儿园新进了一批玩具。 玩具 个数(个)812610 心心幼儿园新进的玩具一共有()个。 A. 20 B. 36 C. 18 D. 26 5.某班24名男生参加50米跑测试成绩如下图: 从上图中可以看出,得()的人最多。 A. 优秀 B. 良好 C. 合格 D. 不合格6.学校有8个班参加了回收废报纸活动。第一天回收废报纸43千克;第二天回收废报纸38千克;第三天回收废报纸39千克。平均每天回收废报纸()千克。 A. 39 B. 40 C. 41 D. 42 7.要反映长沙市一周内每天的最高气温的数据情况,宜采用()。 A. 条形统计图 B. 扇形统计图 C. 统计表 D. 频数分布直方图 8.下图中三角形有几个?() A. 5个 B. 3个 C. 4个 9.2012年伦敦奥运会金牌情况统计表。 国家中国英国美国巴西 数量(块)38294612 A. 中国 B. 英国 C. 美国 D. 巴西10.喜欢( )小组的人数最少。

最新初中数学数据分析经典测试题附答案

最新初中数学数据分析经典测试题附答案 一、选择题 1.已知一组数据a,b,c的平均数为5,方差为4,那么数据a﹣2,b﹣2,c﹣2的平均数和方差分别是.() A.3,2 B.3,4 C.5,2 D.5,4 【答案】B 【解析】 试题分析:平均数为(a?2 + b?2 + c?2 )=(3×5-6)=3;原来的方差: ;新的方差: ,故选 B. 考点:平均数;方差. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4, ∴a-2,b-2,c-2的方差=1 3 [(a-2-3)2+(b-2-3)2+(c--2-3)2] = 1 3 [(a-5)2+(b-5)2+(c-5)2]=4, 故选B.【点睛】

本题考查了平均数、方差,熟练掌握平均数以及方差的计算公式是解题的关键. 3.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 4.2022年将在北京﹣﹣张家口举办冬季奥运会,很多学校为此开设了相关的课程,下表记录了某校4名同学短道速滑成绩的平均数x和方差S2,根据表中数据,要选一名成绩好又发挥稳定的运动员参加比赛,应选择() A.队员1 B.队员2 C.队员3 D.队员4 【答案】B 【解析】 【分析】 根据方差的意义先比较出4名同学短道速滑成绩的稳定性,再根据平均数的意义即可求出答案.

2020-2021八年级数学数据的分析单元测试题

一、选择题(每小题4分,共36分) 1、为了解我校八年级800名学生期中数学考试情况,从中抽取了200名学生的数学成绩进行统计.下列判断:①这种调查方式是抽样调查;②800名学生是总体;③每名学生的期中考试数学成绩是个体;④200名学生是总体的一个样本;⑤200名学生是样本容量.其中正确的判断有 ( ) A.1个 B.2个 C.3个 D.4个 2、人数相同的八年级甲、乙两班学生在同一次数学单元测试,班级平均分和方差如下:80==乙甲x x ,2402=甲 s ,1802=乙s ,则成绩较为稳定的班级是( ) A.甲班 B.乙班 C.两班成绩一样稳定 D.无法确定 3 这组数据的中位数和众数别是( ) A.24,25 B.24.5,25 C.25,24 D.23.5,24 4、在学校对学生进行的晨检体温测量中,学生甲连续10天的体温与36℃的上下波动数据为0.2,0.3,0.1,0.1,0,0.2,0.1,0.1,0, 0.1,则在这10天中该学生的体温波动数据中不正确的是( )

A.平均数为0.12 B.众数为0.1 C.中位数为 0.1 D. 方差为0.02 5、甲、乙、丙、丁四人的数学测验成绩分别为90分、90 分、x分、80分,若这组数据的众数与平均数恰好相等,则这组数据的中位数是() A.100分 B.95分 C.90分 D.85分 6、已知三年四班全班35人身高的算术平均数与中位数都是 150厘米,但后来发现其中有一位同学的身高登记错误,误将160厘米写成166厘米,正确的平均数为a厘米,中位数为b厘米关于平均数a的叙述,下列何者正确() A.大于158 B.小于158 C.等于158 D.无法确定 7、在上题中关于中位数b的叙述。下列何者正确() A.大于158 B.小于158 C.等于158 D.无法确定 8、已知一组数据1、2、y的平均数为4,那么() A.y=7 B.y=8 C.y=9 D.y=10 9、若一组数据a1,a2,…,a n的方差是5,则一组新数据2a1,2a2,…,2a n的方差是() A.5 B.10 C.20 D.50 二、填空题(每空3分,共45分) 10、数学期末总评成绩由作业分数,课堂参与分数,期考 分数三部分组成,并按3:3:4的比例确定。已知小明的期考80分,作业90分,课堂参与85分,则他的总评成绩为________

数据分析笔试题

数据分析笔试题 一、编程题(每小题20分)(四道题任意选择其中三道) 有一个计费表表名jifei 字段如下:phone(8位的电话号码),month(月份),expenses (月消费,费用为0表明该月没有产生费用) 下面是该表的一条记录:64262631,201011,30.6 这条记录的含义就是64262631的号码在2010年11月份产生了30.6元的话费。 按照要求写出满足下列条件的sql语句: 1、查找2010年6、7、8月有话费产生但9、10月没有使用并(6、7、8月话费均在51-100 元之间的用户。 2、查找2010年以来(截止到10月31日)所有后四位尾数符合AABB或者ABAB或者AAAA 的电话号码。(A、B 分别代表1—9中任意的一个数字) 3、删除jifei表中所有10月份出现的两条相同记录中的其中一条记录。

4、查询所有9月份、10月份月均使用金额在30元以上的用户号码(结果不能出现重复) 二、逻辑思维题(每小题10分)须写出简要计算过程和结果。 1、某人卖掉了两张面值为60元的电话卡,均是60元的价格成交的。其中一张赚了20%, 另一张赔了20%,问他总体是盈利还是亏损,盈/亏多少? 2、有个农场主雇了两个小工为他种小麦,其中A是一个耕地能手,但不擅长播种;而B 耕地很不熟练,但却是播种的能手。农场主决定种10亩地的小麦,让他俩各包一半,于是A从东头开始耕地,B从西头开始耕。A耕地一亩用20分钟,B却用40分钟,可是B播种的速度却比A快3倍。耕播结束后,庄园主根据他们的工作量给了他俩600元工钱。他俩怎样分才合理呢? 3、1 11 21 1211 111221 下一行是什么? 4、烧一根不均匀的绳,从头烧到尾总共需要1个小时。现在有若干条材质相同的绳子,问如何用烧绳的方法来计时一个小时十五分钟呢?(绳子分别为A 、B、C、D、E、F 。。。。。来代替)

数据分析专项训练及解析答案

数据分析专项训练及解析答案 一、选择题 1.分析题中数据,将15名运动员的成绩按从小到大的顺序依次排列,处在中间位置的一个数即为运动员跳高成绩的中位数; 2.对于一组统计数据:1,1,4,1,3,下列说法中错误的是() A.中位数是1 B.众数是1 C.平均数是1.5 D.方差是1.6 【答案】C 【解析】 【分析】 将数据从小到大排列,再根据中位数、众数、平均数及方差的定义依次计算可得答案.【详解】 解:将数据重新排列为:1、1、1、3、4, 则这组数据的中位数1,A选项正确; 众数是1,B选项正确; 平均数为11134 5 ++++ =2,C选项错误; 方差为1 5 ×[(1﹣2)2×3+(3﹣2)2+(4﹣2)2]=1.6,D选项正确; 故选:C. 【点睛】 本题主要考查中位数、众数、平均数及方差,解题的关键是掌握中位数、众数、平均数及方差的定义与计算公式. 3.有甲、乙两种糖果,原价分别为每千克a元和b元.根据调查,将两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,取得了较好的销售效果.现在糖果价格有了调整:甲种糖果单价下降15%,乙种糖果单价上涨20%,但按原比例混合的糖果单价恰好不 变,则x y 等于() A.3 4 a b B. 4 3 a b C. 3 4 b a D. 4 3 b a 【答案】D 【解析】 【分析】 根据已知条件表示出价格变化前后两种糖果的平均价格,进而得出等式求出即可.【详解】 解:∵甲、乙两种糖果,原价分别为每千克a元和b元, 两种糖果按甲种糖果x千克与乙种糖果y千克的比例混合,

∴两种糖果的平均价格为:ax by x y + + , ∵甲种糖果单价下降15%,乙种糖果单价上涨20%, ∴两种糖果的平均价格为: 1520 (1)(1) 100100 a x b y x y -?++ + , ∵按原比例混合的糖果单价恰好不变, ∴ax by x y + + = 1520 (1)(1) 100100 a x b y x y -?++ + , 整理,得15ax=20by ∴ 4 3 x b y a =, 故选:D. 【点睛】 本题考查了加权平均数,解决本题的关键是表示出价格变化前后两种糖果的平均价格.4.某青年排球队12名队员的年龄情况如下: 则12名队员的年龄() A.众数是20岁,中位数是19岁B.众数是19岁,中位数是19岁 C.众数是19岁,中位数是20.5岁D.众数是19岁,中位数是20岁 【答案】D 【解析】 【分析】 中位数是指将统计总体当中的各个变量值按大小顺序排列起来,形成一个数列,处于变量数列中间位置的变量值就称为中位数;众数是指在统计分布上具有明显集中趋势点的数值,代表数据的一般水平(众数可以不存在或多于一个). 【详解】 解:在这一组数据中19岁是出现次数最多的,故众数是19岁;将这组数据从小到大的顺序排列后,处于中间位置的数是20岁,那么由中位数的定义可知,这组数据中的中位数是20岁.故选:D. 【点睛】 理解中位数和众数的定义是解题的关键.

数据分析经典测试题含答案解析

数据分析经典测试题含答案解析 一、选择题 1.某校九年级数学模拟测试中,六名学生的数学成绩如下表所示,下列关于这组数据描述正确的是() A.众数是110 B.方差是16 C.平均数是109.5 D.中位数是109 【答案】A 【解析】 【分析】 根据众数、中位数的概念求出众数和中位数,根据平均数和方差的计算公式求出平均数和方差. 【详解】 解:这组数据的众数是110,A正确; 1 6 x=×(110+106+109+111+108+110)=109,C错误; 21 S 6 = [(110﹣109)2+(106﹣109)2+(109﹣109)2+(111﹣109)2+(108﹣109)2+ (110﹣109)2]=8 3 ,B错误; 中位数是109.5,D错误; 故选A. 【点睛】 本题考查的是众数、平均数、方差、中位数,掌握它们的概念和计算公式是解题的关键. 2.一组数据2,x,6,3,3,5的众数是3和5,则这组数据的中位数是() A.3 B.4 C.5 D.6 【答案】B 【解析】 【分析】 由众数的定义求出x=5,再根据中位数的定义即可解答. 【详解】 解:∵数据2,x,3,3,5的众数是3和5, ∴x=5,

则数据为2、3、3、5、5、6,这组数据为35 2 =4. 故答案为B. 【点睛】 本题主要考查众数和中位数,根据题意确定x的值以及求中位数的方法是解答本题的关键. 3.如图,是根据九年级某班50名同学一周的锻炼情况绘制的条形统计图,下面关于该班50名同学一周锻炼时间的说法错误的是() A.平均数是6 B.中位数是6.5 C.众数是7 D.平均每周锻炼超过6小时的人数占该班人数的一半 【答案】A 【解析】 【分析】 根据中位数、众数和平均数的概念分别求得这组数据的中位数、众数和平均数,由图可知锻炼时间超过6小时的有20+5=25人.即可判断四个选项的正确与否. 【详解】 A、平均数为1 50 ×(5×7+18×6+20×7+5×8)=6.46,故本选项错误,符合题意; B、∵一共有50个数据, ∴按从小到大排列,第25,26个数据的平均值是中位数, ∴中位数是6.5,故此选项正确,不合题意; C、因为7出现了20次,出现的次数最多,所以众数为:7,故此选项正确,不合题意; D、由图可知锻炼时间超过6小时的有20+5=25人,故平均每周锻炼超过6小时的人占总数的一半,故此选项正确,不合题意; 故选A. 【点睛】 此题考查了中位数、众数和平均数的概念等知识,中位数是将一组数据从小到大(或从大到小)重新排列后,最中间的那个数(最中间两个数的平均数),叫做这组数据的中位数,如果中位数的概念掌握得不好,不把数据按要求重新排列,就会错误地将这组数据最中间的那个数当作中位数.

20、第二十章《数据的分析》单元测试题(含答案)-

第二十章《数据的分析》单元测试题 一、选择题) 1.为了了解参加某运动会的200名运动员的年龄情况,从中抽查了20名运动员的年龄,就这个问题来说,下面说法正确的是() A.200名运动员是总体B.每个运动员是总体 C.20名运动员是所抽取的一个样本D.样本容量是20 2.一城市准备选购一千株高度大约为2m的某种风景树来进行街道绿化,?有四个苗圃生产基地投标(单株树的价格都一样).?采购小组从四个苗圃中都任意抽查了20株树苗的高度,得到的数据如下: 请你帮采购小组出谋划策,应选购() A.甲苗圃的树苗B.乙苗圃的树苗; C.丙苗圃的树苗D.丁苗圃的树苗 3.将一组数据中的每一个数减去50后,所得新的一组数据的平均数是2,?则原来那组数据的平均数是()A.50 B.52 C.48 D.2 4.一个射手连续射靶22次,其中3次射中10环,7次射中9环,9次射中8环,3次射中7环.则射中环数的中位数和众数分别为() A.8,9 B.8,8 C.8.5,8 D.8.5,9 5 那么,8月份这100 A.1.5t B.1.20t C.1.05t D.1t 6.已知一组数据-2,-2,3,-2,-x,-1的平均数是-0.5,?那么这组数据的众数与中位数分别是() A.-2和3 B.-2和0.5 C.-2和-1 D.-2和-1.5 7.方差为2的是() A.1,2,3,4,5 B.0,1,2,3,5 C.2,2,2,2,2 D.2,2,2,3,3 8 某同学根据上表分析得出如下结论: (1)甲、乙两班学生成绩的平均水平相同; (2)乙班优秀的人数多于甲班优秀的人数;(每分钟输入汉字≥150个为优秀) (3)甲班成绩的波动情况比乙班成绩的波动小 上述结论中正确的是() A.(1)(2)(3)B.(1)(2)C.(1)(3)D.(2)(3) 9.某校把学生的纸笔测试、实践能力、成长纪录三项成绩分别按50%、20%?、?30%的比例计入学期总评成绩,90分以上为优秀.甲、乙、?丙三人的各项成绩如下表(单位:分),学期总评成绩优秀的是()

2016年数据分析面试常见问题

1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是:

第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N)+ N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树/hash_map 等),并取出出现频率最大的100个词(可以用含100个结点的最小堆),并把100个词及相应的频率存入文件,这样又得到了5000个文件。下一步就是把这5000个文件进行归并(类似与归并排序)的过程了。 4、有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个

(专题精选)初中数学数据分析真题汇编及答案

(专题精选)初中数学数据分析真题汇编及答案 一、选择题 1.校团委组织开展“医助武汉捐款”活动,小慧所在的九年级(1)班共40名同学进行了捐款,已知该班同学捐款的平均金额为10元,二小慧捐款11元,下列说法错误的是( ) A.10元是该班同学捐款金额的平均水平B.班上比小慧捐款金额多的人数可能超过20人 C.班上捐款金额的中位数一定是10元D.班上捐款金额数据的众数不一定是10元【答案】C 【解析】 【分析】 根据平均数,中位数及众数的定义依次判断. 【详解】 ∵该班同学捐款的平均金额为10元, ∴10元是该班同学捐款金额的平均水平,故A正确; ∵九年级(1)班共40名同学进行了捐款,捐款的平均金额为10元, ∴班上比小慧捐款金额多的人数可能超过20人,故B正确; 班上捐款金额的中位数不一定是10元,故C错误; 班上捐款金额数据的众数不一定是10元,故D正确, 故选:C. 【点睛】 此题考查数据统计中的平均数,中位数及众数的定义,正确理解定义是解题的关键. 2.已知一组数据a、b、c的平均数为5,方差为4,那么数据a+2、b+2、c+2的平均数和方差分别为() A.7,6 B.7,4 C.5,4 D.以上都不对 【答案】B 【解析】 【分析】 根据数据a,b,c的平均数为5可知a+b+c=5×3,据此可得出1 3 (-2+b-2+c-2)的值;再由 方差为4可得出数据a-2,b-2,c-2的方差. 【详解】 解:∵数据a,b,c的平均数为5,∴a+b+c=5×3=15, ∴1 3 (a-2+b-2+c-2)=3, ∴数据a-2,b-2,c-2的平均数是3;∵数据a,b,c的方差为4, ∴1 3 [(a-5)2+(b-5)2+(c-5)2]=4,

电子商务数据分析试卷及答案3

《电子商务数据分析》试卷 班级: _______________ 姓名:_______________________ 一、填空题(共10 题,每题 1 分。) 1.单击生意参谋上方导航栏中的“ __________ ”超链接可进入实时直播版块,此功能会将店铺的实时数据、来源、榜单、访客等数据进行汇总显示。 2.要选定相邻的多张工作表,先单击所需的第一张工作表的标签,并按住____________ 键不放,然后单击要选定的最后一张工作表的标签即可。 3.选择单元格区域,录入相应的数据后,按_____________________ 键可将选择的每个单元格中录入相同数据。 4.进入生意参谋后,单击顶部导航栏中的“ ___________ ”版块即可配置竞争对手,并对竞店、竞品和竞争品牌进行分析。 5 .提高转化率是提高销售额最有效的途径,计算公式为: 6.外链出现的方式有直接链接和__________ 两种。 7.若要输入分数,则应在前面加上_____________________ 。 8.筛选是一种用于查找符合条件的数据的快速方法,Excel中有 ________ 和___________ 两种方法。 9. _____________ 是指利用各种电商平台和工具对数据的分析功能,直接观察出数据的发 展趋势,找出异常数据,对消费者进行分群等。 10.行业稳定性涉及 ________ 和极差两个指标。 二、单项选择题(共10 题,每题 1 分。) 1.用于收集市场信息并进行整理与分析,提出可行的市场推广方案,再跟据收集到的信息进行市场推广活动的效果评估,做好市场推广预算,控制活动成本,完善市场推广方案的数据分析岗位是()。 A.推广类岗位 B.客服类岗位 C.采编类岗位 D.美工类岗位 2.在Excel 中,已知某单元格的格式为000.00,值为23.785,则显示的内容为()。A.23.78 B.23.79 C.23.785 D.023.79 3.采用()定价策略可能会带来价格竞争。 A.基于成本的定价

最新数据分析师常见的7道笔试题目及答案

数据分析师常见的7道笔试题目及答案 导读:探索性数据分析侧重于在数据之中发现新的特征,而验证性数据分析则侧重于已有假设的证实或证伪。以下是由小编J.L为您整理推荐的实用的应聘笔试题目和经验,欢迎参考阅读。 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法,比如模1000,把整个大文件映射为1000个小文件,再找出每个小文中出现频率最大的IP(可以采用 hash_map进行频率统计,然后再找出频率最大的几个)及相应的频率。然后再在这1000 个最大的IP中,找出那个频率最大的IP,即为所求。 或者如下阐述: 算法思想:分而治之+Hash 1.IP地址最多有2^32=4G种取值情况,所以不能完全加载到内存中处理; 2.可以考虑采用“分而治之”的思想,按照IP地址的Hash(IP)24值,把海量IP日志分别存储到1024个小文件中。这样,每个小文件最多包含4MB个IP地址; 3.对于每一个小文件,可以构建一个IP为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个IP地址; 4.可以得到1024个小文件中的出现次数最多的IP,再依据常规的排序算法得到总体上出现次数最多的IP; 2、搜索引擎会通过日志文件把用户每次检索使用的所有检索串都记录下来,每个查询串的长度为1-255字节。 假设目前有一千万个记录(这些查询串的重复度比较高,虽然总数是1千万,但如果除去重复后,不超过3百万个。一个查询串的重复度越高,说明查询它的用户越多,也就是越热门。),请你统计最热门的10个查询串,要求使用的内存不能超过1G。 典型的Top K算法,还是在这篇文章里头有所阐述, 文中,给出的最终算法是: 第一步、先对这批海量数据预处理,在O(N)的时间内用Hash表完成统计(之前写成了排序,特此订正。July、2011.04.27); 第二步、借助堆这个数据结构,找出Top K,时间复杂度为N‘logK。 即,借助堆结构,我们可以在log量级的时间内查找和调整/移动。因此,维护一个K(该题目中是10)大小的小根堆,然后遍历300万的Query,分别和根元素进行对比所以,我们最终的时间复杂度是:O(N) + N’*O(logK),(N为1000万,N’为300万)。ok,更多,详情,请参考原文。 或者:采用trie树,关键字域存该查询串出现的次数,没有出现为0。最后用10个元素的最小推来对出现频率进行排序。 3、有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 方案:顺序读文件中,对于每个词x,取hash(x)P00,然后按照该值存到5000 个小文件(记为x0,x1,…x4999)中。这样每个文件大概是200k左右。 如果其中的有的文件超过了1M大小,还可以按照类似的方法继续往下分,直到分解得到的小文件的大小都不超过1M。 对每个小文件,统计每个文件中出现的词以及相应的频率(可以采用trie树 /hash_map等),并取出出现频率最大的100个词(可以用含100 个结点的最小堆),并把

数据分析试题

一、数据库知识 单项选择题 1. 数据库系统的核心是(B) A、数据模型 B、数据库管理系统 C、软件工具 D、数据库 2. 下列叙述中正确的是(C)。 A、数据库是一个独立的系统,不需要操作系统的支持 B、数据库设计是指设计数据库管理系统 C、数据库技术的根本目标是要解决数据共享的问题 D、数据库系统中,数据的物理结构必须与逻辑结构一致 3. 下列模式中,能够给出数据库物理存储结构与物理存取方法的是( A )。 A、内模式 B、外模式 C、概念模式 D、逻辑模式 4. SQL语句中修改表结构的命令是(C )。 A、MODIFY TABLE B、MODIFY STRUCTURE C、ALTER TABLE D、ALTER STRUCTURE 5. SELECT-SQL语句是(B ) 。 A、选择工作区语句 B、数据查询语句 C、选择标准语句 D、数据修改语句 6. SQL语言是( C )语言。 A、层次数据库 B、网络数据库 C、关系数据库 D、非数据库 7. 如果要创建一个数据组分组报表,第一个分组表达式是"部门",第二个分组表达式是"性别",第三个分组表达式是"基本工资

",当前索引的索引表达式应当是( B )。 A、部门+性别+基本工资 B、部门+性别+STR(基本工资) C、STR(基本工资)+性别+部门 D、性别+部门+STR(基本工资) 8. 数据库DB、数据库系统DBS、数据库管理系统DBMS三者之间的关系是( A )。 A、DBS包括DB和BMS B、DBMS包括DB和DBS C、DB包括DBS和DBMS D、DBS就是DB,也就是DBMS 9. 下列有关数据库的描述,正确的是( C )。 A、数据库是一个DBF文件 B、数据库是一个关系 C、数据库是一个结构化的数据集合 D、数据库是一组文件 10. 下列说法中,不属于数据模型所描述的内容的是( C )。 A、数据结构 B、数据操作 C、数据查询 D、数据约束 11. 数据库管理系统能实现对数据库中数据的查询、插入、修改和删除等操作,这种功能称为( C ) 。 A.数据定义功能 B.数据管理功能 C.数据操纵功能 D.数据控制功能 12. 数据库管理系统是( B ) 。 A.操作系统的一部分 B.在操作系统支持下的系统软件 C.一种编译程序

数据分析岗面试题

数据分析岗面试题-标准化文件发布号:(9556-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

数据分析岗面试题 1、表:table1(Id,class,score),用最高效最简单的SQL列出各班成绩最高的列 表,显示班级,成绩两个字段。 2、有一个表table1有两个字段FID,Fno,字都非空,写一个SQL语句列出 Fno的纪录。 3、有员工表empinfo 4、( 5、Fempno varchar2(10) not null pk, 6、Fempname varchar2(20) not null, 7、Fage number not null, 8、Fsalary number not null 9、); 10、假如数据量很大约1000万条;写一个你认为最高效的SQL,用一个SQL 计算以下四种人: 11、fsalary>9999 and fage > 35 12、fsalary>9999 and fage < 35 13、fsalary <9999 and fage > 35 14、fsalary <9999 and fage < 35 15、每种员工的数量; 4、

Sheet1: sheet2: Sheet1、sheet2是Excel中两个表,sheet2中 记录了各产品类别下面对应的产品编码,现 要在sheet1 C列中对应A列产品编码所对应 的产品类别,请写出公式。 5、某商品零售公司有100万客户资料数据(客户数据信息包括客户姓名、电话、地址、购买次数、购买时间、购买金额、购买产品种类等等),现要从中抽取10万客户,对这些客户发送目录手册,为了能使这批手册产生的利润最大,从已有的客户数据信息,我们应该如何挑选这10万个客户?

数据分析经典测试题含解析

数据分析经典测试题含解析 一、选择题 1.某校男子足球队的年龄分布如图所示,则根据图中信息可知这些队员年龄的平均数,中位数分别是( ) A .15.5,15.5 B .15.5,15 C .15,15.5 D .15,15 【答案】D 【解析】 【分析】 【详解】 根据图中信息可知这些队员年龄的平均数为: 132146158163172181 268321 ?+?+?+?+?+?+++++=15岁, 该足球队共有队员2+6+8+3+2+1=22人, 则第11名和第12名的平均年龄即为年龄的中位数,即中位数为15岁, 故选D . 2.某实验学校女子排球队12名队员的年龄分布如图所示,则这12名队员的年龄的众数、平均数分别是( ) A .15岁,14岁 B .15岁,15岁 C .15岁,156 岁 D .14岁,15岁 【答案】A 【解析】 【分析】 根据众数、平均数的定义进行计算即即可. 【详解】

观察图表可知:人数最多的是5人,年龄是15岁,故众数是15. 这12名队员的年龄的平均数是:123131142155161 1412 ?+?+?+?+?= 故选:A 【点睛】 本题主要考查众数、平均数,熟练掌握众数、平均数的定义是解题的关键. 3.某学校组织学生进行社会主义核心价值观的知识竞赛,进入决赛的共有20名学生,他们的决赛成绩如下表所示: 决赛成绩/分 95 90 85 80 人数 4 6 8 2 那么20名学生决赛成绩的众数和中位数分别是( ) A .85,90 B .85,87.5 C .90,85 D .95,90 【答案】B 【解析】 试题解析:85分的有8人,人数最多,故众数为85分; 处于中间位置的数为第10、11两个数, 为85分,90分,中位数为87.5分. 故选B . 考点:1.众数;2.中位数 4.在某次训练中,甲、乙两名射击运动员各射击10发子弹的成绩统计图如图所示,对于 本次训练,有如下结论:①22 s s >甲乙;②22 s s <甲乙;③甲的射击成绩比乙稳定;④乙的射 击成绩比甲稳定.由统计图可知正确的结论是( ) A .①③ B .①④ C .②③ D .②④ 【答案】C 【解析】 【分析】 从折线图中得出甲乙的射击成绩,再利用方差的公式计算,即可得出答案.

相关主题