搜档网
当前位置:搜档网 › 线性回归方程分析-精选.

线性回归方程分析-精选.

线性回归方程分析-精选.
线性回归方程分析-精选.

环球雅思学科教师辅导讲义

讲义编号: 组长签字: 签字日期:

学员编号: 年 级: 高二 课时数:3 学员姓名: 辅导科目: 数学 学科教师:闫建斌 课 题 线性回归方程

授课日期及时段 2014-2-11 18:00-20:00 教学目标 线性回归方程基础 重点、难点

教 学 内 容

1、本周错题讲解

2、知识点梳理

1.线性回归方程

①变量之间的两类关系:函数关系与相关关系 ②制作散点图,判断线性相关关系

③线性回归方程:a bx y +=∧

(最小二乘法)

最小二乘法:求回归直线,使得样本数据的点到它的距离的平方最小的方法

1

221n

i i i n

i

i x y nx y b x nx a y bx

==?

-?

?=??-??=-??∑∑ 注意:线性回归直线经过定点),(y x 2.相关系数(判定两个变量线性相关性):∑∑∑===----=

n

i n

i i i

n

i i i

y y x x

y y x x

r 1

1

2

21

)()()

)((

注:⑴r >0时,变量y x ,正相关;r <0时,变量y x ,负相关;

⑵①||r 越接近于1,两个变量的线性相关性越强;

②||r 接近于0时,两个变量之间几乎不存在线性相关关系。 3.线形回归模型:

⑴随机误差e :我们把线性回归模型e a bx y ++=,其中b a ,为模型的未知参数,e 称为随机误差。 随机误差a bx y e i i i --=

⑵残差e

?:我们用回归方程a x b y ???+=中的y ?估计a bx +,随机误差)(a bx y e +-=,所以y y e ??-=是e 的估计量,故a x b y y y e i

i i i i ????--=-=,e ?称为相应于点),(i i y x 的残差。 ⑶回归效果判定-----相关指数(解释变量对于预报变量的贡献率) 2

2

1

2

1

?()1()

n

i

i

i n

i

i

i y y

R y y ==-=-

-∑∑

(2R 的表达式中2

1

)(∑=-n

i i y y 确定)

注:①2

R 得知越大,说明残差平方和越小,则模型拟合效果越好;

②2

R 越接近于1,,则回归效果越好。 4.独立性检验(分类变量关系):

(1)分类变量:这种变量的不同“值”表示个体所属的不同类别的变量。 (2)列联表:列出两个分类变量的频数表,称为列联表。

(3)对于22?列联表:2

K 的观测值)

)()()(()(2

d b c a d c b a bc ad n k ++++-=。

(4)临界值0k 表:

)

(02k k P ≥ 0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001

0k

0.455

0.708

1.323

2.072 2.706

3.841 5.024 6.635 7.879 10.828

如果0k k ≥,就推断“Y X ,有关系”,这种推断犯错误的概率不超过α;否则,在样本数据中没有发现足够证据支持结论“Y X ,有关系”。

(5)反证法与独立性检验原理的比较:

反证法原理 在假设0H 下,如果推出矛盾,就证明了0H 不成立。 独立性检 验原理

在假设0H 下,如果出现一个与0H 相矛盾的小概率事件,就推断0H 不成立,且该推断犯错误的概率不超过这个小概率。

典型例题

1.(2011·山东)某产品的广告费用x 与销售额y 的统计数据如下表:

广告费用x /万元 4 2 3 5 销售额y /万元

49

26

39

54

根据上表可得回归方程y ^=b ^x +a ^中的b ^

为9.4,据此模型预报广告费用为6万元时销售额为 ( ).

A .63.6万元

B .65.5万元

C .67.7万元

D .72.0万元 解析 ∵x -=4+2+3+54=72,y -=49+26+39+54

4=42,

又y ^=b ^x +a ^必过(x -,y -),∴42=72×9.4+a ^,∴a ^

=9.1.

∴线性回归方程为y ^

=9.4x +9.1.

∴当x =6时,y ^

=9.4×6+9.1=65.5(万元). 答案 B

2.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:

父亲身高x /cm 174 176 176 176 178 儿子身高y /cm

175

175

176

177

177

则y 对x 的线性回归方程为 ( ). A.y ^=x -1 B.y ^

=x +1 C.y ^=88+12x D.y ^

=176

解析 因为x -=174+176+176+176+178

5

=176,

y -=175+175+176+177+1775

=176,

又y 对x 的线性回归方程表示的直线恒过点(x -,y -

), 所以将(176,176)代入A 、B 、C 、D 中检验知选C. 答案 C

3.(2011·陕西)设(x 1,y 1),(x 2,y 2),…,(x n ,y n )是变量x 和y 的n 个

样本点,直线l 是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是( ).

A .x 和y 的相关系数为直线l 的斜率

B .x 和y 的相关系数在0到1之间

C .当n 为偶数时,分布在l 两侧的样本点的个数一定相同

D .直线l 过点(x -,y -)

解析 因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的 绝对值越接近1,两个变量的线性相关程度越强,所以A 、B 错误.C 中n 为偶数时,分布在l 两侧的样本点的个数可以不相同,所以C 错误.根据回 归直线方程一定经过样本中心点可知D 正确,所以选D. 答案 D

4.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:

时间x 1 2 3 4 5 命中率y

0.4

0.5

0.6

0.6

0.4

小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.

解析 小李这5天的平均投篮命中率 y -=0.4+0.5+0.6+0.6+0.4

5

=0.5,

可求得小李这5天的平均打篮球时间x -=3.根据表中数据可求得b ^=0.01,a ^

= 0.47,故回归直线方程为y ^

=0.47+0.01x ,将x =6代入得6号打6小时篮球的 投篮命中率约为0.53. 答案 0.5 0.53

5.(2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的回归直线方程:y ^

=0.254x +0.321.由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元. 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 答案 0.254

6.(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:

年份 2002 2004 2006 2008 2010 需求量(万吨)

236

246

257

276

286

(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.

解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求回归直线方程.为此对数据预处理如下:

年份-2006 -4 -2 0 2 4 需求量-257

-21

-11

19

29

对预处理后的数据,容易算得x -=0,y -

=3.2.

b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02

26040

=6.5,a ^=y --b x -=3. 由上述计算结果,知所求回归直线方程为 y ^-257=b ^(x -2 006)+a ^

=6.5(x -2 006)+3.2, 即y ^

=6.5(x -2 006)+260.2.

(2)利用直线方程①,可预测2012年的粮食需求量为 6.5×(2012-2006)+260.2=6.5×6+260.2=299.2(万吨).

课堂练习

1.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )

A.y ^

=x +1 B.y ^

=x +2 C.y ^

=2x +1 D.y ^

=x -1

2.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R 2的值分别约为0.96和0.85,则拟合效果好的模型是( )

A .甲

B .乙

C .甲、乙相同

D .不确定

3.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取8对

观测值,计算,得∑8

i =1x i =52,∑8

i =1y i =228,∑8

i =1x 2

i =478,∑8

i =1x i y i =1849,则其线性回归方程为(

)

A.y ^=11.47+2.62x

B.y ^

=-11.47+2.62x

C.y ^

=2.62+11.47x D.y ^

=11.47-2.62x

4.下表是某厂1~4月份用水量(单位:百吨)的一组数据:

月份x 1 2 3 4 用水量y 4.5 4 3 2.5

由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^

=-0.7x +a ,则a 等于______.

5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:

零件的个数x (个) 2 3 4 5 加工的时间y (小时) 2.5 3 4 4.5

(1)在给定的坐标系中画出表中数据的散点图;

(2)求出y 关于x 的线性回归方程y ^

=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?

课后练习

一、选择题

1.实验测得四组(x ,y )的值为(1,2),(2,3),(3,4),(4,5),则y 与x 之间的回归直线方程为( )

A.y ^=x +1

B.y ^

=x +2 C.y ^

=2x +1 D.y ^

=x -1 答案 A

解析 画出散点图,四点都在直线y ^

=x +1.

2.下列有关样本相关系数的说法不正确的是( ) A .相关系数用来衡量变量x 与y 之间的线性相关程度 B .|r |≤1,且|r |越接近于1,相关程度越大 C .|r |≤1,且|r |越接近0,相关程度越小 D .|r |≥1,且|r |越接近1,相关程度越小 答案 D

3.由一组样本(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到的回归直线方程y ^

=a +bx ,下面有四种关于回归直线方程的论述:

(1)直线y ^

=a +bx

至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点;

(2)直线y ^=a +bx 的斜率是

∑n

i =1x i y i -n x y ∑n i =1x 2i -n

x

2

(3)直线y ^=a +bx 必过(x ,y )点;

(4)直线y ^

=a +bx 和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差∑n

i =1 (y i -a -bx i )2是该坐标平面上所有的直线与这些点的偏差中最小的直线.

其中正确的论述有( ) A .0个 B .1个 C .2个 D .3个 答案 D

解析 线性回归直线不一定过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的任何一点;b =

∑n

i =1x i y i -n x y ∑n

i =1x 2i -n x

2

就是线性回归直线的斜率,也就是回归系数;线性回归直线过点(x ,y );线性回归直线是平面上所有直线中偏差∑n

i =1 (y i -a -bx i )2取得最小的那一条.故有三种论述是正确的,选D.

4.设两个变量x 和y 之间具有线性相关关系,它们的相关系数是r ,y 关于x 的回归直线的斜率是b ,纵截距是a ,那么必有( )

A .b 与r 的符号相同

B .a 与r 的符号相同

C .b 与r 的符号相反

D .a 与r 的符号相反 答案 A

5.在比较两个模型的拟合效果时,甲、乙两个模型的相关指数R 2的值分别约为0.96和0.85,则拟合效果好的模型是( )

A .甲

B .乙

C .甲、乙相同

D .不确定 答案 A

6.某化工厂为预测产品的回收率y ,需要研究它和原料有效成分含量x 之间的相关关系,现取

8

对观测值,计算,得∑8 i =1x i =52,∑8 i =1y i =228,∑8

i =1x 2

i =478,∑8

i =1x i y i =1849,则其线性回归方程

为( )

A.y ^

=11.47+2.62x B.y ^=-11.47+2.62x C.y ^

=2.62+11.47x D.y ^

=11.47-2.62x 答案 A

解析 利用回归系数公式计算可得a =11.47,b =2.62,故y ^

=11.47+2.62x . 二、填空题

7.下表是某厂1~4月份用水量(单位:百吨)的一组数据:

月份x

1 2 3 4 用水量y 4.5 4 3 2.5

由散点图可知,用水量y 与月份x 之间有较好的线性相关关系,其线性回归直线方程是y ^

=-0.7x +a ,则a 等于______.

解析

x =2.5,y =3.5,∵回归直线方程过定点(x ,y ),∴3.5=-0.7×2.5+a .

∴a =5.25.

8.某服装商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:

月平均气温x (℃) 17 13 8 2 月销售量y (件) 24 33 40 55 由表中数据算出线性回归方程y ^

=bx +a 中的b ≈-2,气象部门预测下个月的平均气温约为6℃,

据此估计,该商场下个月毛衣的销售量约为________件.

(参考公式:b =

∑i =1

n

x i y i -n x y

∑i =1

n

x 2i -n x 2

,a =y -b x )

答案 46

解析 由所提供数据可计算得出x =10,y =38,又b ≈-2代入公式a =y -b x 可得a =58,即线性回归方程y ^

=-2x +58,将x =6代入可得.

9.对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示:

又发作过 心脏病 未发作过

心脏病 合计

心脏搭桥手术

39 157 196 血管清障手术

29 167 196 合计

68 324 392 试根据上述数据计算K 2=________.

比较这两种手术对病人又发作心脏病的影响有没有差别.________.

答案 392×(39×167-29×157)2

68×324×196×196

≈1.78

不能作出这两种手术对病人又发作心脏病的影响有差别的结论 解析 提出假设H 0:两种手术对病人又发作心脏病的影响没有差别. 根据列联表中的数据,可以求得K 2=392×(39×167-29×157)2

68×324×196×196

≈1.78.

当H 0成立时K 2≈1.78,而K 2<2.072的概率为0.85.所以,不能否定假设H 0.也就是不能作出这两种手术对病人又发作心脏病的影响有差别的结论.

三、解答题

10.某农科所对冬季昼夜温差大小与某反季大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了2010年12月1日至12月5日的每天昼夜温差与实验室每天每100颗种子中的发芽数,得到如下表:

日期 12月1日 12月2日 12月3日 12月4日 12月5日

温差x (℃)

10 11 13 12 8 发芽数y (颗) 23 25 30 26 16

该农科所确定的研究方案是:先从这五组数据中选取2组,用剩下的3组数据求线性回归方程,再对被选取的2组数据进行检验.

(1)求选取的2组数据恰好是不相邻的2天数据的概率;

(2)若选取的是12月1日与12月5日的两组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^

=bx +a ;

(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得到的线性回归方程是否可靠?

解析 (1)设抽到不相邻的两组数据为事件A ,因为从5组数据中选取2组数据共有10种情况:(1,2),(1,3),(1,4),(1,5),(2,3),(2,4),(2,5),(3,4),(3,5),(4,5)其中数据为12月份的日期数.

每种情况都是可能出现的,事件A 包括的基本事件有6种:

所以P (A )=610=35.所以选取的2组数据恰好是不相邻2天数据的概率是3

5.

(2)由数据,求得x =12,y =27.

由公式,求得b =5

2,a =y -b x =-3.

所以y 关于x 的线性回归方程为y ^=5

2x -3.

(3)当x =10,y ^=5

2×10-3=22,|22-23|<2;

同样,当x =8时,y ^=5

2×8-3=17,|17-16|<2; 所以,该研究所得到的回归方程是可靠的.

11.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此作了四次试验,得到的数据如下:

零件的个数x (个)

2 3 4 5 加工的时间y (小时) 2.5 3 4 4.5

(1)在给定的坐标系中画出表中数据的散点图;

(2)求出y 关于x 的线性回归方程y ^

=bx +a ,并在坐标系中画出回归直线; (3)试预测加工10个零件需要多少小时?

(注:b =

∑n

i =1x i y i -n x y ∑n

i =1x 2i -n

x

2

,a =y -b x )

解析 (1)散点图如图.

(2)由表中数据得:∑4

i =1x i y i =52.5, x =3.5,y =3.5,∑4

i =1x 2i =54, ∴b =0.7, ∴a =1.05,

∴y ^

=0.7x +1.05.

回归直线如图所示.

(3)将x =10代入回归直线方程,得y ^

=0.7×10+1.05=8.05(小时 ). ∴预测加工10个零件需要8.05小时.

12.(2010·辽宁卷)为了比较注射A ,B 两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A ,另一组注射药物B .

下表1和表2分别是注射药物A 和B 后的试验结果.(疱疹面积单位:mm 2) 表1:注射药物A 后皮肤疱疹面积的频数分布表

疱疹面积 [60,65) [65,70) [70,75) [75,80)

频数

30 40 20 10 表2:注射药物B 后皮肤疱疹面积的频数分布表

疱疹面积

[60,65) [65,70) [70,75) [75,80) [80,85) 频数 10 25 20 30 15

(ⅰ)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;

(ⅱ)完成下面2×2列联表,并回答能否有99.9% 的把握认为“注射药物A 后的疱疹面积与注

射药物B 后的疱疹面积有差异”.

表3:

疱疹面积小

于70 mm 2 疱疹面积不小 于70 mm 2 合计

注射药物A a = b = 注射药物B c = d = 合计n =

附:K 2

=n (ad -bc )2

(a +b )(c +d )(a +c )(b +d )

解析 (ⅰ)

可以看出注射药物A 后的疱疹面积的中位数在65至70之间,而注射药物B 后的疱疹面积的中位数在70至75之间,,所以注射药物A 后疱疹面积的中位数小于注射药物B 后疱疹面积的中位数.

(ⅱ)表3:

疱疹面积小

于70 mm 2 疱疹面积不小

于70 mm 2 合计

注射药物A a =70 b =30 100 注射药物B c =35 d =65 100 合计 105 95

n =200

K 2=200×(70×65-35×30)2

100×100×105×95

≈24.56.

由于K 2>10.828,所以有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.

最新文件仅供参考已改成word文本。方便更改

相关主题