当前位置:首页 >> >>

2018-2019学年高中数学人教A版选修1-2创新应用课件:第一章 章末小结与测评

在散点图中样本点大致分布在一条直线附近,则利用线 性回归模型进行研究,可近似地利用回归直线方程^y =^b x+^a 来预报,利用公式求出回归系数^a,^b,即可写出回归直线方 程,并用回归直线方程进行预测说明.

[典例 1] 以下是某地收集到的新房屋的销售价格 y 和房屋的面积 x 的数据:
房屋面积 x/m2 115 110 80 135 105 销售价格 y/万元 24.8 21.6 18.4 29.2 22 (1)画出数据对应的散点图; (2)若线性相关,求线性回归方程; (3)根据(2)的结果估计当房屋面积为 150 m2 时的销 售价格.

解:(1)数据对应的散点图如图所示.

(2)由散点图知 y 与 x 具有线性相关关系.
由表中数据知 x =15i?=51xi=109,

y

=15i?=51yi=23.2,i?=51x2i =60

5
975, ?xiyi=12
i=1

952.

设所求回归直线方程为^y=^bx+^a,

?5 xiyi-5-x -y

i=1
则^b=

≈0.196 2,^a= y -^b-x ≈1.814 2,

5
?x2i -5 x 2

i=1

故所求回归直线方程为^y=0.196 2x+1.814 2. (3)根据(2),当 x=150 时,销售价格的估计值为^y = 0.1962×150+1.814 2=31.244 2(万元).

[对点训练]

1.随着我国经济的发展,居民的储蓄存款逐年增长.设

某地区城乡居民人民币储蓄存款(年底余额)如下表:

年份

2010 2011 2012 2013 2014

时间代号 t

12345

储蓄存款 y(千亿元) 5 6 7 8 10

(1)求 y 关于 t 的回归方程^y=^bt+^a; (2)用所求回归方程预测该地区 2015 年(t=6)的人民币 储蓄存款.

n
?tiyi-n t y

i=1

附:回归方程^y=^bt+^a中,^b=



?n t2i -n-t 2

i=1

^a= y -^b t .

解:(1)列表计算如下: i ti yi t2i tiyi 1151 5 2 2 6 4 12 3 3 7 9 21 4 4 8 16 32 5 5 10 25 50 ∑ 15 36 55 120

这里 n=5, t =n1i?=n1ti=155=3, y =n1i?=n1yi=356=7.2,
又 ltt=?n t2i -n-t 2=55-5×32=10,
i=1
n
lty=?tiyi-n t y =120-5×3×7.2=12,
i=1
从而^b=llttyt=1120=1.2,^a= y -^b t =7.2-1.2×3=3.6, 故所求回归方程为^y =1.2t+3.6.

(2)将 t=6 代入回归方程可预测该地区 2015 年的人民币储蓄存款为^y =1.2×6+3.6=10.8(千 亿元).

对于建立的回归模型,我们必须对模型的拟合效果进行分 析,也就是对利用回归模型解决实际问题的效果进行评价.一 方面可以对比残差或残差平方和的大小,同时观察残差图,进 行残差分析;另一方面也可以研究数据的 R2(相关系数 r).对 模型拟合效果的分析能够帮助我们利用最优化的模型来解决实 际问题.

[典例 2] 在研究弹簧伸长长度 y(cm)与拉力 x(N)的 关系时,对不同拉力的 6 根弹簧进行测量,测得如下表中 的数据:
x/N 5 10 15 20 25 30 y/cm 7.25 8.12 8.95 9.90 10.9 11.8 若依据散点图及最小二乘法求出的回归直线方程为^y =0.18x+6.34,求 R2,并结合残差说明拟合效果.

解:列表求值如下:

xi

5

10

15

20 25 30

yi 7.25 8.12 8.95 9.90 10.9 11.8

xiyi 36.25 81.2 134.25 198 272.5 354

x2i

25

100 225 400 625 900

yi-^yi 0.01 -0.02 -0.09 -0.04 0.06 0.06

yi- y -2.24 -1.37 -0.54 0.41 1.41 2.31

6

6

x =17.5, y ≈9.49,?xiyi=1 076.2,?x2i =2 275,

i=1

i=1

6

6

? (yi-^yi)2=0.017 4,? (yi- y )2=14.678 4.

i=1

i=1



R2



1



0.017 4 14.678 4

≈0.998

81 , 回 归 模 型 拟 合 效 果 较

好.由表中数据可以看出残差比较均匀地落在宽度不超过

0.15 的狭窄的水平带状区域中,说明选用的线性回归模型的

精度较高.

[对点训练] 2.从某大学中随机选取 5 名女大学生,其身高和体

重数据如下表所示:

编号

12345

身高 x/cm 165 165 157 170 175

体重 y/kg 48 57 50 54 64

甲、乙两位同学在计算根据女大学生的身高预报体重

的回归方程时,分别得到以下回归模型:甲:^y =0.75x-

70;乙:^y=0.76x-71.试依据 R2 判定哪一个模型的拟合效

果较好?

解:对甲模型,yi-^yi 与 yi- y 的值如下表:
yi-^yi -5.75 3.25 2.25 -3.5 2.75 yi- y -6.6 2.4 -4.6 -0.6 9.4
5
所以 ? (yi-^y i)2=(-5.75)2+3.252+2.252+(-3.5)2
i=1
5
+2.752=68.5, ? (yi- y )2=(-6.6)2+2.42+(-4.6)2+
i=1
(-0.6)2+9.42=159.2.此时 R2=1-16589..52≈0.57.

对乙模型,yi-^yi 与 yi- y 的值如下表: yi-^yi -6.4 2.6 1.68 -4.2 2 yi- y -6.6 2.4 -4.6 -0.6 9.4
5
所以 ? (yi-^y i)2=(-6.4)2+2.62+1.682+(-4.2)2+
i=1
22≈72.2,

5
? (yi- y )2=(-6.6)2+2.42+(-4.6)2+(-0.6)2+9.42
i=1
=159.2.此时 R2=1-17529..22≈0.55. 因为 0.57>0.55, 所以甲模型的拟合效果较好.

独立性检验就是根据采集的样本数据,利用公式求出 随机变量 K2 的观测值 k,通过比较 k 与临界值 k0 的大小来 确定两个分类变量是否有关系的方法.

[典例 3] 户外运动已经成为一种时尚运动,某单

位为了了解员工喜欢户外运动是否与性别有关,决定从

本单位全体 650 人中采用分层抽样的办法抽取 50 人进

行问卷调查,得到了如下列联表:

喜欢户外运动 不喜欢户外运动 总计

男性 5

女性

10

总计 50

已知在这 50 人中随机抽取 1 人抽到喜欢户外运动

的员工的概率是35.

(1)请将上面的列联表补充完整; (2)求该公司男、女员工各多少人; (3)在犯错误的概率不超过 0.005 的前提下能否认为 喜欢户外运动与性别有关?并说明你的理由. 下面的临界值表仅供参考: P(K2≥k0) 0.15 0.10 0.05 0.025 0.010 0.005 0.001
10.82 k0 2.072 2.706 3.841 5.024 6.635 7.879
8 参考公式:K2=?a+b??cn+?add-??ab+c?c2??b+d?,其中 n=a +b+c+d

解:(1)因为在全部 50 人中随机抽取 1 人抽到喜欢户

外运动的员工的概率是35,所以喜欢户外运动的男女员工

共 30 人,其中男员工 20 人,列联表补充如下:

喜欢户外运动 不喜欢户外运动 总计

男性

20

5

25

女性

10

15

25

总计

30

20

50

(2) 该 公 司 男 员 工 人 数 为 25÷50×650 =

325(人),则女员工有 325 人.

(3)K2

的观测值

k



50×?20×15-10×5?2 30×20×25×25

≈8.333>7.879 , 所 以 在 犯 错 误 的 概 率 不 超 过

0.005 的前提下认为喜欢户外运动与性别有关.

[对点训练]

3.吃零食是中学生中普遍存在的现象,吃零食对

学生身体发育有诸多不利影响,影响学生的健康成

长.下表是性别与吃零食的列联表:

男 女 总计

喜欢吃零食 5 12 17

不喜欢吃零食 40 28 68

总计

45 40 85

请问喜欢吃零食与性别是否有关?

解:k=?a+b??cn+?add-??ab+c?c2??b+d?, 把相关数据代入公式,得 k=85×17?×5×682×8-454×0×4012?2 ≈4.722>3.841. 因此,在犯错误的概率不超过 0.05 的前提下,可 以认为“喜欢吃零食与性别有关”.