当前位置:首页 >> 数学 >>

3.1《回归分析的基本思想及其初步应用》选修2-3(收藏)


第三章 统计案例

3.1 回归分析的基本思想及 其初步应用

教学目标
通过典型案例的探究,进一步了解回归分 析的基本思想、方法及初步应用. ? 教学重点:通过探究使学生体会有些非线 性模型通过变换可以转化为线性回归模型, 了解在解决实际问题的过程中寻找更好的 模型的方法,了解可用残差分析的方法, 比较两种模型的拟合效果. ?

教学难点:了解常用函数的图象特点,选 择不同的模型建模,并通过比较相关指数 对不同的模型进行比较.
?

我们知道 ,函数关系是一种确定 性关系 , 而相关关系是一种非确 定性关系 .回归分 析(regression analysis ) 是对具有相关关 系的两个变量进行统计 分 析的一种常用 方法.在《数学3 》中, 我们对两个具有线 性相关关系的变量利用回归分析 的方法 进行了研究, 其步骤为画散点图, 求回归 直线方程 , 并用回归直线方程进行预报.

探究 对于一组具有线性相关关系的数据 ?x1, y1 ?, ?x 2 , y 2 ?,? ? ?, ?xn , yn ?, 我们知道其回归方程的截距和斜率的最小 二乘估计公式分别为: n
?x ? ? y ?b a

?1?
n

?? b
n

? ?x
i?1 n

i

? x ??y i ? y ?

2 ? ? x ? x ? i i?1

,

?2?

1 其中x ? ? x i , y ? ? yi .?x, y ?称为样本点的 n i?1 i?1 公式吗? 中心.你能推导出这两个计算

回归直线过样本点的中 心.

? 分别是使 ? 和斜率b 从已经学过的知识知道 , 截距a Q?α,β? ? ? ?yi ? βxi ? α? 取最小值时α,β的值.
2 n i?1

由于Q?α,β? ? ? ?yi ? βxi ? ?y ? βx ? ? ?y ? βx ? ? α?

n

2

??y ? βx ? ? α? ? ??y ? βx ? ? α? ?
2 n 2

? ? ?yi ? βxi ? ?y ? βx ?? ? 2?yi ? βxi ? ?y ? βx ???
2 i?1

n

?

i?1

? ? ?yi ? βxi ? ?y ? βx ?? ? 2? ?yi ? βxi ? ?y ? βx ???

n

?y ? βx ? α? ? n?y ? βx ? α? ,
2

i?1

i?1

注意到 ? ?yi ? βxi ? ?y ? βx ??? ?y ? βx ? α?
i?1

n

? ?y ? βx ? α? ? ?yi ? βxi ? ?y ? βx ??
i?1

n

n ?n ? ? ?y ? βx ? α??? yi ? β? xi ? n?y ? βx ?? i?1 ? i?1 ?

? ?y ? βx ? α??ny ? nβx ? n?y ? βx ?? ? 0,
所以 Q?α, β? ? ? ?y i ? βx i ? ?y ? βx ?? ? n?y ? βx ? α?
2 i?1 n 2

? β2 ? ?x i ? x ? ? 2β? ?x i ? x ??y i ? y ?
2 i?1 i?1

n

n

? ? ?xi ? x ??yi ? y ?? ? n ? 2 2 ? ? n?y ? βx ? α? ? ? ?xi ? x ? ?β ? i?1 n 2 ? ? i?1 ?xi ? x ? ? ? ? i?1 ? ?
i?1

? ? ?y i ? y ? ? n?y ? βx ? α?
2

n

2

n

2

? ? ?? ?x i ? x ??y i ? y ?? n 2 i?1 ? ? ? ? ? ?y i ? y ? . n 2 i?1 ? ? x ? x ? i
n i?1

2

在上式中 ,后两项和α,β无关,而前两项为非负 数,因此要使Q取最小值 ,当且仅当前两项的值 均为0,即有
β?

? ?x
i?1 n

n

i

? x ??y i ? y ?
i

? ?x
i?1

? x?

, α ? y ? βx .

2

这正是我们所要推导的 公式.

下面我们通过案例 , 进一步学习回归分析的 基本思想及其应用 .

例1 从某大学中随机选取 8名女大学生 , 其身高和体 重数据如表3 ? 1所示. 编号 1 2 3 4 5 6 7 8 身高/ cm 165 165 157 170 175 165 155 170 体重 / kg 48 57 50 54 64 61 43 59 求根据一名女大学生的 身高预报她的体重的回 归方程, 并预报一名身高为 172cm的女大学生的体重 .

解 由于问题中要求根 据身高预报体重 ,因此选 取身高为自变量x , 真实 体重为因变量 y .作散点 图 (图3.1 ? 1) :

70 65 60 55 50 45 40

y

x
150 155 160 165 170 175 180

图3.1 ? 1

y 从图3.1 ? 1 中可以看出 , 70 65 样本点呈条状分布,身 60 55 高和体 重有比 较好的 50 线性相关关系,因此可 45 40 以用线 性回归方程刻 150 155 160 165 170 画它们之间的关系 . 图3.1 ? 1 根据探究中的公式 ?1? 和 ? 2 ? , 可以得到

x
175 180

? ? 0.849. ? ? ?85.712, b a ? ? 0.849 x ? 85.712. 于是得到回归方程y 所以, 对身高为 172cm的女大学生 ,由回归方程可以 预报其体重为 y ? 0.849 ? 172 ? 85.712 ? 60.316?kg ?.

探究 身高 172cm的 70 女大学生的体重一定 65 60 是 60.316kg 吗? 如果 55 不是, 其原因是什么 ? 50 显然,身高172cm的女 45 40 大学生的体重不一定 150 155 160 165 170 175 180 图3.1? 2 是60.316kg但一般可 以认为她的体重接近于60.316kg.图3.1 ? 2中的样 本点和回归直线的相互位置说明了这一点. 由于所有的样本点不共线, 而只是散布在某一条直 线的附近, 所以身高和体重的关系可用下面的线性 ?3? 回归模型来表示 : y ? bx ? a ? e,

与函数关系不同 , 在回归模型中 , y 的值由x 和随机因 素e共同确定 ,即x只能解释部分 y的变化,因此我们把 x称为解释变量 , 把y称为预报变量 .
这里a和b为模型的未知参数, e是y与y ? bx ? a之间 的误差.通常e为随机变量, 称为 随机误差 , 它的均值 E ? e ? ? 0, 方差D ? e ? ? ? 2 ? 0.这样线性回归模型的完 整表达式为 : y ? bx ? a ? e , E?e? ? 0,D?e? ? σ 2 .

?4?

在线性回归模型 ? 4 ?中, 随机误差e的方差? 2越小, 通过回归直线 y ? bx ? a, 预报真实值y的精度越高随机误差是引起预报 .

? 与真实值y 之间的误差的原因之一 值y , 其大小 取决于随机误差的方差 . ? 为截距和斜率 ? 和b 另一方面 ,由于公式?1?和?2?中a 的估计值 ,它们与真实值a 和 b 之间也存在误差 , ? 与真实值y之间误差的 这种误差是引起预报值 y 另一个原因 .
实际上 , 一个人的体重值除了受 身高的影响外 , 还受 许多其他因素的影响 . 例如饮 食习惯、是否喜欢运 动、度量误差等 .另外 , 我们选用的线性模型往往只 是一种近似的模型 .所有这些因素都会导致 随机误 差项e的产生.

思考 产生随机误差项 e的原因是什么 ?

探究 在线性回归模型中, e是用y预报真实值y的 误差, 它是一个不可观测的量, 那么应该怎样研究 随机误差 ? 如何衡量预报的精度 ?
因为随机误差是随机变 量,因此可以通过这个随 机变量的数字特征来刻 画它的一些总体特征 .均 值是反映随机变量取值 平均水平的数字特征 ,方 差是反映随机变量集中 于均值程度的数字特征 , 而随机误差的均值为 0,因此可以用方差 σ 2来衡量 随机误差的大小 .

为了衡量预报的精度 ,需要估计σ 2 的值.一个自然 的想法是通过样本方差 来估计总体方差.如何得 ?3?或 ?4?中的e 到随机变量e的样本呢?由于模型 隐含在预报变量 y中, 我们无法精确地把它从 y中 分离出来,因此也就无法得到随机 变量e的样本.

解决问题的途径是通过 样本的估计值来估计 σ 2. 根据截距和斜率的估计 公式?1?和?2?,可以建立回 ?x ? a ?, ? ?b 归方程 y ? 是?5?中~ 因此y y的估计值.由于随机误差 e ? y?~ y,
? ? y?y ? 是e的估计量 所以e . 对于样本点?x1, y1 ?, ?x 2 , y 2 ?,? ? ?, ?x n , y n ? 而言, 相应它们的随机误差为 ei ? y i ? ~ yi ? y i ? bxi ? a,i ? 1 ,2,? ? ?, n. 其估计值为 ? xi ? a ? i ? yi ? y ?,i ? 1 ? i ? yi ? b e ,2,? ? ?,n,

?i 称为相应于点 ? xi , yi ? 的 e 残差 (residual ).

表3 ? 2列出女大学生身高和体 重的原始数据以及 相应的残差数据 .

编号

1

2

3

4 170

5

6

7 155

8 170

身高/ cm 165

165 157

175 165

体重 / kg 48 57 50 54 64 61 43 59 ? ? 6.373 2.627 2.419 ? 4.618 1.137 6.627 ? 2.883 0.382 残差e

我们可以利用图形来 分析残差特性.作图时 纵坐标为残差 , 横坐标 可选为样本编号 , 或身 高数据, 或体重估计值 等, 这样作出的图形为 残差图 .图 3.1 ? 3是以 样本编号为横坐标的 残差图.

8 6 4 2 0

残差

编号
1 2 3 4 5 6 7 8 9

-2 0 -4 -6 -8

图3.1? 3

从图 3.1 ? 3中可以看 残差 8 出, 第1个样本点和第 6 6 个样本点的残差比较 4 大,需要确认在采集这 2 编号 0 两个样本 点的过程中 -2 0 1 2 3 4 5 6 7 8 9 是否有人为的错误 .如 -4 果数据采集有错误 , 就 -6 予以纠正 ,然后再重新 -8 利用线 性回 归模型拟 图3.1? 3 合数据; 如果数据采集 没有错误, 则需要寻找其他的原因 .另外,残差点比较 均匀地落在水平的带状 区域的宽度越窄, 说明模型 拟合精度越高 ,回归方程的预报精确度 越高.

另外, 我们还可以用相关指数R 2来刻画回归的效果 , 其计算公式是 : R 2 ? 1 ?
2 ? ? ?yi ? yi ? n i?1 n

? ?y
i?1

i

? y?

.

2

在含有一个解释变量的 线性模型中 ,R 2恰好等于相关 系数r的平方 .

显然,R 2 取值越大,意味着残差平方和越小 , 也就是说 模型的拟合效果越好 .在线性回归模型中 , R 2 表示解 释变量对于预报变量变 化的贡献率 . R 2 越 接近于 1 , 表示回归的效果越好 (因为R 2越接近于 1, 表示解释变 量和预报变量的线性相 关性越强) . 如果对某组数据

可能性采 取几 种不同的回归方程进行 回归分析, 也 可以通过比较几个R 2 , 选择R 2 大的模型作为这组数 据的模型 . 在例1中,R 2 ? 0.64, 表明" 女大学生身高解释了 64%的 体重变化" , 或者说" 女大学生体重差异有 64%是由身 高引起的 ". 用身高预报体重时 ,需要注意下列问题: 1.回归方程只适用于我们 所研究的样本的总体 .例如, 不能用女大学生的身高 和体重之间的回归方程 , 描述 女运动员的身高和体重 之间的关系 .同样,不能用生长 在南方多雨地区的树木 的高与直径之间的回归 方程, 描述北方干旱地区的树 木的高与直径之间的关 系.

2.我们所建立的回归方程 一般都有时间性 .例如,不 能用20世纪80年代的身高体重数据所 建立的回归 方程, 描述现在的身高和体重 之间的关系 . 3.样本取值范围会影响回 归方程的适用范围 .例如, 我们的回归方程是由女 大学生身高和体重数据 建 立的,那么用它来描述一个人 幼儿时期的身高和体 重之间的关系就不恰当 (即在回归方程中 , 解释变量 ?155cm,170cm?,而用这个方 x的样本的取值范围为 程计算x ? 70cm时的y值,显然不合适 .)

4.不能期望回归方程得到 的预报值就是预报变量 的 精确值.事实上,它是预报变量的可能取 值的平均值 .

一般地,建立回归模型的基本步 骤为 :

?1?确定研究对象,明确哪个变量是解释变量,哪个变
量是预报变量;

?如是否存在线性关系等?; 观察它们之间的关系

?2?画出确定好的解 释主变量和预报变量的散点图,

?3?由经验确定回归方程类型(如我们观察到数据呈
线性关系,则选用线性回归方程y ? bx ? a);

?4?按一定规则估计回归方程中的参数 ( 如最小二
乘法);

?5?得出结果后分析残差图是否有异常 (个别数据对
应残差过大,或残差呈现不随机的规 律性等等),若存 在异常,则检查数据是否有误 ,或模型是否合适等 .

例2 一只红铃虫的产卵数 y和温度x有关.现收集了7组 观察数据列于表 3 ? 3中, 试建立y与x之间的回归方程 .

表3 ? 3 温度 / 0 C 21 23 25 27 29 32 35 产卵数y / 个 7 11 21 24 66 115 325
解 根据收集的数 ?3.1 ? 4?. 据作散点图 在散点图中 , 样本点 并没有分 布在某个 带状区域内,因此两 个变量不呈线性 线 相关关系, 所以不能
产卵数
350 300 250 200 150 100 50 0 20 22 24 26 28 30 32 34

温度
36

图3.1 ? 4

直接利用线性回归方程 来 建 立两个变量之间的关 系. 根据已有的函数知识 ,可以发现样本点分布在 某一条 指数函数曲线 y ? c1ec 2 x的周围 , 其中c1和c 2是待定参数 . 现在,问题变为如何估计待定 参数 c1和c 2 .我们可以通 过对数变换把指数关系 变为线性关系.令z ? ln y, 则变 换后样本点应该分布在 直线 z ? bx ? a(a ? ln c1, b ? c 2 ) 的周围 .这样, 就可以利用线性回归模 型来建立y和x之 ?? ?了. 间的非线性回归方程 ???当回归方程不是形如 y ? bx ? a时,我们称之为非

线性回归方程 .
由表3 ? 3的数据可以得到变换后 的样本数据表 3 ? 4,图

3.1 ? 5给出了表3 ? 4中数据的散点图 .从图3.1 ? 5中可以 看出 ,变换后的样本点分布在 一条直线的附近 ,因此可以 用线性回归方程来拟合 .
表3 ? 4

x 21 23 25 27 29 32 35 z 1.946 2.398 3.045 3.178 4.190 4.745 5.784
由表3 ? 4中的数据得 到线性回归方程 ? ? 0.272x ? 3.843. z
产卵数的对数
7 6 5 4 3 2 1 0 20 22 24 26 28 30 32 34 36

因此红铃虫的产卵 数对温度的非线性 回归方程为

温度

图3.1? 5

?1? ? y ? e0.272 x?3.843

? 5?

另一方面,可以认为图 3.1 ? 4中样本点集中在某二 次曲线y ? c 3 x 2 ? c 4的附近, 其中c 3 和 c 4 为待定参 数.因此可以对温度变量做 变换, 即令t ? x 2 ,然后建 立y与t之间的线性回归方程 , 从而得到y与x 之间的 非线性回归方程 .
表3 ? 5是红铃虫的产卵数和对 应的温度的平方 ,图 3.1 ? 6是相应的散点图 .
表3 ? 5

t 441 529 y 7 11

625 21

729 24

841 1024 1225 66 115 325

从图3.1 ? 6中 350 可以看出 , y与 300 250 t 的散点图并 产 200 不分布在一条 卵 150 数 100 直线的周围 ,因 50 此不宜用线性 0 400 500 600 700 800 900 1000 1100 1200 1300 回归方程来拟 温度的平方 合它,即不宜用 图3.1 ? 6 2 二次曲线y ? c 3 x ? c 4来拟合y与x之间的关系 .这个结论 还可以通过残差分析得到.下面介绍具体方法 . 为比较两个不同模型的 残差,需要建立两个相应的回 归 方程.前面已经建立了 y关于x的指数回归方程 ,下面建立 y关于x的二次回归方程 .用线性回归模型拟合表 2 ? 5中

的数据, 得到 y 关于 t 的线性回归方程 ? ? 2? ? 0.367t ? 202.54,即 y 关于 x 的二次回归方程为 y ? ? 2? ? 0.367 x 2 ? 202.54. ? 6 ? y

可以通过残差来比较两 个回归方程?6?和?7?的拟合效果 . 用xi表示表3 ? 5第1行第?i ? 1?列的数据 ,则回归方程?6?和 ?7?的残差计算公式分别为 ? i?1? ? yi ? y ? i?1? ? yi ? e0.272 x?3.843 ,i ? 1 e ,2,? ? ?,7;

? i?2? ? yi ? y ? i?2? ? yi ? 0.367xi2 ? 202.54,i ? 1 e ,2,? ? ?,7. 表3 ? 6给出了原始数据及相应的两个回归方程的 残差.

从表中的数据可以看出模型 ? 5 ?的残差的绝对值显然比 模型 ? 6 ?的残差的绝对值小,因此模型 ? 5 ?的拟合效果比模 型 ? 6 ?的拟合效果好.

表3 ? 6
x 21 23 25 27 29 32 35 y 7 11 21 24 66 115 325 ? ?1? 0.518 ? 0.617 1.760 ? 9.149 8.889 ? 14.153 32.928 e ? ?2 ? 47.693 19.397 ? 5.835 ? 41003 ? 40.107 ? 58.268 77.965 e

在一般情况下,比较两个模型的残差比较困难.原因是在 某些样本点上一个模型的残 差的绝对值比另一个模型 的小, 而另一些样本点的情况则相反.这时可以用R 2来比较 两个模型的拟 合效果,R 2 越大模型的拟合效果越好由 . 表3 ? 6容易 算出模型 ? 6 ? 和 ? 7 ?的R 2分别为0.98和0.80. 因此模型 ? 6 ?的拟合效果远远优于模型 ? 7 ? .

练习: 为了研究某种细菌随时间 x 变化,繁殖的个数, 收集数据如下:
天 数 x/ 天
繁殖个数 y/个

1 6

2 12

3 25

4 49

5
95

6 190

(1)用天数作解释变量,繁殖个数作预报变量,作出这些 数据的散点图; 繁殖个数 (2) 描述解释变量与预报变量 之间的关系; (3) 计算残差、相关指数R2.

解:(1)散点图如右所示
天数

(2)由散点图看出样本点分布在一条指数函数C y= eC2x 1 的周围,于是令Z=lny,则 x Z
1 1.79

2
2.48

3
3.22

4
3.89

5
4.55

6
5.25

0.69x ?1.112 ? ? y =e 由计数器算得 Z=0.69X ? 1.112 则有

( 3)

? y
y
n

6.06

12.09

24.09

48.04

95.77

190.9

6

12

25
n

49
2

95
n

190

2 2 ? ? e ? ( y ? y ) ? i ? i i ? 3.1643, i=1 i ?1

n

2 2 ( y ? y ) ? y ? ny ? 25553.3. ? i ? i i ?1 i=1

3.1643 ? R ? 1? ? 0.9999. 25553.3
2

即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.


相关文章:
3.1《回归分析的基本思想及其初步应用》教案1(新人教选修2-3).1
3.1 回归分析的基本思想及其初步应用(一)教学要求:通过典型案例的探究,进一步了解...1 2 3 4 5 6 7 8 编号 165 165 157 170 175 165 155 170 身高 /cm...
3.1 回归分析的基本思想及其初步应用 学案(选修2-3)
3.1 回归分析的基本思想及其初步应用 学案(选修2-3)_数学_高中教育_教育专区。3.1 回归分析的基本思想及其初步应用 问题导学 一、求线性回归方程 活动与探究 1 ...
新人教A版选修(2-3)3.1《回归分析的基本思想及其初步应用》word学案
新人教A版选修(2-3)3.1《回归分析的基本思想及其初步应用》word学案_数学_高中教育_教育专区。§4.1 回归分析的基本思想及其初步应用 (导学案) 编写人:张涛 校队...
数学:新人教A版选修2-3 3.1回归分析的基本思想及其初步应用(同步练习)
数学:新人教A版选修2-3 3.1回归分析的基本思想及其初步应用(同步练习)_数学_高中教育_教育专区。学而思网校 www.xueersi.com 高中新课标选修(2-3)3.1 测试题一...
3.1 回归分析的基本思想及其初步应用 学案(人教A版选修2-3) (1)
3.1 回归分析的基本思想及其初步应用 学案(人教A版选修2-3) (1)_数学_高中教育_教育专区。高一数学正弦和余弦定理测试题一、选择题: 1、Δ ABC 中,a=1,b=...
【数学】3.1《回归分析的基本思想及其初步应用》测试(新人教A版选修2-3)
【数学】3.1《回归分析的基本思想及其初步应用》测试(新人教A版选修2-3)_数学_高中教育_教育专区。高中新课标选修(2-3)3.1 测试题一、选择题 1.下列结论正确...
人教版高中数学选修2-3回归分析的基本思想及其初步应用教案
人教版高中数学选修2-3回归分析的基本思想及其初步应用教案_数学_高中教育_教育专区。回归分析的基本思想及其初步应用教案 1 3.1 回归分析的基本思想及其初步应用(共...
人教a版高中数学选修2-3配套练习:3.1 回归分析的基本思想及其初步应用
人教a版高中数学选修2-3配套练习:3.1 回归分析的基本思想及其初步应用_数学_高中教育_教育专区。课时训练 14 一、选择题 回归分析的基本思想及其初步应用 1.为了考...
3.1.2回归分析的基本思想及其初步应用(2) - 副本
3.1.2回归分析的基本思想及其初步应用(2) - 副本_数学_高中教育_教育专区。编号.... 文华高中高二数学选修 2-3 《回归分析的基本思想及其初步应用》节节过关达标...
更多相关标签:
物理选修3.1 | 物理选修3.1经典例题 | 香港回归收藏品 | 防骗选修课走红 | 高校选修考使用安全套 | 德国史网络选修答案 | 高中物理选修3 1 | 爆笑防骗选修课走红 |