当前位置:首页 >> 数学 >>

回归分析的基本思想及其初步应用》PPT课件


1.1回归分析的基本 思想及其初步应用

复习:两个变量之间关系
问题1:正方形的面积y与正方形的边长x之间 的函数关系是 确定性关系 y = x2 问题2: 在 7 块并排、形状大小相同的试验 田上 进行施肥量对水稻产量影响的试验,得 到如下所示的一组数据:
施化肥量x 15 水稻产量y 330

20 345

/>
25 365

30 405

35 445

40

45

450 455

现实生活中两个变量间的关系有哪些呢? 不相关 两个变量的关系 函数关系 线性相关 相关关系 非线性相关 相关关系:对于两个变量,当自变量取值一定 时,因变量的取值带有一定随机性的两个变量 之间的关系。

相关关系与函数关系有怎样的不同?
函数关系中的两个变量间是一种确定性关系 相关关系是一种非确定性关系

函数关系是一种理想的关系模型 相关关系在现实生活中大量存在,是更一般的情况

b^ ?

?x y
i ?1 n i

n

i

?nxy ?nx
?
?2

? ?

? ?a ? ? bx ? y
1 n x ? ? xi n i ?1
?

?x
i ?1

2 i

a ^ ? y ? b^ x
回归直线必过样本点的中 心

?

1 n y ? ? yi n i ?1
?

( x, y)

? ?

回归分析的基本步骤:
画散点图 求回归方程 预报、决策
这种方法称为回归分析. 回归分析是对具有相关关系的两个变量进行统 计分析的一种常用方法.

对于线性相关的两个变量用什么方法来刻划之 间的关系呢? 最小二乘估计 最小二乘估计下的线性回归方程:
?? b

? ( x ? X )( y ? Y )
i ?1 i i

n

? ? ? y ? bx ? a

?(X
i ?1

n

i

? X)

2

? ? ? Y ? bX a

例1 从某大学中随机选取8名女大学生,其身高和体重数据 如表1-1所示。
编号 身高/cm 体重/kg 1 165 48 2 165 57 3 157 50 4 170 54 5 175 64 6 165 61 7 155 43 8 170 59

求根据一名女大学生的身高预报她的体重的回归方程,并 预报一名身高为172cm的女大学生的体重。 解:选取身高为自变量x,体重为因变量y,作散点图:

求回归方程:

? ? 0.849 x ? 85.712 y
身高172cm女大学生体重 ? = 0.849×172 - 85.712 = 60.316(kg) y
探究:身高为172cm的女大学生的体重一定是60.316kg吗? 如果不是,你能解析一下原因吗?
答:用这个回归方程不能给出每个身高为172cm的女大学生的体重的预测值, 只能给出她们平均体重的估计值。

由于所有的样本点不共线,而只是散布在某一直线的附近, 所以身高和体重的关系可以用线性回归模型来表示:

y ? bx ? a ? e
其中a和b为模型的未知参数,e称为随机 误差.

函数模型与“回归模型”的关系

函数模型:因变量y完全由自变量x确定
回归模型: 预报变量y完全由解释变量x和随机误差e确定

思考:产生随机误差项e的原
因是什么?

e 产生的主要原因: (1)所用确定性函数不恰当; (2)忽略了某些因素的影响; (3)观测误差。

问题二:在线性回归模型中,e是用bx+a预报真实值y的随机误

差,它是一个不可观测的量,那么应如何研究随机误差呢? e=y-(bx+a)

残差:一般的对于样本点(x1 ,y1),(x2 ,y2 ),...,(xn ,yn ),它们的随机误差为 ei ? yi ? bxi ? a, i ? 1, 2,...n, 其估计值为 ei ? yi ? y i ? yi ? b xi ? a, i ? 1, 2,...n ei 称为相应于点(xi ,yi )的残差。
? ? ? ? ?

结合例1除了身高影响体重外的其他因素是不可测量的,不能希望有某种 方法获取随机误差的值以提高预报变量的估计精度,但却可以估计预报变量 观测值中所包含的随机误差,这对我们查找样本数据中的错误和模型的评价 极为有用,因此在此我们引入残差概念。

? 随机误差 e ? y ? y
相应的随机误差为:

e的估计量

?? y? y ? e

样本点: ( x1 , y1 ),( x2 , y2 ), ... ,( xn , yn )

? i ? yi ? bxi ? a , i ? 1,2,..., n ei ? yi ? y
随机误差的估计值为:

? i 称为相应于点 ( xi , yi ) 的残差. e
? ) 称为残差平方和. ?,b Q( a

? ?a ? i ? yi ? y ? i ? yi ? bx ? , i ? 1, 2,..., n e i

n 1 1 2 2 2 ? ? ? 为 ? ? ? ei ? Q(a , b )( n ? 2) ? 的估计量 ? n ? 2 i ?1 n?2

问题三:如何发现数据中的错误?如何衡量随机模型的拟合 效果?
(1)我们可以通过分析发现原始数据中的可疑数据,判断建立模型的拟合效果。

? ? ? ? ? ? ? 1)计算 ei ? y ? b x ? a ( i i (i=1,2,...n) ? ? 残差分析( ? 2)画残差图 ? ( ? 1)查找异常样本数据 ? ? ? (3)分析残差图( ? 2)残差点分布在以O为中心的水平带状区域,并沿 ? ?水平方向散点的分布规律相同。 ? ? ?

残差图的制作和作用:
制作:坐标纵轴为残差变量,横轴可以有不同的选择.

横轴为编号:可以考察残差与编号次序之间的关系, 常用于调查数据错误. 横轴为解释变量:可以考察残差与解释变量的关系, 常用于研究模型是否有改进的余地.

作用:判断模型的适用性若模型选择的正确,残差图中的 点应该分布在以横轴为中心的带形区域.

下面表格列出了女大学生身高和体重的原始数据以及相应的残差数据。

编号 身高 /cm 体重 /kg 残差

1 165 48
6.373

2 165 57
2.627

3 157 50
2.419

4 170 54
4.618

5 175 64
1.137

6 165 61
6.627

7 155 43
2.883

8 170 59
0.382

几点说明:
第一个样本点和第6个样本点的残差比较大,需要确认在采集过程中是否有人为 残差图的制作及作用。 的错误。如果数据采集有错误,就予以纠正,然后再重新利用线性回归模型拟合数 据;如果数据采集没有错误,则需要寻找其他的原因。 ? 坐标纵轴为残差变量,横轴可以有不同的选择; 另外,残差点比较均匀地落在水平的带状区域中,说明选用的模型计较合适,这 样的带状区域的宽度越窄,说明模型拟合精度越高,回归方程的预报精度越高。 ? 若模型选择的正确,残差图中的点应该分布在以 横轴为心的带形区域; ? 对于远离横轴的点,要特别注意。

身 高 与 体 重 残 差 图

异 常 点
? 错误数据 ? 模型问题

误差与残差,这两个概念在某程度上具有很大的相似 性, 都是衡量不确定性的指标,可是两者又存在区别。
误差与测量有关,误差大小可以衡量测量的准确性, 误差越大则表示测量越不准确。误差分为两类:系统 误差与 随机误差。其中,系统误差与测量方案有关,通过改 进测量方案可以避免系统误差。随机误差与观测者, 测量工具,被观测物体的性质有关,只能尽量减小, 却不能避免。 残差――与预测有关,残差大小可以衡量预测的准确 性。残差越大表示预测越不准确。残差与数据本身的 分布特性,回归方程的选择有关。

(2)我们可以用相关指数R2来刻画回归的效果,其计算公式是

R ? 1?
2

2 ? ( y ? y ) ? i i 2 ( y ? y ) ? i i ?1 i ?1 n

n

残差平方和 ? 1? 。 总偏差平方和

显然,R2的值越大,说明残差平方和越小,也就是说模型拟合效果越好。 在线性回归模型中,R2表示解析变量对预报变量变化的贡献率。 R2越接近1,表示回归的效果越好(因为R2越接近1,表示解析变量和预报变量的 线性相关性越强)。 如果某组数据可能采取几种不同回归方程进行回归分析,则可以通过比较R2的值 来做出选择,即选取R2较大的模型作为这组数据的模型。

注:相关指数R2是度量模型拟合效果的一种指标。在线性模型中,它代表 自变量刻画预报变量的能力。

相关系数
r=

?(x
i=1 n i=1

n

i

- x)(yi - y)
n

?

?x y
i?1

n

i i

?nxy

_ _

2 2 (x x) (y y) ? i ? i i=1

? n 2 ? _ ?2 ?? n 2 ? _ ?2 ? ? ? xi ? n? x ? ?? ? yi ? n? y ? ? ? i?1 ? ? ? ? ? ? ? ? ?? i?1 ?

相关系数的性质 (1)|r|≤1. (2)|r|越接近于1,相关程度越强;|r|越接近于0, 相关程度越弱. ? 注:b 与 r 同号 ? 问题:达到怎样程度,x、y线性相关呢?它们的相 关程度怎样呢?

相关系数

r?

?(x
i=1

n

i

- x)(yi - y)
n 2 2

?(x
i=1

n

i

- x) ×?(yi - y)
i=1

r>0正相关;r<0负相关.通常:

r∈[-1,-0.75]--负相关很强;
r∈[0.75,1]—正相关很强; 对r进行显 著性检验

r∈[-0.75,-0.3]--负相关一般; r∈[0.3, 0.75]—正相关一般;
r∈[-0.25, 0.25]--相关性较弱;

下面我们用相关指数分析一下例1:

来源 回归变量 残差变量 总计


平方和 225.639 128.361 354

比例 0.64 0.36 1

预报变量的变化程度可以分解为由解释变量引起的变化程度与 残差变量的变化程度之和,即
yi )2 ? ? ( ? yi ? y)2 ? ( yi ? y) ? ? ( yi ? ?
2 i ?1 i ?1 i ?1 n n n

从上中可以看出,解析变量对总效应约贡献了64%,即 R2?0.64,可以叙述为“身高解析了64%的体重变化”,而随 机误差贡献了剩余的36%。 所以,身高对体重的效应比随机误差的效应大得多。

问题四:结合例1思考:用回归方程预报体重时应注意什么?

1.回归方程只适用于我们所研究的样本的总体。 2.我们建立的回归方程一般都有时间性。 3.样本取值的范围会影响回归方程的适用范围。 4.不能期望回归方程得到的预报值就是预报变量的精确值。 涉及到统计的一些思想: 模型适用的总体;模型的时间性; 样本的取值范围对模型的影响;模型预报结果的正确 理解。

问题五:归纳建立回归模型的基本步 骤
一般地,建立回归模型的基本步骤为:

(1)确定研究对象,明确哪个变量是解析变量,哪个变量是预报变量。
(2)画出确定好的解析变量和预报变量的散点图,观察它们之间的关系 (如是否存在线性关系等)。

(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则 选用线性回归方程y=bx+a).
(4)按一定规则估计回归方程中的参数(如最小二乘法)。 (5)得出结果后分析残差图是否有异常(个别数据对应残差过大,或残 差呈现不随机的规律性,等等),过存在异常,则检查数据是否有误,或 模型是否合适等。

问题六:若两个变量呈现非线性关系,如何解决? (分析例2)
例2 一只红铃虫的产卵数y和温度x有关。现收集了7组观测数据列于表中:

温度xoC 产卵数y/个

21 7

23 11

25 21

27 24

29 66

32 115

35 325

试建立产卵数y与温度x之间的回归方程.

方 法 一 : 一 元 函 数 模 型

选变量

350 300 250

解:选取气温为解释变量x,产卵数 为预报变量y。

画散点图

200 150 100

选模型

50

0
0 3 6 9 12 15 18 21 24 27 30 33 36 39

估计参数

假设线性回归方程为 :?=bx+a 由计算器得:线性回归方程为y=19.87x-463.73

评价模型

2≈0.8642=0.7464 相关指数 R2y =r 当 x=28时, = 19.87×28-463.73≈ 93

问题1

选用y=c1x2+c2 ,还是y=c1x2+cx+c2 ? 如何求c1、c2?
y= c1 x2+c2 非线性关系 产卵数 变换 t=x2 y= c1 t+c2 线性关系

方 法 二 , 二 元 函 数 模 型

问题2

问题3

400 300 200 100

-40

-30

-20

0 -10 0 -100 -200

气 温
10 20 30 40

平方变换:令t=x2,产卵数y和温度x之间二次函数模型 y=bx2+a就转化为产卵数y和温度的平方t之间线性回归模型

y=bt+a
温度 温度的平方t 产卵数y/个

21 441 7

23 529 11

25 625 21

27 729 24

29 841 66

32 1024 115

35 1225 325

作散点图,并由计算器得: y和t之间的线性回归方程 为y=0.367t-202.54,相关指数R2=r2≈0.8962=0.802 将t=x2代入线性回归方程得: y=0.367x2 -202.54 且R2=0.802,
产卵数y/个 350 300 250 200 150 100 50 0 0 150 300 450 600 750 900 1050 1200 1350

t

方 法 三 : 指 数 函 数 模 型

-10

产卵数 450 400 350 300 250 200 150 100 50 0 -5 -50 0

气 温

5

10

15

20

25

30

35

40

y ? c3ec4 x
非线性关系

变换 对数

y=bx+a

线性关系

ln y ? ln c3 ? ln e

c4 x

? ln c3 ? c4 x ln e ? ln c3 ? c4 x

令 ln c3 ? a, c4 ? b, ln y ? z, 则有z ? bx ? a
温度x/ c
Z=lny
?

21

23

25

27

29

32

35

1.9 46
7

2.3 3.4 3.1 4.1 98 05 78 90
11 21 24
^

4.74 5.78 5 4
115 325

产卵数y/ 个

66

由计算器得:z关于x的线性回归方程 z ? 0.272 x ? 3.489 因此y关于x的非线性回归方程为y 相关指数
^

? e 0.272 x ?3.489

R 2 ? 0.98

最好的模型是哪个?

函数模型

相关指数R2

线性回归模型

0.7464

二次函数模型

0.802
显然,指数函数模型最好!

指数函数模型

0.98

利用残差计算公式:
0.272 xi ? 3.849 (1) (1) ? ? ei ? yi ? y i ? y i ? e , i ? 1, 2,? ,7

? y

(1)

?e

0.272 x ? 3.849

(2) 2 ? y ? 0.367 x ? 202.543

?i (2) ? yi ? y ? i (2) ? yi ? 0.367 xi 2 ? 202.543, i ? 1,2,?,7 e
X 21 23 25 27 29 32 35

Y

7

11

21

24

66 9.230

115

325

1.875 -8.950 ?i(1) 0.557 e ?i(2) 47.69 0.101 e 19.40 6 0

5.832 41.000 40.104

-13.381 34.67 5 -58.265 77.96
8

故指数函数模型的拟合效果比二次函数的模拟效果好.

在散点图中,样本点没有分布在某个带状区域内, 因此两个变量不呈现线性相关关系,所以不能直接 利用线性回归方程来建立两个变量之间的关系. 根据已有的函数知识,可以发现样本点分布在某一 c2 x 条指数函数曲线 的周围,其中c1和c2是 y ? c1e 待定参数. 令z=lny,则变换后样本点应该分布在直线z=bx+a (a=lnc1,b=c2)的周围.

利用线性回归模型建立y和x之间的非线性回归方程. 当回归方程不是形如y=bx+a时,我们称之为非线性回 归方程.

比《数学3》中“回归”增加的内容
数学3——统计 1. 2. 3. 4. 画散点图 了解最小二乘法的思想 求回归直线方程 y=bx+a 用回归直线方程解决应用问题 5. 6. 7. 8. 9. 10.

选修1-2——统计案例 引入线性回归模型

y=bx+a+e 了解模型中随机误差项e产生的原因 了解相关指数 R2 和模型拟合的效果之间的关系
了解残差图的作用 利用线性回归模型解决一类非线性回归问题 正确理解分析方法与结果

回归分析知识结构图
问题背景分析

散点图

两个变量线性相关

两个变量非线性相关

最小二乘法
线性回归模型

残差分析
R2

非线性回归模 型

应用
注:虚线表示高中阶段不涉及的关系


相关文章:
1、1回归分析的基本思想及其初步应用
新课标 数学 选修 1-2 1.1 回归分析的基本思想及其初步应用 (教师用书独具) ●三维目标 1.知识与技能 通过典型案例的探究, 了解回归分析的基本思想,会对两个...
1.1.1_回归分析的基本思想及其初步应用教案
高中数学新课标选修 1-2 课时计划 授课时间: 2012 年月日(星期 )第节 总第 课时 第一课时 1.1 回归分析的基本思想及其初步应用(一) 教学要求:通过典型案例...
1.1回归分析的基本思想及其初步应用
搜 试试 7 帮助 全部 DOC PPT TXT PDF XLS 百度文库 教育专区 高中教育 数学1.1回归分析的基本思想及其初步应用_数学_高中教育_教育专区...
1.1回归分析的基本思想及其初步应用导学案及答案
搜 试试 7 帮助 全部 DOC PPT TXT PDF XLS 百度文库 教育专区 高中教育 ...1.1回归分析的基本思想及其初步应用导学案及答案_数学_高中教育_教育专区。第04...
回归分析的基本思想及其初步应用
回归分析的基本思想及其初步应用”这一节中进一步介绍回归分析的基本 思想及其初步应用.这部分内容《教师用书》共计 4 课时,第一课时:介绍线性 回归模型的数学...
1.1回归分析的基本思想及其初步应用 教学设计 教案
1.1回归分析的基本思想及其初步应用 教学设计 教案。教学准备 1. 教学目标 1...随堂练习 【师】下面针对本节课所学,做几道练习题 【板书/PPT】 1.散点图...
回归分析的基本思想及其初步应用练习
搜 试试 7 帮助 全部 DOC PPT TXT PDF XLS ...回归分析的基本思想及其初步应用练习_数学_高中教育_...2015小升初英语复习备考总复习课件(共91页) 2015小...
回归分析的基本思想及其初步应用
回 归分 析的基本 思想 及其初步 应用学习任务:进一步了解与线性回归模型有关的一些统计思想(引入 残差变量的必要性;残差分析和相关指数的作用;对模型预报结果的正...
1.1.1回归分析的基本思想及其初步应用
搜试试 2 悬赏文档 全部 DOC PPT TXT PDF XLS 广告 百度文库 教育专区 ...1.1.1回归分析的基本思想及其初步应用_数学_高中教育_教育专区。2015——2016 ...
更多相关标签:
回归分析的基本思想 | logistic回归基本思想 | 逐步回归的基本思想 | 逐步回归法的基本思想 | 毛泽东思想初步形成于 | 毛泽东思想初步形成 | 分数的初步认识课件 | 角的初步认识ppt课件 |