当前位置:首页 >> 数学 >>

相关性和最小二乘法


相关性 最小二乘法

Y=2x+1

函数关系

Y=In3

Y=x2+4

确定关系

生活中,不是一一对应关系的现象有哪些?
年龄与身高

相关关系

网速与下载 文件时间

气候与收



非确定 关系

学生成绩与教师水平之间存在着某种联 系,但又不是必然联系,对于学生成绩 与教师水平之间的这种不确定关系,我 们称之为相关关系。

函数关系与相关关系
函数关系 确定性 确定性 因果性 因果关系 相关关系
身高160cm的同学体重 不一定在46kg,但全 体学生会呈身高越高, 体重越大的趋势

非确定性 但总体而言有联系 可以是因果关系 也可以是伴随关系

儿童脚的大小与阅读能 力呈现强的相关性,但 学会新词并不能使脚变 大,是伴随关系

相关关系表示方法
函数表示方法

列表

画图像

求解析式

散点图

最小二乘法

在一次对人体脂肪含量和年龄关系的研究中,研 究人员获得了一组样本数据: 根据上述数据,人 体的脂肪含量与年龄之间有怎样的关系?
年 龄 脂 肪 23 27 39 41 45 49 50 53 54 56 57 58 60 61

9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6

随着年龄 的增加, 脂肪含量 也在增加

还有更直观 的表示方法 吗?

脂肪含量 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄

曲线拟合
线性相关: 数据在一条直线附近波动,则

变量间 是线性相关 非线性相关: 数据在一条曲线附近波动,则
变量间 是非线性相关 不相关: 数据在图中没有显示任何关系, 则是 不相关

非线性相关

非线性相关

线性相关

不相关

正相关

负相关

就像函数中的增函数和减函数。即一 个变量从小到大,另一个变量也从小到 大,或从大到小。对于图1中的两个变量 的相关关系,我们称它为正相关。图2中 的两个变量的相关关系,称为负相关。

走进高考
【1】(2009· 海南)对变量x, y有观测数据(xi , yi) (i=1, 2,…,10), 得散点图(1); 对变量u, v,有观测数据(ui , vi)(i=1, 2,…, 10), 得散 点图(2), 由这两个散点图可以判断( C ) A.变量x与y正相关,u与v正相关 B.变量x与y正相关,u与v负相关 C.变量x与y负相关,u与v正相关 D.变量x与y负相关,u与v负相关

题 型一

利用散点图判断两个变量的相关关系

【例1】山东鲁洁棉业公司的科研人员在7块并排、 形状大小相同的试验田上对某棉花新品种进行施化肥 量x对产量y影响的试验,得到如下表所示的一组数据 (单位:kg). 施化肥量 x 15 20 345 25 365 30 405 35 445 40 450 45 455

棉花产量 330 y

(1)画出散点图; (2)判断是否具有相关关系.

解:(1)散点图如图所示

(2)由散点图知,各组数据对应点大致都在一条直线附近, 所以施化肥量x与产量y具有线性相关关系.

探究提高
散点图是由大量数据点分布构成的,是定义在具有 相关关系的两个变量基础之上的,对于性质不明确的两 组数据可先作散点图,直观地分析它们有无关系及关系 的密切程度.

变式训练 1

在某地区的12~30岁居民中随机抽取了10个人的 身高和体重的统计资料如下表:
身高(cm) 143 156 159 172 165 171 177 161 164 160 体重(kg) 41 49 61 79 68 69 74 69 68 54

根据上述数据,画出散点图并判断居民的身高和 体重之间是否有相关关系.
解 : 以 x 轴表示身高 ,y 轴表示 体重 , 可得到相应的散点图 如图所示: 由散点图可知,两者之 间具有相关关系.

对具有相关关系的两个变量进行统计分析的 方法叫回归分析 从数学的角度来解释:上图中点的分布从整 体上看大致在一条直线附近。我们称图1、2中的 两个变量具有线性相关关系。这条直线叫做回归 直线。 对两个变量进行的线性分析叫做线性回归分析
脂肪含量 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 年龄 40 45 50 55 60 65

在这些点附近可画直线不止一条,哪条 直线最能代表x与y之间的关系呢?

脂肪含量 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄

脂肪含量 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄

脂肪含量 40 35 30 25 20 15 10 5 0 0 5 10 15 20 25 30 35 40 45 50 55 60 65 年龄

一个好的线性关系要保证这条直线与所有点都近 即:从整体上看,各点与此直线的距离和最小

最小二乘法
在线性相关中,保证各点与此直线的接近程度最高,即距离和最 小。
n 2

2 2 2 2 ? Q ? ? ( yi ? yi ) ? ( y1 ? bx1 ? a) ? ( y2 ? bx2 ? a) ? ( y3 ? bx3 ? a) ????? ( yn ? bxn ? a) i ?1
销售表 8.6
销售额/万元

8.4 8.2 8 7.8 7.6 0 1 2 3 月份 4 5 6

令回归方程为 y=a+bx,则要使得 距离和最小,相当 于求当a,b取什么 值时Q最小

a,b取下值时Q最小

b?

? ( x ? x)( y ? y) ? x y ? nx y
i ?1 i i

n

n

? ( x ? x)
i ?1 i

n

?

2

i ?1 n

i

i

?x
i ?1

2

i

? nx

2

a ? y ? bx
1 n 其中 x ? ? xi n i ?1





1 n y ? ? yi n i ?1
推导过程 见参考书

题 型二

求线性回归方程

【例2】某地10户家庭的年收入和年饮食支出的统计资料 如下:
年收入 x(万元) 年饮食支 出y(万元) 2 0.9 4 4 6 6 6 7 7 8 10

1.4 1.6 2.0 2.1 1.9 1.8 2.1 2.2 2.3

(1)根据表中数据,确定家庭的年收入和年饮食支出 是否具有相关关系; (2)若(1)具有线性相关关系,求出y关于x的线性回归 方程.

解:(1)由题意知, 年收入 x 为解释变量,年饮食支出 y 为 预报 变量, 作散点图如图所示.

从图中可以看出,样本点呈条状分布, 年收入和年饮食支出具有线性相关关系, 因此可以用线性回归方程刻画它们之间的关系.

2 (2)∵ x = 6, y = 1.83,∑ x x i = 406,∑ i yi = 117.7, 10 10 =1 i= 1 i 2 (2)∵ x =6, y =1.83,∑ xi =406,∑ xiyi=117.7, 10 i=1 i=1

10

10

∑ x- -x 10 y x y i yi10 10 ∑ x y = i 1 i i ? =1 i b ∴ = 10 ∑ ≈ 0.172, x y, 10 xiyi-10 ∴ b= ≈ 0.172 = i2 1 2 2 2 ? ∴b ∑ = ≈0.172, ∑ x - 10 x 10 x - 10 x i i = =
i 1 i

10

1

? ? = a=y y- x =x 1.83 - 0.172 6=0.798. a -bb = 1.83 -× 0.172 × 6= 0.798. ? x =1.83-0.172×6=0.798. ? = y -b a

2 ∑ x i -10 x = i 1

2

从而得到线性回归方程为 y = 0.172x+ 0.798. ? =0.172x+0.798. 从而得到线性回归方程为 y 探究提高

从本题可以看出,求线性回归方程,关键在于正确 求出系数a, b,由于计算量较大,所以计算时要仔细谨慎, 分层进行,避免因计算产生失误,特别注意,只有在散点图 大体呈线性时,求出的线性回归方程才有意义.

变式训练 2

在2011年春节期间,某市物价部门对本市五个商场 销售的某商品一天的销售量及其价格进行调查,五个商场 的售价x元和销售量y件之间的一组数据如下表所示: 9 9.5 10 10.5 11 价格x 11 10 8 6 5 销售量y 通过分析,发现销售量 y与商品的价格x具有线性相 关关系,则销售量 y 关于商品的价格 x 的线性回归方程为 y=-3.2x+40 ______________.
i 1 2 ∑ x y = 392 , x = 10 , y = 8 , ∑ x i i i = 502.5, = = i 1 5 5

代入公式,得 b=-3.2 ? ,所以,a= y -b x =40,

故线性回归方程为y=-3.2x+40.

代入公式,得 b =-3.2,

? x =40, ? = y?b 所以, a

题 型 三 利用线性回归方程对总体进行估计
【例3】某种产品的宣传费支出x与销售额y (单位:万元)之 间有如下对应数据: x 2 4 5 6 8 y 30 40 60 50 70

(1)画出散点图; (2)求线性回归方程; (3)试预测宣传费支出为10万元时,销售额多大?
解:(1)根据表中所列数据可得 散点图如图所示:

25 250 (2)计算得: x = =5, y = =50, 5 5
i=1 5 145 ? y ? ? x x ∑x2i=145,∑xiyi=1 380. 5
2 i ?1 i i ?1 i 5 5 i

? 1380

于是可得 ? 于是可得 b

a= y -b x =50-6.5×5=17.5, ? x =50-6.5× ? = y -b a = 17.5 ,17.5. 因此,所求线性回归方程是 y5 = 6.5 x+

i=1 5 5 x y -5 x y ∑ i i 1 380-5×5×50 =1 i∑ xiyi - 5 x y 5×50 b= i= = 1 380-5×2 =6.5, 51 =∑ 5 2 -5 x 2 = 145-5×5 2 =6.5, 145-5×5 i 2i-5 x 2 i=1 ∑ x i=1

x

(3) 由上面求得的线性回归方程可知, ? =6.5x+17.5. y 因此,所求线性回归方程是 当宣传费支出为10万元时, (3)由上面求得的线性回归方程可知, y=6.5×10+17.5=82.5(万元), ? =6.5×10+17.5=82.5(万元), 当宣传费支出为 10 万元时, y 即这种产品的销售额大约为82.5万元. 即这种产品的销售额大约为 82.5 万元.

变式训练 3

下表提供了某厂节能降耗技术改造后生产甲产品 过程中记录的产量记录的产量x (吨)与相应的生产能耗 y(吨标准煤)的几组对照数据 x y 3 2.5 4 3 5 4 6 4.5

(1)请画出上表数据的散点图; (2)请根据上表提供的数据,用最小二乘法求出y关 于x的线性回归方程y=bx+a (3)已知该厂技改前100吨甲产品的生产能耗为90吨 标准煤.试根据(2)求出的线性回归方程,预测生产100吨 甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5)

变式训练 3

解: (1) 散点图如图

变式训练 3 n

(2)∵ (2)∵ ∵ (2)

x y =3 ? 2.5+4 ? 3+5 ? 4+6 ? 4.5=66.5, ? =3? 2.5+4? 3+5? 4+6? 4.5=66.5, xy y =3 ?2.5+4 ?3+5 ?4+6 ?4.5=66.5, ?x
n n
i ?1 ? 1 ii? 1 i i ii ii

3? 4?5?6 2.5 ? 3 ? 4 ? 4.5 3? ?4 4? ?5 5? ?6 6 =4.5, y = 2 2..5 5? ?3 3? ?4 4? ?4 4..5 5 =3.5, x =3 = =4.5, y = =3.5, x= y= =4.5, =3.5, x 4 4 4 4 4 4

x ? x ?x

∑ xiyi- 4 x · y 66.5 66.5 ? 4 ? 4.5 ? 3.5 66.5 ?3.5 63 ? 0.7, , -? 4× 4.5× = ? i 1 ? b ? 66.5 ?4 4? ?4.5 4.5 ? 3.5 ? 66.5 66.5 ? 63 ∴b b =? = 0.7 ,, ?= 4 ? 3.5 ? 2 2 63 ? ? ? 66.5 ? 0.7, 86 ? 81 , ? b ? ? ? 0.7, 2 ? 4? 2 4.52 86- 4× 4.5 86 2 ∑ x - 4 x 86? ?81 81 i ? 86 ?4 4? ?4.5 4.5 86 i=186 ?= a ? yy- ?bbx ?3.5 3.5 ? 0.7 ? 4.5 ? 0.35, a x = - 0.7 × 4.5 = 0.35. ?? a ?y y? ?bx bx ? ? 3.5 3.5? ?0.7 0.7? ?4.5 4.5 ? ? 0.35, 0.35, ? a ∴所求的线性回归方程为y=0.7x+0.35. ? ? 0.7 x ? 0.35. 故线性回归方程为 y ?? y ? 0.7 0.7x x? ? 0.35. 0.35. 故线性回归方程为 y ? 故线性回归方程为

2 2 2 i i ?1 ii ? 1 4 ii? 1

n n n

? 3 ? 4 ? 5 ? 6 ? 86. ?3 3 ? ?4 4 ? ?5 5 ? ?6 6 ? ? 86. 86. ?
2 2 2 2 2 2 2 2 2 2 2 2

变式训练 3

(3)根据回归方程的预测,现在生产100吨产品消耗的 标准煤的数量为 0.7×100+0.35=70.35.
5 4

y = 0.7x + 0.35

能耗

3 2 1 0 0 1 2 3 产量 4 5 6 7

故耗能减少了90-70.35=19.65(吨).

走进高考
【2】(2010湖南)某商品销售量y(件)与销售价格x(元/件)负 相关,则其回归方程可能是( A.y=-10x+200 C.y=-10x-200
^ ^

A)
B.y=10x+200 D.y=10x-200
^ ^

解析:选A.由负相关定义得斜率小于0,排除B、
D,又因x,y均大于0,排除C.故选A.

感悟提高
方法与技巧

1.求回归方程,关键在于正确求出系数_____, a,b 由于 ____ a,b的计算量大,计算时应仔细谨慎,分层进行,避免因 计算而产生错误. (注意线性回归方程中一次项系数为 ___, b 常数项为___, a 这与一次函数的习惯表示不同.) 2. 回归分析是处理变量相关关系的一种数学方 法.主要解决: (1)确定特定量之间是否有相关关系,如果有就找 出它们之间贴近的数学表达式; (2)根据一组观察值,预测变量的取值及判断变量 取值的变化趋势; (3)求出线性回归方程.

感悟提高
失误与防范

1 .回归分析是对具有相关关系的两个变量 进行统计分析的方法,只有在散点图大致呈线性

时,求出的线性回归方程才有实际意义,否则,
求出的线性回归方程毫无意义.

2.根据回归方程进行预报,仅是一个预报
值,而不是真实发生的值.


相关文章:
标准曲线的最小二乘法拟合和相关系数
标准曲线的最小二乘法拟合与相关系数 尹情胜 标准曲线的最小二乘法拟合和相关系数(合肥工业大学控释药物研究室 尹情胜) 1 目的用最小二乘法拟合一组变量( ,,...
第十章 第三节 相关性、最小二乘法
25页 免费 最小二乘法 8页 免费如要投诉违规内容,请到百度文库投诉中心;如要提出功能问题或意见建议,请点击此处进行反馈。第十章 第三节 相关性最小二乘法...
最小二乘法小结
最小二乘法原理 1. 介绍部分最小二乘法是获得物理参数唯一值的标准方法, 具体是通过这些参数或者在已知数学模型中 与这些参数相关的参数的多余观测值来求得。 ...
2015年高三文科复习——统计与统计案例:【考点3】变量的相关性、最小二乘法及统计案例(解析版)
2015年高三文科复习——统计与统计案例:【考点3】变量的相关性最小二乘法及统计案例(解析版)_高考_高中教育_教育专区。【2015高考数学二轮复习】2015年高三文科...
偏最小二乘法基本知识
而偏最小二乘法则把它 们有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简 化(主成分分析)以及两组变量之间的相关性分析(典型...
最小二乘法在数学模型建立与检验中的运用
通过给出最小二乘法在Matlab中的代码计算模型参数,误差精确度,并给出检验模型是否具有多重共线,异方差性,序列相关性方法。最小二乘法在数学模型建立与检验中的...
教案《最小二乘法》
bi ?? ? 的和达到最小。 2 对于最小二乘法本身, 任何一组数据, 不论它们之间是否存在线性相关关系, 都可以用最小二乘法估计出一个线性方程来。所以,通过...
线性回归方程中的相关系数r
顺便补充一下: 一般做回归的时候要求拟合优度(实际值与拟合值相关系数的平方)...,bJ 通过最小二乘法求得。 则标准化回归系数 bj'=bj*(Xj 的标准差/Y 的...
计量经济学简答题及答案
计量经济学简答题及答案 1、比较普通最小二乘法、加权最小二乘法和广义最小...如果采用单方程 方法估计某一个方程,是不可能考虑这种相关性的,造成信息的损失...
自相关性习题及答案
相关性 一、名词解释 1 序列相关性 4 广义差分法 7 DW 检验 10 相关系数 2 虚假序列相关 3 差分法 5 自回归模型 6 广义最小二乘法 8 科克伦-...
更多相关标签:
最小二乘法和线性回归 | 最小二乘法和作图法 | 最小二乘法你和 | 回归分析和最小二乘法 | 最小二乘法和随机前沿 | 最小二乘法 | 最小二乘法公式 | 最小二乘法曲线拟合 |