当前位置:首页 >> 数学 >>

第70讲 变量的相关性、回归分析和独立性检验


1.会作两个有关联变量数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归 方程系数公式建立线性回归方程. 3.了解独立性检验的含义,会根据2×2列联表分析 判断事件A与B是否具有相关性.

4.了解回归分析的基本思想、方法及其简单应用.

1.两个变量间的相关关系 如果两个变量之间确实存在关系,但又没有函数关系 所具有的确定性,它们的关系带有随机性,则称这两 个变量具有① ____________ . 有相关关系的两个变量,若一个变量的值由小到大时, 另一个变量的值也是由小到大,这种相关称为② ___ _______ ;反之,一个变量的值由小到大,另一个变量 的值由大到小,这种相关称为③ __________ .

2.散点图 在平面直角坐标系中描点,得到关于两个变量的一组 数据的图形,这样的图形叫做④ __________ . 如果散点图中,相应于具有相关关系的两个变量所有 观察值的数据点,分布在一条直线附近,则称这两个 变量具有⑤ ______________ ,这条直线叫做⑥ _____ ? _________ ,方程为? ? bx ? a, y ? ? 其中b ?

? ? x ? x ?? y ? y ? ? x y ? nx y
i ?1 i i

n

n

? ? x ? x?
i ?1 i

n

?

i ?1 n

i

i

2

?x
i ?1

? ? , a ? y ? bx.

2 i

? nx

2

3.最小二乘法 使残差平方和Q ? ? ? yi ? bxi ? a ? 为最小的方法,
2 i ?1 n

叫做⑦ ______________ . 4.线性回归模型

?1? 样本的相关系数r ?

?x y
i ?1 i n i ?1

n

i

? nx y
n

.

? xi ? x ?2 ? ? yi ? y ?2 ?
i ?1

当r ? 0时,表示两个变量正相关,

当r ? 0时,表示两个变量负相关, 越近于1,表明两个 r 变量的线性相关性越强: 越近于0,表明两个变量之间 r 几乎不存在线性相关关系.

? 2 ? 线性回归模型y = bx + a + e(e为随机误差).
? ? 3? 总体偏差平方和 ? ? ? yi ? y ?2,残差e
i ?1 n n
i

? yi ? ?i, y

残差平方和? ? yi ? ?i ?2,回归平方和 ? ⑧ ________ . y
i ?1

5.列联表(即列出两个分类变量的频率表)
A B a
c a+c

A
b
d b+d

合计 a+b
c+d n

B
合计

其中n为样本容量.

6.利用随机变量K 2 进行判断检验 n? ad ? bc ?2 K2 ? . ? a ? b ?? a ? c ??b ? d ?? c ? d ? 先假设两个分类变量x与y无关系,若K 2的值较大, 则拒绝假设,只要K 2 ? 2.706,就认为x与y有关系. 利用K 2来确定在多大程度可以认为“两个分类变量 有关系”的方法称为独立性检验.

【要点指南】 ①相关关系;②正相关;③负相关;④散点图; ⑤线性相关关系;⑥回归直线;⑦最小二乘法; ⑧总偏差平方和 ? 残差平方和

1.设(x1,y1),(x2,y2),?,(xn,yn)是变量 x 和 y 的 n 个样本点, 直线 l 是由这些样本点通过最小二乘法得到的线性回归直线(如 图),以下结论正确的是( )

A.x 和 y 的相关系数为直线 l 的斜率 B.x 和 y 的相关系数在 0 到 1 之间 C.当 n 为偶数时,分布在 l 两侧的样本点的个数一定相同 D.直线 l 过点(-,-) x y

【解析】由于回归直线方程过样本中心(-,-),故选 D. x y

2.变量 X 与 Y 相对应的一组数据为(10,1), (11.3,2), (11.8,3), (12.5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5), (11.3,4),(11.8,3),(12.5,2),(13,1),r1 表示变量 Y 与 X 之 间的线性相关系数,2 表示变量 V 与 U 之间的线性相关系 r 数,则( ) B.0<r2<r1 D.r2=r1

A.r2<r1<0 C.r2<0<r1

【解析】对于变量 Y 与 X 而言,Y 随 X 的增大而增大,故 Y 与 X 正相关,即 r1>0;而对于变量 V 与 U 而言,V 随 U 的增大而减少,故 V 与 U 负相关,即 r2<0,所以有 r2<0<r1, 故选 C.

3.通过随机询问 110 名性别不同的大学生是否爱 好某项运动,得到如下的列联表:

n?ad-bc?2 由 K2= 算得, ?a+b??c+d??a+c??b+d? 110×?40×30-20×20?2 K2= ≈7.8. 60×50×60×50

附表:

参照附表,得到的正确结论是(

)

A. 99%以上的把握认为“爱好该项运动与性别有关” 有 B. 99%以上的把握认为“爱好该项运动与性别无关” 有 C.在犯错误的概率不超过 0.1%的前提下,认为“爱好 该项运动与性别有关” D.在犯错误的概率不超过 0.1%的前提下,认为“爱好 该项运动与性别无关”

【解析】由独立性检验的思想方法可知, 正确选项为 A, 故选 A.

4.(2012· 广州一模)某产品的广告费用 x 与销售额 y 的统计 数据如下表:

根据上表可得回归方程 y =b x+a 中的 b 为 9.4,据此模型 预报广告费用为 6 万元时销售额为 65.5 万元.

【解析】 由题设求得样本中心为(3.5,42), 则 a =--b -=42-9.4×3.5=9.1, y x 所以回归直线方程为 y =9.4x+9.1, 将 x=6 代入得 y =65.5,应填 65.5.

5.给出下列四个叙述: ①两个变量之间若没有确定的函数关系,则这两个变量不 相关; ②正相关是两个变量相关关系的一种; ③“庄稼一枝花,全靠粪当家”说明农作物产量与施肥之 间有相关关系; ④根据散点图可判断两个变量之间有无相关关系. 其中正确的是 ②③④ .

【解析】 由两个变量之间的相关关系的概念知, ②③④ 均正确.



变量的相关性

【例 1】(1)对变量 x,y 有观测数据(xi,yi)(i=1,2,?,10), 得散点图(a);对变量 u,v 有观测数据(ui,vi)(i=1,2,?,10), 得散点图(b).由这两个散点图可以判断( )

A. 变量 x 与 y 正相关,u 与 v 正相关 B. 变量 x 与 y 正相关,u 与 v 负相关 C. 变量 x 与 y 负相关,u 与 v 正相关 D. 变量 x 与 y 负相关,u 与 v 负相关

(2)某市居民 2005~2009 年家庭平均收入 x(单位:万元) 与年平均支出 y(单位:万元)的统计资料如下表所示:

根据统计资料,居民家庭年平均收入的中位数是_________, 家庭年平均收入与支出有__________线性相关关系.

【解析】 (1)由图(a)中的数据随着 x 的增大而 y 减小,因 此变量 x 与 y 负相关;由图(b)中的数据随着 u 的增大而 v 增 大,因此变量 u 与 v 正相关,选 C. (2)由表中所给的数据知所求的中位数为 13,画出 x 与 y 的散点图知它们有较强的线性相关关系,故应填 13、较强的.

【点评】变量间是否具有线性相关关系,通常是依据统 计数据作出其散点图判定.

素材1

(1)某商品销量 y(件)与销售价格 x(元/件)负相关,

则其回归方程可能是( A ) A.y =-10x+200 B.y =10x+200 C.y =-10x-200 D.y =10x-200 (2)汽车的重量和汽车消耗一升汽油所行驶的路程 成负相关,这说明( A ) A.汽车越重,每消耗 1 升汽油所行驶的路程越短 B.汽车越轻,每消耗 1 升汽油所行驶的路程越短 C.汽车越重,消耗汽油越多 D.汽车越轻,消耗汽油越多

【解析】 (1)由图象知选项 B、D 为正相关,选 C 不 符合实际意义,故选 A;(2)由负相关意义,选 A.

二 回归分析
【例 2】(2011· 安徽卷)某地最近十年粮食需求量逐年上 升,下表是部分统计数据:

(1)利用所给数据求年需求量与年份之间的回归直线方 程 y =bx+a; (2)利用(1)中所求出的直线方程预测该地 2012 年的粮食 需求量.

【解析】 (1)由所给数据可以看出,年需求量与年份之间 是近似直线上升,下面来配回归直线方程,为此对数据预处理 如下:

对预处理后的数据,容易算得-=0,-=3.2, x y

?-4?×?-21?+?-2?×?-11?+2×19+4×29 260 b= = 40 =6.5, 42+22+22+42 a=--b-=3.2. y x 由上述计算结果,知所求回归直线方程为 y -257=b(x-2006)+a=6.5(x-2006)+3.2, 即 y =6.5(x-2006)+260.2.① (2)利用直线方程①,可预测 2012 年的粮食需求量为 6. 5(2012-2006)+260.2=6.5×6+260.2=299.2≈300(万吨).

【点评】回归分析应先分析数据并判断是否线性相关, 即其散点图是否分布在某直线附近,然后恰当地处理数据(便 于计算),根据线性回归方程的系数公式计算系数,确定线性 回归方程,最后依题设预测未来.

素材2
某车间为了规定工时定额,需要确定加工零件所花费的时间, 为此做了四次试验,根据试验数据得到如下图所示的散点图, 其中 x 表示零件的个数,y 表示加工时间.

^ ^ ^ (1)求出 y 关于 x 的线性回归方程y=bx+a; (2)试预测加工 10 个零件需多长时间?

【解析】 (1)-= x

2+3+4+5 =3.5, 4

2.5+3+4+4.5 -= y =3.5, 4 x y ?xiyi-4- -
i=1 4

^ 所以b= x ?x2-4-2 i
i=1 4

2×2.5+3×3+4×4+5×4.5-4×3.52 = 22+32+42+52-4×3.52 =0.7, ^=--b-=3.5-0.7×3.5=1.05, a y ^x ^ 所以线性回归方程为y=0.7x+1.05. ^ (2)当 x=10 时,y=0.7×10+1.05=8.05, 故加工 10 个零件大约需 8.05 小时.



独立性检验

【例 3】 某学生对其亲属 30 人的饮食习惯进行了一次 调查,并用茎叶图表示 30 人的饮食指数(图中饮食指数低 于 70 的人,饮食以蔬菜为主,饮食指数高于 70 的人,饮 食以肉类为主).

(1)根据茎叶图,帮助这位学生说明某亲属 30 人的饮食习惯; (2)根据以上数据完成下列 2×2 的列联表:

(3)能否有 99%的把握认为其亲属的饮食习惯与年龄有关, 并写出简要分析: n?ad-bc?2 附:K2= ,其中 n=a+b+c+d ?a+b??c+d??a+c??b+d?

【解析】 (1)在 30 位亲属中,50 岁以上(含 50 岁) 的人多以食蔬菜为主,50 岁以下的人多以食肉类为主. (2)2×2 的列联表如下:

30×?8-128?2 30×120×120 2 (3)因为 K = = =10>6.635. 12×18×20×10 12×18×20×10 所以有 99%的把握认为其亲属的饮食习惯与年龄有关.

【点评】新课标有关独立性检验的考纲要求是了解 2×2 列联表的基本思想和方法并能简单应用,此类问题 收集数据、处理数据是关键,依相关系数公式计算“K2” 的值并作出判断是过程.

素材3

某学校课题组为了研究学生的数学成绩与物理成绩之 间的关系, 随机抽取高二年级 20 名学生某次考试成绩(百分 制)如下表所示:

若数学成绩 90 分(含 90 分)以上为优秀,物理成绩 85 分(含 85 分)以上为优秀. (1)根据上表完成下面的 2×2 列联表;

(2)根据(1)中表格的数据计算,有多大的把握认为学 生的数学成绩与物理成绩之间有关系? n?ad-bc?2 (参考公式 K2= ) ?a+c??b+d??a+b??c+d?

【解析】 (1)2×2 列联表补充完整如下:

(2)提出假设 H0: 学生的数学成绩与物理成绩之间没有关系. 20×?5×12-1×2?2 根据上述列联表可以求得 K2= ≈8.802. 6×14×7×13 当 H0 成 立 时 , K2≥7.879 的 概 率 约 为 0.005 , 而 这 里 8.802>7.879, 所以我们有 99.5%的把握认为“学生的数学成绩与物理成 绩之间有关系”.

【点评】有关 2×2 联列表的独立性检验问题系新课标新 增考点,近年新课标命题省市常有考查,求解时一定要细心, 计算一定要准确.

备选例题

下面是两个变量间的一组数据:

^ (1)在同一直角坐标系中画出散点图、直线y =24 ^= 60x ; +2.5x 和曲线y 2+x

(2)比较所画直线与曲线, 哪一条更能表现这组数据之 间的关系? (3)分别计算用直线方程与曲线方程得到在 5 个 x 点处 的预测值与实际预测之间的误差, 比较两个误差绝对值之 和的大小.

【解析】 (1)所求作图形如下:

^= 60x 比直线y=24+2.5x 更能 ^ (2)从图形上看, 曲线y 2+x 表现这组数据间的关系. ^ (3)用直线y=24+2.5x 近似数据时,误差绝对值的和 ^= 60x 时,误差绝对值的和为 12.5,比 为 27.5,用曲线y 2+x 前者小得多.

? ? 1.计算回归直线方程中的参数 a、 b 时应分层进 行,避免因计算错误而产生误差.

2.求线性回归方程之前,应对数据利用散点图进 行线性相关分析.

3.回归分析的关键是根据散点图选择函数模型, 用相关系数判定哪种模型更好. 4.独立性检验不能用比例余数来判定,a、 b 、 c 、 d成比例扩大,K2的值是不同的,正确列出2×2列联 表是解题的关键,准确计算K2的值是重点.


相关文章:
变量的相关性、回归分析、独立性检验
变量的相关性回归分析独立性检验_高三数学_数学_高中教育_教育专区。第 65 讲 变量的相关性回归分析独立性检验 1. 读自然科学史,有些物理学家也是数学...
...变量间的相关关系、回归分析及独立性检验知识精讲素...
高中数学 第一章 统计案例 变量的相关关系、回归分析独立性检验知识精讲...其中女性 70 人,男性 54 人.女性中有 43 人主要的休闲方式是看电视,另外 ...
...变量间的相关关系、回归分析及独立性检验知识精讲素...
高中数学 第一章 统计案例 变量的相关关系、回归分析独立性检验知识精讲素材...其中女性 70 人,男性 54 人.女性中有 43 人主要的休闲方式是看电视,另外 ...
...变量间的相关关系、回归分析及独立性检验知识精讲素...
吴堡中学高中数学 第一章 统计案例 变量的相关关系、回归分析独立性检验知识...其中女性 70 人,男性 54 人.女性中有 43 人主要的休闲方式是看电视,另外 ...
...复习同步训练 12-5变量的相关性、回归分析和独立性检验
2016理科数学高考大一轮总复习同步训练 12-5变量的相关性回归分析和独立性检验_高中教育_教育专区。第 5 讲 变量的相关性回归分析和独立性检验 A 级训练 (...
高三数学《变量间的相关关系、回归分析及独立性检验》...
第1 页共 5 页 变量的相关关系、回归分析独立性检验命题:王全峰 一、...i xi yi 1 2 30 2 4 40 3 5 60 4 6 50 5 8 70 xiyi 60 160 ...
第3讲 变量间的相关关系与统计案例
以选择题或填空题的形式考查回归分析独立性检验中...两个变量之间具有线 性相关关系,这条直线叫回归直线...(1)调查的 500 位老年人中有 70 位需要志愿者...
【学海导航】2015届高三数学(人教版理B)第一轮总复习同...
据此估计这批乒乓球直径的平均值(结果保留两位小数). 第 70 讲 变量的相关性回归分析和独立性检验 1.在回归分析中,残差图中纵坐标为( ) A.残差 B.样本...
...数学一轮课时知能训练第3讲 回归分析与独立性检验
知能训练第3讲 回归分析与独立性检验_其它_高等...线性相关系数 r 越大,两个变量的线性相关性越强;...0.70 k 0.455 1.323 2.072 2.706 3.84 5.0...
第3讲 变量间的相关关系与统计案例
第3讲【2013 年高考会这样考】 变量的相关关系与统计案例 以选择题或填空题的形式考查回归分析独立性检验中的基本思想方法及其简单 应用. 【复习指导】 高考...
更多相关标签: