当前位置:首页 >> 数学 >>

第70讲 变量的相关性、回归分析和独立性检验


1.会作两个有关联变量数据的散点图,会利用散点 图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归 方程系数公式建立线性回归方程. 3.了解独立性检验的含义,会根据2×2列联表分析 判断事件A与B是否具有相关性.

4.了解回归分析的基本思想、方法及其简单应用.

1.两个变量间的相关关系 如果两个变量之间确实存在关系,但又没有函数关系 所具有的确定性,它们的关系带有随机性,则称这两 个变量具有① ____________ . 有相关关系的两个变量,若一个变量的值由小到大时, 另一个变量的值也是由小到大,这种相关称为② ___ _______ ;反之,一个变量的值由小到大,另一个变量 的值由大到小,这种相关称为③ __________ .

2.散点图 在平面直角坐标系中描点,得到关于两个变量的一组 数据的图形,这样的图形叫做④ __________ . 如果散点图中,相应于具有相关关系的两个变量所有 观察值的数据点,分布在一条直线附近,则称这两个 变量具有⑤ ______________ ,这条直线叫做⑥ _____ ? _________ ,方程为? ? bx ? a, y ? ? 其中b ?

? ? x ? x ?? y ? y ? ? x y ? nx y
i ?1 i i

n

n

? ? x ? x?
i ?1 i

n

?

i ?1 n

i

i

2

?x
i ?1

? ? , a ? y ? bx.

2 i

? nx

2

3.最小二乘法 使残差平方和Q ? ? ? yi ? bxi ? a ? 为最小的方法,
2 i ?1 n

叫做⑦ ______________ . 4.线性回归模型

?1? 样本的相关系数r ?

?x y
i ?1 i n i ?1

n

i

? nx y
n

.

? xi ? x ?2 ? ? yi ? y ?2 ?
i ?1

当r ? 0时,表示两个变量正相关,

当r ? 0时,表示两个变量负相关, 越近于1,表明两个 r 变量的线性相关性越强: 越近于0,表明两个变量之间 r 几乎不存在线性相关关系.

? 2 ? 线性回归模型y = bx + a + e(e为随机误差).
? ? 3? 总体偏差平方和 ? ? ? yi ? y ?2,残差e
i ?1 n n
i

? yi ? ?i, y

残差平方和? ? yi ? ?i ?2,回归平方和 ? ⑧ ________ . y
i ?1

5.列联表(即列出两个分类变量的频率表)
A B a
c a+c

A
b
d b+d

合计 a+b
c+d n

B
合计

其中n为样本容量.

6.利用随机变量K 2 进行判断检验 n? ad ? bc ?2 K2 ? . ? a ? b ?? a ? c ??b ? d ?? c ? d ? 先假设两个分类变量x与y无关系,若K 2的值较大, 则拒绝假设,只要K 2 ? 2.706,就认为x与y有关系. 利用K 2来确定在多大程度可以认为“两个分类变量 有关系”的方法称为独立性检验.

【要点指南】 ①相关关系;②正相关;③负相关;④散点图; ⑤线性相关关系;⑥回归直线;⑦最小二乘法; ⑧总偏差平方和 ? 残差平方和

1.设(x1,y1),(x2,y2),?,(xn,yn)是变量 x 和 y 的 n 个样本点, 直线 l 是由这些样本点通过最小二乘法得到的线性回归直线(如 图),以下结论正确的是( )

A.x 和 y 的相关系数为直线 l 的斜率 B.x 和 y 的相关系数在 0 到 1 之间 C.当 n 为偶数时,分布在 l 两侧的样本点的个数一定相同 D.直线 l 过点(-,-) x y

【解析】由于回归直线方程过样本中心(-,-),故选 D. x y

2.变量 X 与 Y 相对应的一组数据为(10,1), (11.3,2), (11.8,3), (12.5,4),(13,5);变量 U 与 V 相对应的一组数据为(10,5), (11.3,4),(11.8,3),(12.5,2),(13,1),r1 表示变量 Y 与 X 之 间的线性相关系数,2 表示变量 V 与 U 之间的线性相关系 r 数,则( ) B.0<r2<r1 D.r2=r1

A.r2<r1<0 C.r2<0<r1

【解析】对于变量 Y 与 X 而言,Y 随 X 的增大而增大,故 Y 与 X 正相关,即 r1>0;而对于变量 V 与 U 而言,V 随 U 的增大而减少,故 V 与 U 负相关,即 r2<0,所以有 r2<0<r1, 故选 C.

3.通过随机询问 110 名性别不同的大学生是否爱 好某项运动,得到如下的列联表:

n?ad-bc?2 由 K2= 算得, ?a+b??c+d??a+c??b+d? 110×?40×30-20×20?2 K2= ≈7.8. 60×50×60×50

附表:

参照附表,得到的正确结论是(

)

A. 99%以上的把握认为“爱好该项运动与性别有关” 有 B. 99%以上的把握认为“爱好该项运动与性别无关” 有 C.在犯错误的概率不超过 0.1%的前提下,认为“爱好 该项运动与性别有关” D.在犯错误的概率不超过 0.1%的前提下,认为“爱好 该项运动与性别无关”

【解析】由独立性检验的思想方法可知, 正确选项为 A, 故选 A.

4.(2012· 广州一模)某产品的广告费用 x 与销售额 y 的统计 数据如下表:

根据上表可得回归方程 y =b x+a 中的 b 为 9.4,据此模型 预报广告费用为 6 万元时销售额为 65.5 万元.

【解析】 由题设求得样本中心为(3.5,42), 则 a =--b -=42-9.4×3.5=9.1, y x 所以回归直线方程为 y =9.4x+9.1, 将 x=6 代入得 y =65.5,应填 65.5.

5.给出下列四个叙述: ①两个变量之间若没有确定的函数关系,则这两个变量不 相关; ②正相关是两个变量相关关系的一种; ③“庄稼一枝花,全靠粪当家”说明农作物产量与施肥之 间有相关关系; ④根据散点图可判断两个变量之间有无相关关系. 其中正确的是 ②③④ .

【解析】 由两个变量之间的相关关系的概念知, ②③④ 均正确.



变量的相关性

【例 1】(1)对变量 x,y 有观测数据(xi,yi)(i=1,2,?,10), 得散点图(a);对变量 u,v 有观测数据(ui,vi)(i=1,2,?,10), 得散点图(b).由这两个散点图可以判断( )

A. 变量 x 与 y 正相关,u 与 v 正相关 B. 变量 x 与 y 正相关,u 与 v 负相关 C. 变量 x 与 y 负相关,u 与 v 正相关 D. 变量 x 与 y 负相关,u 与 v 负相关

(2)某市居民 2005~2009 年家庭平均收入 x(单位:万元) 与年平均支出 y(单位:万元)的统计资料如下表所示:

根据统计资料,居民家庭年平均收入的中位数是_________, 家庭年平均收入与支出有__________线性相关关系.

【解析】 (1)由图(a)中的数据随着 x 的增大而 y 减小,因 此变量 x 与 y 负相关;由图(b)中的数据随着 u 的增大而 v 增 大,因此变量 u 与 v 正相关,选 C. (2)由表中所给的数据知所求的中位数为 13,画出 x 与 y 的散点图知它们有较强的线性相关关系,故应填 13、较强的.

【点评】变量间是否具有线性相关关系,通常是依据统 计数据作出其散点图判定.

素材1

(1)某商品销量 y(件)与销售价格 x(元/件)负相关,

则其回归方程可能是( A ) A.y =-10x+200 B.y =10x+200 C.y =-10x-200 D.y =10x-200 (2)汽车的重量和汽车消耗一升汽油所行驶的路程 成负相关,这说明( A ) A.汽车越重,每消耗 1 升汽油所行驶的路程越短 B.汽车越轻,每消耗 1 升汽油所行驶的路程越短 C.汽车越重,消耗汽油越多 D.汽车越轻,消耗汽油越多

【解析】 (1)由图象知选项 B、D 为正相关,选 C 不 符合实际意义,故选 A;(2)由负相关意义,选 A.

二 回归分析
【例 2】(2011· 安徽卷)某地最近十年粮食需求量逐年上 升,下表是部分统计数据:

(1)利用所给数据求年需求量与年份之间的回归直线方 程 y =bx+a; (2)利用(1)中所求出的直线方程预测该地 2012 年的粮食 需求量.

【解析】 (1)由所给数据可以看出,年需求量与年份之间 是近似直线上升,下面来配回归直线方程,为此对数据预处理 如下:

对预处理后的数据,容易算得-=0,-=3.2, x y

?-4?×?-21?+?-2?×?-11?+2×19+4×29 260 b= = 40 =6.5, 42+22+22+42 a=--b-=3.2. y x 由上述计算结果,知所求回归直线方程为 y -257=b(x-2006)+a=6.5(x-2006)+3.2, 即 y =6.5(x-2006)+260.2.① (2)利用直线方程①,可预测 2012 年的粮食需求量为 6. 5(2012-2006)+260.2=6.5×6+260.2=299.2≈300(万吨).

【点评】回归分析应先分析数据并判断是否线性相关, 即其散点图是否分布在某直线附近,然后恰当地处理数据(便 于计算),根据线性回归方程的系数公式计算系数,确定线性 回归方程,最后依题设预测未来.

素材2
某车间为了规定工时定额,需要确定加工零件所花费的时间, 为此做了四次试验,根据试验数据得到如下图所示的散点图, 其中 x 表示零件的个数,y 表示加工时间.

^ ^ ^ (1)求出 y 关于 x 的线性回归方程y=bx+a; (2)试预测加工 10 个零件需多长时间?

【解析】 (1)-= x

2+3+4+5 =3.5, 4

2.5+3+4+4.5 -= y =3.5, 4 x y ?xiyi-4- -
i=1 4

^ 所以b= x ?x2-4-2 i
i=1 4

2×2.5+3×3+4×4+5×4.5-4×3.52 = 22+32+42+52-4×3.52 =0.7, ^=--b-=3.5-0.7×3.5=1.05, a y ^x ^ 所以线性回归方程为y=0.7x+1.05. ^ (2)当 x=10 时,y=0.7×10+1.05=8.05, 故加工 10 个零件大约需 8.05 小时.



独立性检验

【例 3】 某学生对其亲属 30 人的饮食习惯进行了一次 调查,并用茎叶图表示 30 人的饮食指数(图中饮食指数低 于 70 的人,饮食以蔬菜为主,饮食指数高于 70 的人,饮 食以肉类为主).

(1)根据茎叶图,帮助这位学生说明某亲属 30 人的饮食习惯; (2)根据以上数据完成下列 2×2 的列联表:

(3)能否有 99%的把握认为其亲属的饮食习惯与年龄有关, 并写出简要分析: n?ad-bc?2 附:K2= ,其中 n=a+b+c+d ?a+b??c+d??a+c??b+d?

【解析】 (1)在 30 位亲属中,50 岁以上(含 50 岁) 的人多以食蔬菜为主,50 岁以下的人多以食肉类为主. (2)2×2 的列联表如下:

30×?8-128?2 30×120×120 2 (3)因为 K = = =10>6.635. 12×18×20×10 12×18×20×10 所以有 99%的把握认为其亲属的饮食习惯与年龄有关.

【点评】新课标有关独立性检验的考纲要求是了解 2×2 列联表的基本思想和方法并能简单应用,此类问题 收集数据、处理数据是关键,依相关系数公式计算“K2” 的值并作出判断是过程.

素材3

某学校课题组为了研究学生的数学成绩与物理成绩之 间的关系, 随机抽取高二年级 20 名学生某次考试成绩(百分 制)如下表所示:

若数学成绩 90 分(含 90 分)以上为优秀,物理成绩 85 分(含 85 分)以上为优秀. (1)根据上表完成下面的 2×2 列联表;

(2)根据(1)中表格的数据计算,有多大的把握认为学 生的数学成绩与物理成绩之间有关系? n?ad-bc?2 (参考公式 K2= ) ?a+c??b+d??a+b??c+d?

【解析】 (1)2×2 列联表补充完整如下:

(2)提出假设 H0: 学生的数学成绩与物理成绩之间没有关系. 20×?5×12-1×2?2 根据上述列联表可以求得 K2= ≈8.802. 6×14×7×13 当 H0 成 立 时 , K2≥7.879 的 概 率 约 为 0.005 , 而 这 里 8.802>7.879, 所以我们有 99.5%的把握认为“学生的数学成绩与物理成 绩之间有关系”.

【点评】有关 2×2 联列表的独立性检验问题系新课标新 增考点,近年新课标命题省市常有考查,求解时一定要细心, 计算一定要准确.

备选例题

下面是两个变量间的一组数据:

^ (1)在同一直角坐标系中画出散点图、直线y =24 ^= 60x ; +2.5x 和曲线y 2+x

(2)比较所画直线与曲线, 哪一条更能表现这组数据之 间的关系? (3)分别计算用直线方程与曲线方程得到在 5 个 x 点处 的预测值与实际预测之间的误差, 比较两个误差绝对值之 和的大小.

【解析】 (1)所求作图形如下:

^= 60x 比直线y=24+2.5x 更能 ^ (2)从图形上看, 曲线y 2+x 表现这组数据间的关系. ^ (3)用直线y=24+2.5x 近似数据时,误差绝对值的和 ^= 60x 时,误差绝对值的和为 12.5,比 为 27.5,用曲线y 2+x 前者小得多.

? ? 1.计算回归直线方程中的参数 a、 b 时应分层进 行,避免因计算错误而产生误差.

2.求线性回归方程之前,应对数据利用散点图进 行线性相关分析.

3.回归分析的关键是根据散点图选择函数模型, 用相关系数判定哪种模型更好. 4.独立性检验不能用比例余数来判定,a、 b 、 c 、 d成比例扩大,K2的值是不同的,正确列出2×2列联 表是解题的关键,准确计算K2的值是重点.


赞助商链接
相关文章:
更多相关标签: