当前位置:首页 >> 数学 >>

2016届《步步高》高考数学大一轮总复习(人教新课标文科)配套学案59 统计案例


学案 59

统计案例

导学目标: 1.了解回归分析的基本思想、方法及其简单应用 .2.了解独立性检验 (只要求 2×2 列联表)的基本思想、方法及其简单应用.

自主梳理 1.回归分析 (1)回归直线 一组具有线性相关关系的数据(x1,y1),(x2,y2),?,(xn,yn),其回归方程的截距和斜 率的最小二乘估计分别为
^ ^

a =__________________________,b =______________________________________, 其中 x =____________________, y =_____________________________________, ________________称为样本点的中心. (2)相关系数 r ①r= ; n 2 2 ∑ ? x - x ? ∑ ? y - y ? i i = =
i 1 i 1 n

∑ ?xi- x ??yi- y ? =

n

i 1

②当 r>0 时,表明两个变量________; 当 r<0 时,表明两个变量________. r 的绝对值越接近于 1,表明两个变量的线性__________;r 的绝对值越接近于 0 时,表明 两个变量之间________________________________.通常,当 r 的绝对值大于________时认为 两个变量有很强的线性相关关系. 2.独立性检验 (1)列联表:列出的两个分类变量的________,称为列联表. (2)2×2 列联表:假设有两个分类变量 X 和 Y,它们的取值分别为{x1,x2}和{y1,y2},其 样本频数列联表(称为 2×2 列联表)为 2×2 列联表 y1 y2 总计 x1 a b a+b x2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量 K2=________________________________,其中 n=__________为样 本容量. (3)独立性检验 利用随机变量________来判断“两个分类变量________”的方法称为独立性检验. 自我检测
^ ^ ^ ^

1.对有线性相关关系的两个变量建立的回归直线方程y =a +b x 中,回归系数b ( A.可以小于 0 B.小于 0 C.能等于 0 D.只能等于 0 2.(2011· 天津模拟)下面是 2×2 列联表: y1 a 22 b y2 21 25 46 合计 73 47 120

)

x1 x2 合计

-1-

则表中 a,b 的值分别为( ) A.94,72 B.52,50 C.52,74 D.74,52 3.如果有 95%的把握说事件 A 和 B 有关系,那么具体计算出的数据( ) 2 2 A.K >3.841 B.K <3.841 C.K2>6.635 D.K2<6.635 4.(2011· 绍兴月考)某高校“统计初步”课程的教师随机调查了选该课的一些学生情况, 具体数据如下表: 专业 非统计专业 统计专业 性别 26 20 男 14 40 女 则可判断约有________的把握认为“主修统计专业与性别之间有关系”.

探究点一 独立性检验 例 1 (2011· 湛江模拟)利用统计变量 K2 的观测值来判断两个分类变量之间的关系的可信 程度. 考察小麦种子经灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表所示 种子灭菌 种子未灭菌 合计 26 184 210 黑穗病 50 200 250 无黑穗病 76 384 460 合计 试按照原试验目的作统计分析推断.

变式迁移 1 对 196 个接受心脏搭桥手术的病人和 196 个接受血管清障手术的病人进行了 3 年的跟踪研究,调查他们是否又发作过心脏病,调查结果如下表所示: 又发作过心脏病 未发作心脏病 合计 39 157 196 心脏搭桥手术 29 167 196 血管清障手术 68 324 392 合计 试根据上述数据比较这两种手术对病人又发作心脏病的影响有没有差别.

探究点二 线性回归分析 例 2 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了 10 次

-2-

试验,测得的数据如下: 80 90 100 零件数 x (个) 10 20 30 40 50 60 70 加工时间 y(分) 62 68 75 81 89 95 102 108 115 122 (1)y 与 x 是否具有线性相关关系? (2)如果 y 与 x 具有线性相关关系,求回归直线方程; (3)根据求出的回归直线方程,预测加工 200 个零件所用的时间为多少?

变式迁移 2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械 零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽 样试验结果: 16 14 12 8 转速 x(转/秒) 每小时生产有缺点的 11 9 8 5 零件数 y(件) (1)对变量 y 与 x 进行相关性检验; (2)如果 y 与 x 有线性相关关系,求回归直线方程.

探究点三 综合应用 例 3 (2010· 辽宁)为了比较注射 A,B 两种药物后产生的皮肤疱疹的面积,选 200 只家兔 做试验,将这 200 只家兔随机地分成两组,每组 100 只,其中一组注射药物 A,另一组注射药 物 B.表 1 和表 2 分别是注射药物 A 和药物 B 后的试验结果.(疱疹面积单位:mm2) 表 1:注射药物 A 后皮肤疱疹面积的频数分布表 疱疹面积 [60,65) [65,70) [70,75) [75,80) 30 40 20 10 频数 表 2:注射药物 B 后皮肤疱疹面积的频数分布表 疱疹面积 [60,65) [65,70) [70,75) [75,80) [80,85) 10 25 20 30 15 频数 完成下面 2×2 列联表,并回答能否有 99.9%的把握认为“注射药物 A 后的疱疹面积与注 射药物 B 后的疱疹面积有差异”. 表 3: 疱疹面积 疱疹面积 合计 小于 70 mm2 不小于 70 mm2 注射药物 A a= b= 注射药物 B c= d= 合计 n=

-3-

附:K2=

n?ad-bc?2 . ?a+b??c+d??a+c??b+d?

变式迁移 3 某市对该市一重点中学 2010 年高考上线情况进行统计,随机抽查 244 名学 生,得到如下表格: 语文 数学 英语 综合科目 上线 不上线 上线 不上线 上线 不上线 上线 不上线 174 27 178 23 176 25 175 26 总分上线 201 人 30 13 23 20 24 19 26 17 总分不上线 43 人 204 40 201 43 200 44 201 43 总计 试求各科上线与总分上线之间的关系,并求出哪一科目与总分上线关系最大?

1.回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围 一般不能超过回归方程的适用范围,否则没有实用价值. 2.利用图形来判断两个变量之间是否有关系,可以画出二维条形图,但从图形上只可以 粗略地估计两个分类变量的关系,还要结合所求的数值来进行比较.作图应注意单位统 一、图形准确,但它不能给出我们两个分类变量有关或无关的精确的可信程度,若要作 出精确的判断,可以作独立性检验的有关计算.

(满分:75 分) 一、选择题(每小题 5 分,共 25 分) 1.对于独立性检验,下列说法中错误的是( ) A.K2 的值越大,说明两事件相关程度越大 B.K2 的值越小,说明两事件相关程度越小 C.K2≤3.841 时,有 95%的把握说事件 A 与 B 无关 D.K2>6.635 时,有 99%的把握说事件 A 与 B 有关 2.下列说法中正确的有:①若 r>0,则 x 增大时,y 也相应增大;②若 r<0,则 x 增大时, y 也相应增大;③若 r=1 或 r=-1,则 x 与 y 的关系完全对应(有函数关系),在散点图上各个 点均在一条直线上( ) A.①② B.②③ C.①③ D.①②③ 3.(2011· 天津汉沽一中月考)甲、乙、丙、丁四位同学各自对 A、B 两变量的线性相关性 作试验,并用回归分析方法分别求得相关系数 r 与残差平方和 m 如下表: 甲 乙 丙 丁 r 0.82 0.78 0.69 0.85 m 115 106 124 103 则哪位同学的试验结果体现 A、B 两变量更强的线性相关性?( )

-4-

A.甲 B.乙 C.丙 D.丁 4.下列命题中正确的个数为( ) ①线性相关系数 r 越大,两个变量的线性相关性越强;反之,线性相关性越弱; ②残差平方和越小的模型,模型拟合的效果越好; ③用相关指数 R2 来刻画回归效果,R2 越小,说明模型的拟合效果越好. A.1 B.2 C.3 D.0 5.(2010· 济南模拟)有两个分类变量 x,y,它们的值域分别为{x1,x2}和{y1,y2},其样 本频数列联表如下: y1 y2 总计 x1 132 18 150 x2 114 36 150 246 54 300 总计 则两个分类变量 x 和 y 有关系的可信度为( ) A.95% B.97.5% C.99% D.99.5% 二、填空题(每小题 4 分,共 12 分) 6.为了判断高中三年级学生是否选修文科与性别有关系,现随机抽取 50 名学生,得到 如下 2×2 列联表: 理科 文科 13 10 男 7 20 女 2 2 已知 P(K ≥3.841)≈0.05,P(K ≥5.024)≈0.025. 50×?13×20-10×7?2 根据表中数据,得到 K2= ≈4.844. 23×27×20×30 则认为选修文科与性别有关系出错的可能性为______. 7.(2011· 银川模拟)下列说法: ①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;
^

②设有一个回归方程y =3-5x,变量 x 增加一个单位时,y 平均增加 5 个单位;
^ ^ ^

③线性回归方程y =b x+a 必过点( x , y ); ④曲线上的点与该点的坐标之间具有相关关系; ⑤在一个 2×2 列联表中, 由计算得 K2=13.079, 则其两个变量间有关系的可能性是 90%. 其中错误 的命题是________. .. 8.若两个分类变量 x 和 y 的列联表为: y1 y2 x1 5 15 x2 40 10 则 x 与 y 之间有关系的概率约为________. 三、解答题(共 38 分) 9.(12 分)在一次飞机航程中调查男女乘客的晕机情况,其 2×2 列联表如下,试判断晕机 与性别是否有关? 晕机 不晕机 合计 10 70 80 男 10 20 30 女 20 90 110 合计

-5-

10.(12 分)(2011· 武汉模拟)为了考察某种药物预防疾病的效果,进行动物实验,得到如下 的列联表 患病 未患病 总计 10 45 55 服用药 20 30 50 没服用药 30 75 105 总计 请问能有多大把握认为药物有效?

11.(14 分)(2010· 全国)为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方 法从该地区调查了 500 位老年人,结果如下: 性别 男 女 是否需要志愿者 40 30 需要 160 270 不需要 (1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例. (2)能否有 99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供 帮助的老年人的比例?说明理由. 附:

K2=

n?ad-bc?2 ?a+b??c+d??a+c??b+d?

学案 59
自主梳理

统计案例

-6-

^

1.(1) y -b x

∑ ?xi- x ??yi- y ? 1 n i=1 ∑x n ni=1 i 2 ∑ ? x - x ? i =
i 1

n

1n ∑y ni=1 i

( x,y)

(2)②正相关

负相关

相关性越强 几乎不存在线性相关关系 0.75 2.(1)频数表 n?ad-bc?2 (2) a+b+c+d (3)K2 有关系 ?a+b??c+d??a+c??b+d? 自我检测
^ ^

1.A [b =0 时,得 r=0,这时不具有线性相关关系,但b 能大于 0,也能小于 0.] 2.C [∵a+21=73,∴a=52.又 a+22=b, ∴b=74.] 3.A [比较 K2 的值和临界值的大小,有 95%的把握则 K2>3.841,K2>6.635 约有 99%的 把握.] 4.99.5% 100×?26×40-14×20?2 解析 因为 K2= ≈9.689>7.879, 40×60×46×54 所以有 99.5%的把握认为“主修统计专业与性别之间有关系”. 课堂活动区 例 1 解题导引 利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变 量之间有关系,再计算 K2 的值,K2 的值越大说明两个变量间有关系的可能性越大,再参考临 界值,从而判断两个变量有关系的可信程度. 解 由列联表知:a=26,b=184,c=50,d=200. ∴a+b=210,c+d=250,a+c=76, b+d=384,n=a+b+c+d=460. n?ad-bc?2 ∴K2= ?a+b??c+d??a+c??b+d? 460×?26×200-184×50?2 = ≈4.804. 210×250×76×384 ∵K2≈4.804>3.841. ∴有 95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的. 变式迁移 1 解 假设做过心脏搭桥手术与又发作心脏病没有关系. 由于 a=39,b=157,c=29,d=167,a+b=196, c+d=196,a+c=68,b+d=324,n=392, 由公式可得 K2 的观测值为 n?ad-bc?2 k= ?a+b??c+d??a+c??b+d? 392×?39×167-157×29?2 = ≈1.78, 196×196×68×324 因为 k≈1.78<2.706,所以我们没有理由说心脏搭桥手术与又发作心脏病有关系. 例 2 解题导引 这是一个回归分析问题,应先进行线性相关检验或作散点图来判断 x 与 y 是否线性相关,如果线性相关,才可以求解后面的问题,否则就使得求回归直线方程没
n

有意义,要作相关性检验,应先利用 r=

i 1 n i=1

∑ xiyi-n x = x
2 n

y 求出样本相关系数 r.利 y ?
2



?xi2-n

??∑ y2 i -n i=1

用当 r>0 时,两个变量正相关,当 r<0 时,两个变量负相关.r 的绝对值越接近于 1,表明两 个变量的线性相关性越强,r 的绝对值越接近于 0,表明两个变量之间几乎不存在线性相关关 系,通常当|r|大于 0.75 时,认为两个变量有很强的线性相关关系,因而求回归直线方程才有意 义. 解 (1)列出下表 i 1 2 3 4 5 6 7 8 9 10
-7-

xi yi xiyi
10

10 62 620

20 68 1360
10

30 75 2250

40 81 3240
10

50 89 4450

60 95 5700

70 102 7140

80 108 8640

90 115 10350

100 122 12200

x =55, y =91.7,
i 1

∑ x2 y2 xiyi=55 950, i =38 500,∑ i =87 777,∑ = = =
i 1 10 i 1 i=1 10

因此 r=

∑xiyi-10 x
10 i 1

y

2 ?∑ x2 y2i-10 y 2? i -10 x ?? ∑ = = i 1



55 950-10×55×91.7

?38 500-10×552?×?87 777-10×91.72? ≈0.999 8, 由于 r=0.999 8>0.75,因此 x 与 y 之间有很强的线性相关关系.
^ ^ ^

(2)设所求的回归直线方程为y=bx+a 则有
10 ^

b =
^

i 1

∑ xiyi-10 x = ∑x2 i -10 i=1 ^
10

y
2



x

55 950-10×55×91.7 ≈0.668. 38 500-10×552

a = y -b x =91.7-0.668×55=54.96.
^

因此,所求的回归直线方程为y =0.668x+54.96. (3)当 x=200 时,y 的估计值为
^

y =0.668×200+54.96=188.56≈189, 因此,加工 200 个零件所用的工时约为 189 分. 变式迁移 2 解 (1) x =12.5, y =8.25,
4 i 1 4 i=1

∑ xiyi=438,4 x =
4 i 1 4 i 1 4

y =412.5,

∑x2 y2 i =660,∑ i =291, = ∑ xiyi-4 x =
4

y

所以 r=

2? ?∑xi2-4 x 2??∑y2 ?i=1 ??i=1 i -4 y ?



438-412.5

?660-625?×?291-272.25? 25.5 25.50 = ≈ ≈0.995 3. 656.25 25.62 因为 r>0.75, 所以 y 与 x 有很强的线性相关关系.
n ^

(2)由(1)知:b= =

i 1

∑ xiyi-n x =
i=1

y
2

∑ x2 i -n x

n

^ ^ 438-412.5 2≈0.7286,a = y -b x =-0.8575. 660-4×12.5 ^

∴回归直线方程为y=0.728 6x-0.857 5. 例 3 解题导引 分类变量的独立性检验是建立在 2×2 列联表基础之上的,因而根据题 目提示的分类标准设计 2×2 列联表是独立性检验的关键所在. 解 列联表如下: 疱疹面积 疱疹面积 合计

-8-

100 注射药物 A 100 注射药物 B 合计 n=200 2 200 × ? 70 × 65 - 35 × 30 ? K2= ≈24.56. 100×100×105×95 由于 K2>10.828,所以有 99.9%的把握认为“注射药物 A 后的疱疹面积与注射药物 B 后的 疱疹面积有差异”. 2 2 2 变式迁移 3 解 对于上述四个科目,分别构造四个随机变量 K2 1,K2,K3,K4. 由表中数据可以得到 244×?174×13-27×30?2 语文:k1= 201×43×204×40 ≈7.294>6.635, 244×?178×20-23×23?2 数学:k2= 201×43×201×43 ≈30.008>10.828, 244×?176×19-25×24?2 英语:k3= 201×43×200×44 ≈24.155>10.828, 综合科目: 244×?175×17-26×26?2 k4= 201×43×201×43 ≈17.264>10.828, 所以,有 99%的把握认为语文上线与总分上线有关系,有 99.9%的把握认为数学、英语、 综合科目上线与总分上线有关系,数学上线与总分上线关系最大. 课后练习区 1.C [在独立性检验中,随机变量 K2 的取值大小可说明两个变量关系的程度.一般地随 机变量 K2 的值越大,两变量的相关程度越大,反之就越小.K2>6.635 说明有 99%的把握认为 二者有关系.] 2.C [若 r>0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r<0, 表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r|越接近 1,表示两个变量相关性 越高,|r|=1 表示两个变量有确定的关系(即函数关系),故③正确.] 3.D [因为 r>0 且丁最接近 1,残差平方和最小,所以丁相关性最高.] 4.A [①r 有正负,应为|r|越大,相关性越强; ②正确; ③R2 越大,拟合效果越好.] 300×?132×36-114×18?2 5.C [由公式得 K2= ≈7.317, 246×54×150×150 因为 7.317>6.635,所以我们有 99%的把握认为两个分类变量 x 与 y 有关系.] 6.5% 解析 ∵K2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是 否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为 5%. 7.②④⑤ 解析 根据方差的计算公式,可知①正确;由线性回归方程的定义及最小二乘法的思想, 知③正确,②④⑤不正确. 8.0.999 ?5+15+40+10??5×10-40×15?2 解析 K2= ?5+15??40+10??5+40??15+10? ≈18.822,查表知 P(K2≥10.828)≈0.001, ∴x 与 y 之间有关系的概率约为 1-0.001=0.999.
-9-

小于 70 mm2 a=70 c=35 105

不小于 70 mm2 b=30 d=65 95

9.解 K2=

110×?10×20-70×10?2 ≈6.366>5.024, 20×90×30×80

(5 分) 故有 97.5%的把握认为“晕机与性别有关”.(12 分) 10.解 a=10,b=45,c=20,d=30, a+b=55,c+d=50,a+c=30,b+d=75,n=105,(2 分) n?ad-bc?2 K2= (4 分) ?a+b??c+d??a+c??b+d? 105×?10×30-45×20?2 = ≈6.11,(8 分) 55×50×75×30 因为 K2=6.11>5.024,从而有 97.5%的把握认为药物有效.(12 分) 11.解 (1)调查的 500 位老年人中有 70 位需要志愿者提供帮助,因此该地区老年人中, 70 需要志愿者提供帮助的老年人的比例的估计值为 ×100%=14%.(4 分) 500 2 500 × ? 40 × 270 - 30 × 160 ? (2)K2= ≈9.967. 200×300×70×430 由于 9.967>6.635,所以有 99%的把握认为该地区的老年人是否需要帮助与性别有关.(10 分) (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地 区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老 年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽 样方法更好.(14 分)

- 10 -


赞助商链接
相关文章:
【步步高】2015届高考数学(理科,全国通用)二轮专题配套...
步步高】2015届高考数学(理科,全国通用)二轮专题配套word版练习:专题七 第3讲 统计与统计案例]_高考_高中教育_教育专区。【步步高】2015届高考数学(理科,全国通用...
【步步高】(广东专用)2015届高考数学二轮复习 专题训练...
步步高】(广东专用)2015届高考数学轮复习 专题训练七 第3讲 统计与统计案例 理_高考_高中教育_教育专区。第3讲考情解读 统计与统计案例 1.该部分常考内容:...
【步步高】2014届高三数学大一轮复习讲义 变量间的相关...
步步高】2014届高三数学大一轮复习讲义 变量间的相关关系、统计案例_数学_高中教育_教育专区。11.3 变量间的相关关系、统计案例 一、选择题 1.有五组变量: ①...
更多相关标签:

相关文章