当前位置:首页 >> 数学 >>

2019高中数学第一章统计案例1.2独立性检验的基本思想及其初步应用课件新人教A版选修1_2_图文

1.2 独立性检验的基本思想及其初步应用

学习目标
1.了解分类变量及列联表的 概念. 2.了解独立性检验的基本思 想. 3.了解利用等高条形图进行 独立性检验的方法. 4.掌握利用列联表进行独立 性检验的方法与步骤.

思维脉络
独立性检验 分类变量与列联表 利用等高条形图进行独立性检验 利用列联表进行独立性检验

1.分类变量与列联表 (1)分类变量 如果某种变量的不同“值”表示个体所属的不同类别,像这样的变 量称为分类变量. (2)列联表 列出两个分类变量的频数表,称为列联表. 一般地,假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和
{y1,y2},其样本频数列联表(称为2×2列联表)为:

y1

y2

总计

x1

a

b

a+b

x2

c

d

c+d

总计 a+c b+d a+b+c+d

【做一做1】 下面是一个2×2列联表.

y1

y2

合计

x1

33 m 83

x2

n 25 b

合计 60 a p

则表中p的值等于

.

解析:依题意有33+m=83,33+n=60,所以m=50,n=27,于是

a=50+25=75,b=27+25=52,从而p=60+75=83+52=135.

答案:135

2.等高条形图 (1)图形与表格相比,更能直观地反映出两个分类变量间是否相互 影(响2),观常察用等等高高条条形形图图,展如示果列发联现表数+ 据 和的 +频 率 相特差征很. 大,就判断两个 分类变量之间有关系.
名师点拨在等高条形图中,可以估计满足条件 X=x1 的个体中具 有中具Y=有y1Y的=个y2 体的所个占体的所比占例的为比例+为,也+可,两以个估比计例满的足值条相件差X=越x大2 的,两个个体 分类变量相关的可能性就越大.

【做一做2】 下列关于等高条形图的叙述中,正确的是 ( ) A.从等高条形图中可以精确地判断两个分类变量是否有关系 B.从等高条形图中可以看出两个变量频数的大小 C.从等高条形图中可以粗略地判断两个变量是否有关系 D.以上说法均不正确 答案:C

3.独立性检验

定 利用随机变量 K2 来判断“两个分类变量有关系”的方法称为独 义 立性检验

公 式

K2=(a

n(ad -bc )2 +b )(c +d )(a +c )(b

+d

,其中
)

n=a+b+c+d

①根据实际问题的需要确定容许推断“两个分类变量有关系”

具 体 步 骤

犯错误概率的上界 α.然后查表确定临界值 k0.
②利用公式计算随机变量 K2 的观测值 k. ③如果 k≥k0,就推断“X 与 Y 有关系”,这种推断犯错误的概率不
超过 α;否则,就认为在犯错误的概率不超过 α 的前提下不能推 断“X 与 Y 有关系”,或者在样本数据中没有发现足够证据支持结

论“X 与 Y 有关系”

名师点拨独立性检验原理与反证法原理比较
(1)反证法原理:在假设H0下,如果推出一个矛盾,就证明了H0不成 立.
(2)独立性检验原理:在假设H0下,如果出现一个与H0相矛盾的小 概率事件,就推断H0不成立,且该推断犯错误的概率不超过小概率.

【做一做3】 某研究小组为了研究中学生的身体发育情况,在某 中学随机抽出20名15至16周岁的男生,将他们的身高和体重制成
2×2列联表,根据列联表中的数据,可以在犯错误的概率不超过
的前提下认为该学校15至16周岁的男生的身高和体 重之间有关系.

超重 不超重 总计

偏高 4

1

5

不偏高 3

12

15

总计 7

13

20

解析:根据公式 K2=(+)(+()-(+)2)(+)得,K2 的观测值 k=205××(41×5×127-×11×33)2≈5.934,k>5.024,因此在犯错误的概率不超过 0.025 的前提下,认为该学校 15 至 16 周岁的男生的身高和体重之间有关

系.

答案:0.025

思考辨析 判断下列说法是否正确,正确的在后面的括号内打“√”,错误的打
“×”.
(1)列联表中的数据是两个分类变量的频数. ( ) (2)事件A与B的独立性检验无关,即两个事件互不影响. ( ) ((34))K在2的 等大 高小条是形判图断中分,如类果变量 A+与 与B是 +否非相常关接的近统,说计明量两. (个变量) 之间 有关系. ( ) (5)利用列联表求得的K2的值越大,说明两个变量有关系的可能性越 大. ( )
答案:(1)√ (2)× (3)√ (4)× (5)√

探究一

探究二

探究三

思维辨析

列联表 【例1】 为了调查胃病是否与生活规律有关系,在某地对540名40 岁以上的人进行了调查,结果显示:患胃病者生活不规律的共60人, 患胃病者生活规律的共20人,未患胃病者生活不规律的共260人,未
患胃病者生活规律的共200人,试根据以上数据列出2×2列联表.
思路分析:先确定两个分类变量,再分别计算分类变量的取值,最 后作出列联表.
解:由已知可列2×2列联表如下:

生活规律 生活不规律 总计

患胃病
20 60 80

未患胃病
200 260 460

总计
220 320 540

探究一

探究二

探究三

思维辨析

反思感悟列2×2列联表,实质就是列出两个变量取值的频数表.
一般地,假设有两个变量A和B,它们的取值分别为{A1,A2}和
{B1,B2},其样本频数列联表(称为2×2列联表)为:

A

B B1

B2

总计

A1

a

b

a+b

A2 总计

c

d

c+d

a+c b+d a+b+c+d

探究一

探究二

探究三

思维辨析

变式训练1关于男女生喜欢武打剧的列联表如下:

男 女 总计

喜 欢 A 39 105

不喜欢 34 B

95

总 计 C 100 D

则表中A=

,B=

,

C=

,D=

.

解析:A=105-39=66,B=100-39=61,

C=66+34=100,D=105+95=200.

答案:66 61 100 200

探究一

探究二

探究三

思维辨析

利用等高条形图进行独立性检验 【例2】在一项有关医疗保健的社会调查中,一共调查了男性530 人,女性670人,其中男性喜欢吃甜食的为117人,女性喜欢吃甜食的 为492人.请根据以上数据作出性别与喜欢吃甜食的列联表,并用等 高条形图判断二者之间是否有关系. 思路分析:先根据题意确定分类变量,作出列联表,再画等高条形 图,最后给出判断.

探究一

探究二

探究三

思维辨析

解:根据已知的数据,可以作出列联表如下:

喜欢吃甜食 男性 117 女性 492 合计 609
等高条形图如下:

不喜欢吃甜食
413 178 591

总计
530 670 1 200

从等高条形图可以看出,男性中不喜欢吃甜食的比例明显高于女 性中不喜欢吃甜食的比例,因此可以认为性别与喜欢吃甜食之间有 关系.

探究一

探究二

探究三

思维辨析

反思感悟1.利用等高条形图进行直观判断的步骤

(1)作出2×2列联表;

(2)计算出相应的频率;

(3)作出等高条形图;

(4)最后结合图形进行判断.

2.绘制等高条形图时,列联表的行对应的是高度,两行的数据不相

等,但对应的条形图的高度是相同的,两列的数据对应不同颜色.

3.等高条形图中有两个高度相同的矩形,每一个矩形中都有两

种颜色,观察下方颜色区域的高度,如果两个高度相差比较明显 即

和 相差很大
+ +

,就可以判断两个分类变量之间有关系.

探究一

探究二

探究三

思维辨析

变式训练2下面是调查某地区男女中学生喜欢理科情况的等高 条形图,由图形可知( )

A.性别与喜欢理科无关 B.女生中喜欢理科的比例为80% C.男生比女生喜欢理科的可能性大些 D.男生中不喜欢理科的比例为60% 解析:由题图知女生中喜欢理科的比例为20%,男生中喜欢理科的 比例为60%,故选项B,D不正确.由题图知,男生比女生喜欢理科的可 能性大些. 答案:C

探究一

探究二

探究三

思维辨析

利用列联表进行独立性检验 【例3】 下表是对某地区的一种传染病与饮用水的调查表:

干净水 不干净水 总计

得病
52 94 146

不得病
466 218 684

总计
518 312 830

(1)这种传染病是否与饮用水的卫生程度有关系?请说明理由. (2)若饮用干净水得病的有5人,不得病的有50人,饮用不干净水得 病的有9人,不得病的有22人.按此样本数据分析这种疾病是否与饮 用水的卫生程度有关系,并比较两种样本在反映总体时的差异. 思路分析:根据列联表,通过公式计算K2的观测值,然后与临界值 进行比较,得出结论.

探究一

探究二

探究三

思维辨析

解:(1)假设H0:传染病与饮用水的卫生程度没有关系.把表中数据 代入公式得
K2 的观测值 k=83104×6(×526×842×185-1486×63×1924)2≈54.21.
在H0成立的情况下,P(K2>10.828)≈0.001,是小概率事件,所以拒绝 H0.
因此我们在犯错误的概率不超过0.001的前提下,可以认为该地 区这种传染病与饮用不干净水有关系.

探究一

探究二

探究三

思维辨析

(2)依题意得2×2列联表如下:

得病 不得病 总计

干净水

5

50

55

不干净水 9

22

31

总计

14

72

86

此时,K2 的观测值 k=861×4(×57×22×25-550××391)2≈5.785.

因为5.785>5.024,P(K2>5.024)≈0.025,

所以我们在犯错误的概率不超过0.025的前提下,可以认为该种

疾病与饮用不干净水有关系.

两个样本都能统计得到传染病与饮用不干净水有关系这一相同

结论.但(1)中我们有99.9%的把握肯定结论的正确性,(2)中我们只有

97.5%的把握认为该疾病与饮用不干净水有关系.

探究一

探究二

探究三

思维辨析

反思感悟解决独立性检验问题的思路
解决一般的独立性检验问题,首先由题目所给的2×2列联表确定
a,b,c,d,n的值,然后代入随机变量K2的计算公式求出观测值k,最后将 k与临界值k0进行对比,从而确定在犯错误的概率不超过多少的前 提下(或有多大的把握)认为“两个分类变量有关系”.

探究一

探究二

探究三

思维辨析

变式训练3某同学寒假期间对其30位亲属的饮食习惯进行了一次
调查,列出了如下2×2列联表:

50 岁以下 50 岁以上 总计

偏爱蔬菜
4 16 20

偏爱肉类
8 2 10

总计
12 18 30

如果说其亲属的饮食习惯与年龄有关系,那么犯错误的概率不超

过( )

A.0.1 B.0.05 C.0.01 D.0.001

解析:K2=

30 × (4 × 2-16 × 8)2 20 × 10 × 12 × 18

=10>6.635,所以如果说其亲属的饮食

习惯与年龄有关系,那么犯错误的概率不超过0.01.

答案:C

探究一

探究二

探究三

思维辨析

对独立性检验的原理理解不清致误

【典例】 某医疗研究所为了检验某种血清预防感冒的作用,把

500名使用血清的人与另外500名未使用血清的人一年中的感冒记

录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用
2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则

下列结论中,正确结论的序号是

.

①在犯错误的概率不超过0.05的前提下认为“这种血清能起到预 防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的

可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预

防感冒的有效率为5%.

错解分析:本题常见的错解是由对独立性检验的原理理解不清,

对检验结果的概率性描述不准确导致的.

解析:由独立性检验的思想方法,知①正确.

答案:①

探究一

探究二

探究三

思维辨析

纠错心得注意独立性检验结果的概率性描述,在独立性检验中,
当随机变量K2的观测值k与临界值k0比较,满足k≥k0时,我们就可以 在犯错误概率不超过P(K2≥k0)的前提下认为两个变量有关系,或者
说有[1-P(K2≥k0)]×100%的把握认为两个变量有关系,即认为两个
变量没有关系的概率为P(K2≥k0).

探究一

探究二

探究三

思维辨析

跟踪训练利用独立性检验对两个分类变量是否有关系进行研究
时,若在犯错误的概率不超过0.005的前提下认为事件A和B有关系, 则具体计算得出的数据k应满足( )
A.k≥6.635 B.k<6.635 C.k≥7.879 D.k<7.879 解析:犯错误的概率为0.5%,对应的k0的值为7.879,由独立性检验 的思想可知应为k≥7.879. 答案:C

1.在调查高中学生的近视情况中,某校高一年级145名男生中有60

名近视,120名女生中有70名近视.在检验这些高中学生眼睛近视是

否与性别相关时,常采用的数据分析方法是( )

A.频率分布直方图 B.独立性检验

C.回归分析

D.茎叶图

答案:B

2.在等高条形图中,下列哪两个比值相差越大,“两个分类变量有关

系”成立的可能性越大( )

AC..++

与 与

+ +

BD..++

与 与

+ +

解析:



+







+



相差越大,说明ad与bc相差越大,两个分类变量之

间的关系越强.

答案:C

3.根据下面的2×2列联表:

B

B

A

37 85

A 35 143 总 计 72 228

得K2的观测值k=

.

解析:k=30702××(3272×8×14132-23×51×7885)2≈4.514.

答案:4.514

总计
122 178 300

4.在一个2×2列联表中,由其数据计算得K2=9.46,则两个变量有关

系的可能性不小于

.

附:

k0 P(K2≥k0)

3.841 0.05

6.635 0.01

解析:由于K2=9.46>6.635,而P(K2≥6.635)≈0.01,所以有99%的把握 说两个变量有关系,即两个变量有关系的可能性不小于99%. 答案:99%

5.调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面 的数据:出生时间在晚上的男婴为24人,女婴为8人;出生时间在白天 的男婴为31人,女婴为26人.
(1)将2×2列联表补充完整.

男婴

出生时间 晚上 白天

总计

女婴

总计

(2)能否在犯错误的概率不超过0.1的前提下认为婴儿性别与出生时 间有关系?

解:(1)列2×2列联表:

出生时间 晚上 白天

总计

男婴 24

31

55

女婴 8

26

34

总计 32

57

89

(2)由所给数据计算 K2 的观测值 k=895×5(×243×4×263-23×15×78)2≈3.689>2.706.

根据临界值表知P(K2≥2.706)≈0.10.

因此在犯错误的概率不超过0.1的前提下,认为婴儿的性别与出

生的时间有关系.