当前位置:首页 >> 数学 >>

2012新课标人教A版数学同步导学课件32《独立性检验的基本思想及其初步应用》(选修23).ppt_图文

3.2 独立性检验的基本思想及其初步应



1了解分类变量的意义. 2.了解2×2列联表的意义. 3.了解随机变量K2的意义. 4.通过对典型案例分析,了解独立性检验的基本思想和方 法.

1.2×2列联表的意义.(重点) 2.随机变量K2的计算及应用.(重点)

3.独立性检验的基本思想.(难点)

饮用水的质量是人类普遍关心的问题.据统计,饮用优质 水的518人中,身体状况优秀的有466人;饮用水质一般的 312人 中,身体状况优秀的有218人.

人的身体健康状况与饮用水的质量有关系吗?

1.2×2列联表 (1)分类变量的定义 变量的不同“值”表示

个体所属的不同类别

, 像 这

样的变量称为分类变量.
(2)2×2列联表的定义

假设有两个分类变量X和Y,它们的取值分别为 {x1,x2} 和 {y1,y2} ,其样本频数列联表(也称为2×2列联表)为:

y1 x1 a

y2 b

总计 a+b

x2
总计

c
a+c

c+d b+d a+b+c+d

d

2.K2 统计量 为了使不同样本容量的数据有统一的评判标准,我们构 n?ad-bc?2 ?a+b??c+d??a+c??b+d? 2 造一个随机变量 K = ,其中 n a+b+c+d = 为样本容量.

3.独立性检验的定义及判断方法

(1)独立性检验的定义
利用随机变量K2来判断“ 两个分类变量有关系 ”的方法,

称为独立性检验.
(2) 独立性检验的方法有列联表法、等高条形图法及 K2 公式 法.

1.如果根据性别与是否爱好运动的列联表得到 K2≈3.852> 3.841,所以判断性别与运动有关,那么这种判断犯错的可能性 不超过( )

A.2.5%
C.1% 解析:

B.0.5%
D.5% ∵P(K2≥3.841)≈0.05,故“ 判断性别与运动有关 ”

出错的可能性为5%. 答案: D

2.假设有两个分类变量X和Y,它们的值域分别为{x1,x2}

和{y1,y2},其2×2列联表为:

y1
x1 x2 总计 a c a+c

y2
b d b+d

总计
a+b c+d a+b+c+d

对同一样本,以下数据能说明 X与Y有关的可能性最大的一
组为( )

A.a=5,b=4,c=3,d=2
B.a=5,b=3,c=4,d=2 C.a=2,b=2,c=4,d=5 D.a=2,b=3,c=4,d=5

解析:

对于同一样本,|ad-bc| 越小,说明x与 y相关性越

弱,而|ad-bc|越大,说明x与y相关性越强,通过计算知,对于A,
B,D都有|ad-bc|=|10-12|=2. 对于选项C,有|ad-bc|=|15-8|=7,显然7>2. 答案: C

3.统计推断,当________时,有95%的把握说事件A和B有

相关关系;当 ________ 时,认为没有充分的证据显示事件 A 与B
是有相关关系的. 解析: 结合K2临界值表可知, 当K2≥3.841时有95%的把握说事件A与B有关; 当 K2≤2.706 时认为没有充分的证据显示事件 A 与 B 是有关 的. 答案: K2≥3.841 K2≤2.706

4.巴西医生马廷恩收集犯有各种贪污、受贿罪的官员与廉

洁官员寿命的调查资料:500名贪官中有348人的寿命小于平均
寿命,152人的寿命大于或等于平均寿命;590名廉洁官员中有 93人的寿命小于平均寿命,497人的寿命大于或等于平均寿 命.这里,平均寿命是指“当地人均寿命”.能否在犯错误的 概率不超过0.01的前提下认为官员在经济上是否清廉与他们寿命 的长短之间有关系?

解析: 据题意列2×2列联表如下:

短寿(B) 贪官(A) 廉洁官 (A) 总计 93 441 348

长寿( B ) 152 497 649

总计 500 590 1 090

假设官员是否清廉与它们的寿命长短无关. 由公式得 K2 的观测值: 1 090×?348×497-152×93?2 k= 500×590×441×649 ≈325.635. 因为 325.635>6.635, 因此, 在犯错误的概率不超过 0.01 的前提下认为官员在经济上是否清廉与他们寿命的长短之 间是有关系的.

(2011· 湖南高考)通过随机询问110名性别不同的大学生是否 爱好某项运动,得到如下的列联表: 男 爱好 不爱好 总计 40 20 60 女 20 30 50 总计 60 50 110

2 n ? ad - bc ? 由 K2= 算得, ?a+b??c+d??a+c??b+d? 2 110 × ? 40 × 30 - 20 × 20 ? K2 = ≈7.8. 60×50×60×50

附表:

P(K2≥k) k

0.050 0.010

0.001

3.841 6.635 10.828

参照附表,得到的正确结论是(

)

A.在犯错误的概率不超过0.1%的前提下,认为“爱好该项
运动与性别有关”

B.在犯错误的概率不超过0.1%的前提下,认为“爱好该项
运动与性别无关” C.有99%以上的把握认为“爱好该项运动与性别有关” D.有99%以上的把握认为“爱好该项运动与性别无关”

解析:

根据独立性检验的定义,由 K2≈7.8> 6.635 可知我

们有99%以上的把握认为“爱好该项运动与性别有关”,故选C.
答案: C

在一次天气恶劣的飞行航程中,调查了男女乘客在飞机

上晕机的情况:男乘客晕机的有24人,不晕机的有31人;女乘
客晕机的有8人,不晕机的有26人.请你根据所给数据,能否在 犯错误不超过0.1的前提下认为在天气恶劣的飞行航程中,男乘 客比女乘客更容易晕机?

[解题过程] 根据题意,列出2×2列联表如下:

晕机 不晕机 总计 男乘客 24 31 55

女乘客 总计

8 32

26 57

34 89

假设在天气恶劣的飞机航程中男乘客不比女乘客更容易 晕机. 由公式可得 K2 的观测值 n?ad-bc?2 k= ?a+b??c+d??a+c??b+d? 89×?24×26-31×8?2 = ≈3.689>2.706, 55×34×32×57 因此,在犯错误的概率不超过 0.1 的前提下,认为“在天 气恶劣的飞行航程中男乘客比女乘客更容易晕机 ”.

[题后感悟] 解独立性检验问题的基本步骤
(1)认真读题,指出相关数据,得出2×2列联表;

(2)根据2×2列联表中的数据,计算K2的观测值k;
(3)通过观测值k与临界值k0的比较;

(4) 在犯错误的概率不超过 α 的前提下能否推断 “ X 与 Y 有关
系”.

1.磨牙不仅影响别人休息,而且可能与患某种疾病有关,下 表是一次调查所得的数据,试问:每晚都磨牙与肠道中有寄生

虫有关吗?
肠道中有寄生 肠道中没有寄生 合计 虫 虫 每晚都磨牙 不磨牙 224 24 30 1 355 254 1 379

合计

248

1 385

1 633

2 n ? ad - bc ? 解析: 根据题意计算得 K2= ?a+b??c+d??a+c??b+d?

1 633×?224×1 355-30×24?2 = 254×1 379×248×1 385 ≈1 244.510, 因为 1 244.510>6.635,所以我们有 99%的把握说每晚 都磨牙与肠道中有寄生虫有关.

某校在高三数学测试后,随机抽取部分学生进行测试成

绩统计,抽取出来的所有学生,按男、女分为两组,得到如下
数据: 成绩小于90分 男生 女生 合计 30 25 55 成绩不小于90分 70 75 145 合计 100 100 200

据此资料是否认为男生比女生成绩差.

[解题过程] 根据列联表中数据,由公式计算得
2 200 × ? 30 × 75 - 25 × 70 ? K2= ≈0.627 55×145×100×100

∵0.627<2.706,所以据目前的数据不能认为男生比女 生成绩差,即没理由说男生比女生成绩差.

[题后感悟 ]

(1)给出的随机变量K2的值k,其值越大,说明

“X与Y有关系”成立的可能性越大,其值越小,说明“X与Y有
关系”成立的可能性越小. (2)若k<2.706,则认为学生成绩与性别有关.

2.为了探究学生选报文、理科是否与对外语的兴趣有关,某
同学调查了361名高二在校学生,调查结果如下:理科对外语有

兴趣的有138人,无兴趣的有98人,文科对外语有兴趣的有73人,
无兴趣的有52人.试分析学生选报文、理科与对外语的兴趣是 否有关?

解析:

根据题目所给的数据得到如下列联表:

理科 有兴趣 无兴趣 总计 138 98 236

文科 73 52 125

总计 211 150 361

根据列联表中数据由公式计算得
2 361 × ? 138 × 52 - 73 × 98 ? K2= 236×125×211×150

≈1.871×10-4. 因为 1.871×10-4<2.706,所以据目前的数据不能认为 学生选报文、理科与对外语的兴趣有关,即可以认为学生选 报文、理科与对外语的兴趣无关.

在国家未实施西部开发战略前,一新闻单位在应届大学

毕业生中随机抽取1 000人进行问卷调查,只有80人志愿加入国
家西部建设,而国家公布实施西部开发战略后,随机抽取1 200 名应届大学毕业生进行问卷调查,有400人志愿加入国家西部建 设. 问:实施西部开发战略的公布是否对应届大学毕业生的选 择产生了影响?

[规范解答] 据题意列出2×2列联表如下表: 志愿者 开发战略公布前 开发战略公布后 80 400 非志愿者 920 800 总计 1 000 1 200

总计

480

1 720

2 200

…………………………………………………… … … … … 6分

由公式计算得 K2 的观测值 2 200×?80×800-920×400?2 k= ≈205.22. ………10 分 480×1 720×1 000×1 200 因为 205.22>10.828, 因此在犯错误的概率不超过 0.001 的前提下认为实施西部开发战略的公布对应届大学毕业生 的选择产生了影响. …………………………………………………………12 分

[题后感悟] 解此类问题的基本思路:一、先判断题目是不

是判断两分类变量的相关关系;二、列2×2列联表,确定a,b,
c,d的值;三、求K2的观测值;四、由K2值判断两分类变量的相 关关系.

3.为了调查某生产线上质量监督员甲对产品质量好坏有无影
响,现统计数据如下:甲在生产现场时,990件产品中有合格品

982件,次品8件;甲不在生产现场时,510件产品中有合格品
493件,次品17件.试分别用列联表、等高条形图、独立性检验 的方法分析监督员甲对产品质量好坏有无影响.能否在犯错误 的概率不超过0.001的前提下认为质量监督员甲在不在生产现场 与产品质量好坏有关系?

解析: (1)2×2列联表如下: 合格品数 甲在生产现场 甲不在生产现场 982 493 次品数 8 17 总计 990 510

总计

1 475

25

1 500

由列联表可得|ad-bc|=|982×17-493×8|=12 750,相差
较大,可在某种程度上认为“质量监督员甲是否在生产现场与 产品质量有关系”.

(2)相应的等高条形图如图所示.

图中两个深色条的高分别表示甲在生产现场和甲不在生产
现场样本中次品数的频率.从图中可以看出,甲不在生产现场

样本中次品数的频率明显高于甲在生产现场样本中次品数的频
率.因此可以认为质量监督员甲在不在生产现场与产品质量好 坏有关系.

(3)由 2×2 列联表中数据,计算得到 K2 的观测值为 k= 1 500×?982×17-493×8?2 ≈13.097>10.828, 990×510×1 475×25 因此,在犯错误的概率不超过 0.001 的前提下,认为质 量监督甲在不在生产现场与产品质量好坏有关系.

1.如何分析两个分类变量的相关关系? (1) 通过图形直观判断两个分类变量是否相关,如等高条形 图.

(2)独立性检验
通过 2×2 列联表,计算 K2 的观测值,定量判断,“两个分

类变量有关系” 这一结论成立的可信程度.
[ 提醒 ] 这里所说的 “ 变量 ” 和 “ 值 ” 不一定是具体的数

值.例如性别变量,其取值为男和女两种.

2.独立性检验的基本思想与反证法的思想有何相似之外? 反证法 要证明结论A 独立性检验 要确认“两个分类变量有关系”

假设该结论不成立,即假设结论“两个分 在A不成立的前提下 类变量没有关系”成立,在该假设下计算 进行推理 K2

由观测数据计算得到的K2的观测值k很大, 则在一定可信程度上说明假设不合理 根据随机变量K2的含义,可以通过概率 没有找到矛盾,不 P(K2≥k0)的大小来评价该假设不合理的程 能对A下任何结论, 度有多大,从而得出“两个分类变量有关 即反证法不成立 系”这一结论成立的可信程度有多大 推出矛盾意味着结 论A成立

◎为了研究男子的年龄与吸烟的关系,抽查了100个男子,

按年龄超过和不超过40岁,吸烟量每天多于和不多于20支进行
分组,数据如表,试问吸烟量与年龄是否有关? 年龄 合计 不超过40岁 超过40岁 50 15 65 10 60 25 40 35 100

吸烟量不多于20支/天 吸烟量多于20支/天 合计

【错解】 由以上数据,得 K2 的观测值为 n?ad-bc?2 k= ?a+b??c+d??a+c??b+d? 100×?50×15-10×25?2 = ≈4.96>3.841. 60×35×60×40 所以有 95%的把握认为“年龄与吸烟量有关”.

【错因】 由于对2×2列联表中a、b、c、d的位置不确定,

在代入公式时取错了数值,导致计算结果的错误.

【正解】 由以上数据,得 K2 的观测值为 n?ad-bc?2 k= ?a+b??c+d??a+c??b+d? 100×?50×25-10×15?2 = ≈22.16>10.828. 65×35×60×40 所以我们有 99.9%的把握认为年龄与吸烟量有关系.