当前位置:首页 >> 数学 >>

高中数学典型例题解析:第十二章


第十二章
一、

统计

12. 1 抽样方法 知识导学 1.抽签法: (1)将总体中的所有个体编号(号码可以从 1 到 N); (2)将 1 到 N 这 N 个号码写在形状、大小相同的号签上(号签可以用小球、卡片、纸条等 制作); (3)将号签放在同一箱中,并搅拌均匀; (4)从箱中每次抽出 1 个号签,并记录其编号,连续抽取

k 次; (5)从总体中将与抽到的签的编号相一致的个体取出. 2.随机数表法: (1)对总体中的个体进行编号(每个号码位数一致); (2)在随机数表中任选一个数作为开始; (3)从选定的数开始按一定的方向读下去,得到的数码若不在编号中,则跳过;若在编号 中,则取出;如果得到的号码前面已经取出,也跳过;如此继续下去,直到取满为止; 根据选定的号码抽取样本.
(4 )

3.系统抽样(等距抽样): (1)采用随机的方式将总体中的个体编号; (2)将整个的编号按一定的间隔(设为 k)分段,当 容量)是整数时, k ?

N (N 为总体中的个体数,n 为样本 n

N N ;当 不是整数时,从总体中剔除一些个体,使剩下的总体中个 n n

/ 体的个数 N 能被 n 整除,这时 k ?

N/ ,并将剩下的总体重新编号; n

(3)在第一段中用简单随机抽样确定起始的个体编号 l ; (4)将编号为 l , l ? k , l ? 2k ,......... ., l ? (n ? 1)k 的个体抽出. 4.分层抽样: (1)将总体按一定标准分层; (2)计算各层的个体数与总体的个数的比; (3)按各层个体数占总体的个体数的比确定各层应抽取的样本容量; (4)在每一层进行抽样(可用简单随机抽样或系统抽样). 二.疑难知识导析 1.简单随机抽样是从总体中逐个不放回地抽取. 2. 简单随机抽样和系统抽样都是一种等概率抽样, 即每个个体被抽到的可能性都是相同的. 3. 简单随机抽样适用于总体中个体较少的情况; 系统抽样适用于总体中个体数较多的情形; 分层抽样用于总体由几个差异明显的部分组成的情况. 分层抽样时,在每一层内进行抽样时可根据具体情况,采用简单随机抽样或系统抽样. 在使用分层抽样时,在每一层内抽样的比例相同.
4. 5.

三.经典例题导讲 [例 1]某工厂生产 A,B,C,D 四种不同型号的产品,产品数量之比依次为 2:3:5:1,现用分 层抽样方法抽出一个容量为 n 的样本,样本中 A 型号有 16 件,那么此样本容量 n 是多少?

1

错解:样本容量 16 ?

2 =2(件) 2 ? 3 ? 5 ?1

错因:混淆了 A 型号产品与样本容量的比例关系. 正解:在分层抽样中,每一层所抽的个体数的比例与总体中各层个体数的比例是一致的,所 以,样本容量为 n ?

2 ? 3 ? 5 ?1 ? 16 ? 88 2

答:此样本容量为 88 件. [例 2]从 1002 名学生中选取 100 名进行抽样检查. 请用系统抽样法设计一种方案,叙述其步 骤. 解:(1)将 1002 名学生进行编号,号码分别为 1,2,……,1002; ( 2) 用随机数表法剔除 2 个个体, 并将剩下的学生重新编号, 号码分别为 1, 2, ……1000; (3)将 1000 个号码平均分成 100 组,并在第一组 1,2,……,10 中用简单随机抽样 法确定一个号码(如 l );
(2 )

将号码为 l ,10 ? l ,20 ? l ,...... 990 ? l 的个体抽出.

[例 3]某学校有 2005 名学生,从中选取 20 人参加学生代表大会,采用简单随机抽样方法进 行抽样,是用抽签法还是随机数表法?如何具体实施? 分析:由于学生人数较大,制作号签比较麻烦,所以决定用随机数表法 解:采用随机数表法 实施步骤: 对 2005 名同学进行编号,0000-2004 在随机数表中随机地确定一个数作为开始, 如 21 行 45 列的数字 9 开始的 4 位: 9706;
(1 ) (2 )

依次向下读数,5595,4904, ………,如到最后一行,转向左边的四位数字号码,并 向上读,凡不在 0000-2004 范围内的,则跳过,遇到已读过的数也跳过,最后得到 号码为:0011,0570,1449,1072,1338,0076,1281,1866,1349,0864,0842, 0161,1839,0895,1326,1454,0911,1642,0598,1855 的学生组成容量为 20 的样本. [例 4]某工厂有 3 条生产同一产品的流水线,每天生产的产品件数分别是 3000 件,4000 件, 8000 件. 若要用分层抽样的方法从中抽取一个容量为 150 件产品的样本,应该如何抽样? 解:总体中的个体数 N=3000+4000+8000=15000 样本容量 n=150 抽样比例为

n 150 1 ? ? N 15000 100
1 =30 件产品 100

所以应该在第一条流水线生产的产品中随机抽取 3000 ? 在第二条流水线生产的产品中随机抽取:4000 ?

1 =40 件产品 100 1 在第三条流水线生产的产品中随机抽取:5000 ? =50 件产品 100
这里因为每条流水线所生产的产品数都较多,所以,在每条流水线的产品中抽取样品时,宜

2

采用系统抽样方法 四.典型习题导练 1.为了解某班 50 名同学的会考及格率,从中抽取 10 名进行考查分析,则在这次考查中, 考查的总体内个体总数为 样本容量为 . 2.采用系统抽样从含有 2000 个个体的总体(编号为 0000,0001,……,1999)中抽取一 个容量为 100 的样本,则第一段的编号为 若在第一段中用简单随机抽样得到 起始个体编号为 0013,则前 6 个入样编号为 . 3.某市为了了解职工的家庭生活状况,先将职工所在的国民经济行业分成 13 类,然后每个 行业抽

1 的职工家庭进行调查,这种抽样方法是 100

.

4. 用分层抽样的方法在一个企业中抽取一个样本容量为 50 的样本, 其中在管理营销部门抽 了 15 人,技术部门 10 人,其余在生产工人中抽取,已知该企业有生产工人 375 人,那么这 个企业共有多少职工? 5.采用简单随机抽样从含有 5 个人的身高的总体? ?中抽取一个容量为 162,167,161 ,171 ,173 2 的样本,写出全部样本,并计算各个样本的平均值,各样本平均值的平均值. 12.2 频率分布直方图、折线图与茎叶图 一、知识导学 1.频率分布表:反映总体频率分布的表格. 2.一般地,编制频率分布表的步骤如下:(1)求全距,决定组数和组距,组距=

全距 ; 组数

(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间; (3)登记频数, 计算频率,列出频率分布表. 频率(分布)直方图:利用直方图反映样本的频率分布规律.
3. 4.

一般地,作频率分布直方图的方法为:( 1)把横轴分成若干段,每一线段对应一个组 的组距; ( 2) 以此线段为底作矩形, 它的高等于该组的 (3)每个矩形的面积恰好是该组上的频率.

频率 , 这样得出一系列的矩形; 组距

5.

频率折线图:如果将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起,就得 到一条折线,称这条折线为本组数据的频率折线图. 制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎 相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或 从小到大)的顺序同行列出.

6.

二、疑难知识导析 在编制频率分布表时,要选择适当的组距和起始点才可以使频率分布表更好地反映数据
1.

2.

的分布情况. 在编制频率分布表时,如果取全距时不利于分组(如不能被组数整除),可适当增大全 距,如在左右两端各增加适当范围(尽量使两端增加的量相同). 频率折线图的优点是它反映了数据的变化趋势,如果将样本容量取得足够大,分组的组 距取得足够小,则这条折线将趋于一条曲线,我们称这一曲线为总体分布的密度曲线.

3.

3

4.

茎叶图对于分布在 0~99 的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地 表示原始数据的信息. 在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图.

5.

三、典型例题导讲 [例 1]一个社会调查机构就某地居民的月收入调查了 10000 人,并根据所得数据画了样本的 频率分布直方图(如下图). 为了分析居民的收入与年龄、学历、职业等方面的关系,要从 这 10000 人用再用分层抽样方法抽出 100 人作进一步调查,则在 ?2500 ,3000? (元)月收入 段应抽出 人.

解析: 由直方图可得[2500,3000) (元)月收入段共有 10000 ? 0.0005 ? 500 ? 2500 人, 按分层抽样应抽出 2500 ?

100 ? 25 人. 故 答案 25 10000

点评:频率分布直方图中,关健要理解图中数据的意义,特别是图中每个小矩形的面积才是 这一组距内个体的频率. [例 2]从有甲乙两台机器生产的零件中各随机抽取 15 个进行检验,相关指标的检验结果为: 甲:534,517,528,522,513,516,527,526,520,508,533,524,518,522,512 乙:512,520,523,516,530,510,518,521,528,532,507,516,524,526,514 画出上述数据的茎叶图 错解: 甲 8 87632 8764220 43 0 1 2 乙 7 024668 013468

3 02 4 错因:对于两位数是将两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用 一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺 序同行列出,对于三位数字,应该把前两位数字作为茎,最后一位数字作为叶,然后从图中 观察数据的分布情况,而不是仍考虑两位数,尽管此题的效果一样. 正解:用前两位数作为茎,茎叶图为

4

甲 8 87632 8764220 43 50 51 52 53

乙 7 024668 013468 02

54 从图中可以看出,甲机床生产的零件的指标分布大致对称,平均分在 520 左右,中位数 和众数都是 522,乙机床生产的零件的指标分布也大致对称,平均分也在 520 左右,中位数 和众数分别是 520 和 516,总的看,甲的指标略大一些. [例 3]在绘制频率分布直方图的第三个矩形时,矩形高度 ① 与这个矩形的宽度(组距)有关; ② 与样本容量 n 无关; ③ 与第三个分组的频数有关; ④ 与直方图的起始点无关. 以上结论中正确的共有() A.0 个 B.1 个 C. 2 个 D.3 个

错解:D. 错因:起始点与组距均影响第三组的频数,所以矩形高度与以上各因素均有关,①③正确, 正解:C. [例 4]根据中国银行的外汇牌价, 2005 年第一季度的 60 个工作日中, 欧元的现汇买入价 (100 欧元的外汇可兑换的人民币)的分组与各组频数如下: 〔1050,1060〕:1, 〔1060,1070〕: 7,〔1070,1080〕:20,〔1080 ,1090〕:11,〔1090 ,1100〕:13 ,〔1100,1110 〕:6, 〔1110,1120〕:2. (1)列出欧元的现汇买入价的频率分布表;(2)估计欧元的现汇买入价在区间 1065~1105 内的频率;(3)如果欧元的现汇买入价不超过 x 的频率的估计值为 0.95,求此 x 解:(1)欧元的现汇买入价的频率分布表为: 分组 频数 [1050,1060﹚ [1060,1070﹚ [1070,1080﹚ [1080,1090﹚ [1090,1100﹚ [1100,1110﹚ [1110,1120﹚ 合计 1 7 20 11 13 6 2 60 频率 0.017 0.117 0.333 0.183 0.217 0.100 0.033 1.000

(2)欧元现汇买入价在区间 1065~1105 内的频率的估计值为

0.117 ?

1070 ? 1065 1105 ? 1100 ? 0.333 ? 0.183 ? 0.217 ? 0.100 ? ? 0.84 1070 ? 1060 1110 ? 1100 x ? 1100 ? 0.95,? x ? 1108 .3 1110 ? 1100

(3)因为 0.017+0.117+0.333+0.183+0.217=0.867〈0.95,0.017+……+0.217+0.100=0.967〉 0.95,所以 x 在[1100,1110]内,且满足 0.867+0.100 ? 即欧元现汇买入价不超过 1108.3 的频率的估计为 0.95 [例 5]初一年级某班期中考试的数学成绩统计如下:
分数段

100

90—99

80--89

70--79

60--69

0--59
5

2 6 12 21 7 2 如果 80 分以上(包括 80 分)定为成绩优秀,60 分以上(包括 60 分)定为成绩及格. 那么, 在这个班级的这次成绩统计中, 成绩不及格的频率是多少?成绩及格的频率是多少?
人数

成绩优秀的频率是多少? 解:被统计的对象(参加这次考试的本班学生)共有 2+6+12+21+7+2=50 个.60 分以上 的有 48 个,80 分以上的有 20 个,所以成绩不及格的频率是
20 48 ? 0 .4 ? 0.96 ,成绩优秀的频率是 50 50 2 ? 0.04 ,成绩及格的频率是 50

.

说明 要计算一组数据中某个对象的频率,要先计算数据的总的个数,再计算符合这个 对象要求的数据的个数. 某个对象可以是一个确定的数据,也可以是在某一范围内数据的总 数. [例 6]在英语单词 frequency 和英语词组 relative frequency 中,频数最大的各是哪个字母?它 们的频数和频率各是多少? 解:在 frequency 和英语词组 relative frequency 中,频数最大的字母都是 e,在单词 frequency 中,e 的频数是 2,频率是 ;在词组 relative frequency 中,e 的频数是 4,频率是
4 . 17

2 9

点评:在两组数据中,同一个对象的频数相等,但频率不一定相等,频数大,不一定频率大. 在同一组数据中,某两个对象的频数相等,频率也相等;频数大,频率也大. 二、 典型习题导练 1.为了了解某地区高三学生的身体发育情况,抽查了该地区 100 名年龄为17 .5 ? 18 岁的男 生体重 kg ,得到频率分布直方图如下:

根据上图可得这 100 名学生中体重在[56.5,64.5] 的学生人数是(

).

A. 20 B.30 C.40 D. 50 2. 一个容量为 800 的样本,某组的频率为 6.25%,则这一组的频数是 3. 某校随机抽取了 20 名学生,测量得到的视力数据如下:4.7,4.2,5.0,4.1,4.0,4.9, 5.1,4.5,4.8,5.2,5.0,4.0,4.5,4.8,4.7,4.8,4.6,4.9,5.3,4.0 (1) 列出频率分布表(共分 5 组)

6

(2) 估计该校学生的近视率(视力低于 4.9) 4. 用一个容量为 200 的样本制作频率分布直方图时,共分 13 组,组距为 6,起始点为 10, 第 4 组的频数为 25,则直方图中第 4 个小矩形的宽和高分别是多少? 5. 200 名学生某次考试的成绩的分组及各组频率如下表: 分组 频数

?0,40?
2

?40,60?
11

?60,70?
30

?70,80?
52

?80,90?
85

?90,100?
20

则及格率,优秀率( ? 85 )的估计分别是 6.某地随机检查了 140 名成年男性红细胞(1012 / L),数据的分组及频率如下表: 分组 频数 2 6 11 25 32 27 频率 分组 频数 17 13 4 2 1 140 频率

?3.8,4.0? ?4.0,4.2? ?4.2,4.4? ?4.4,4.6? ?4.6,4.8? ?4.8,5.0?

?5.0,5.2? ?5.2,5.4? ?5.4,5.6? ?5.6,5.8? ?5.8,6.0?
合计

(1)完成上面的频率分布表 (2)根据上面的图表,估计成年男性红细胞数在正常值(4.0~5.5)内的百分比 7.名著《简爱》的中英文版本中,第一节部分内容每句句子所含单词(字)数如下:英文 句子所含单词数 10,52,56,40,79,9,23,11,10,21,30,31;中文句子所含字数 11, 79,7,20,63,33,45,36,87,9,11,37,17,18,71,75,51. (1)作出这些数据的茎叶图; (2)比较茎叶图,你能得到什么结论? 12. 3 平均数、方差与标准差 一、知识导学 1.n 个数据 a1 , a2 ,……. an 的平均数或平均值一般记为 a =
?

a1 ? a 2 ? ........? a n . n

.. 2 . 一 般 地 , 若 取 值 x1 , x2 ,......,xn 的 频 率 分 别 为 p1 , p2 , . . . . p n ,, 则 其 平 均 数 为 x1 p1 ? x2 p2 ? . . . .? . .xn pn .
3.把一组数据的最大值与最小值的差称为极差. 4. 一般地,设一组样本数据 x1 , x2 ,......,xn ,其平均数为 x ,则称 s 2 ?
?

? 1 n ( xi ? x) 2 为这 ? n i ?1

7

个样本的方差,算术平方根 s ? 样本标准差. 二、疑难知识导析

? 1 n ( xi ? x ) 2 为样本的标准差,分别简称样本方差, ? n i ?1

1. 平均数,中位数和众数都是总体的数字特征,从不同角度反映了分布的集中趋势,平均数 是最常用的指标,也是数据点的“重心”位置,它易受极端值(特别大或特别小的值)的影 响,中位数位于数据序列的中间位置,不受极端值的影响,在一组数据中,可能没有众数, 也可能有多个众数. 2. 方差和标准差是总体的数字特征,反映了分布的分散程序(波动大小),标准差也会受极 端值(特别大或特别小的值)的影响. 3. 分布的分散程序还可以用极差来描述,但较粗略. 4. 样本方差也可以用公式 s 2 ? 三、经典例题导讲 [例 1]某人 5 次上班途中所花的时间(单位:分钟)分别为 x, y,10,11 ,9. 已知这组数据的平均 数为 10,方差为 2,则 x ? y 的值为( A.1 B.2 ) C.3 D.4
2 1 n 2 xi ? x 计算. ? n i ?1

1 解:由平均数公式为 10,得 ( x ? y ? 10 ? 11 ? 9) ? ? 10 ,则 x ? y ? 20 ,又由于方差为 5 1 2 2 2 2 2 2,则 ? x ? 10 ? ? ? y ? 10 ? ? ?10 ? 10 ? ? ?11 ? 10 ? ? ?9 ? 10 ? ? ? 2 得 5

?

?

x 2 ? y 2 ? 208
所以有 x ? y ?

2 xy ? 1 9 2

?x ? y ?2

? x 2 ? y 2 ? 2 xy ? 4 ,故选 D.

[例 2]数据 x1,? , xn 是一名运动员的 n 次射击的命中环数, 则他的平均命中环数的估计是 ( ) . A.样本平均数均值 x ?

1 n ? xi n i ?1

B.样本极差 R ? max(x1 ,?, xn ) ? min(x1 ,?, xn )

C.样本方差 s 2 ?

1 n ( xi ? x ) 2 ? n i ?1

D.样本平均差 AD=

1 n ? xi ? x n i ?1

错解:C. 错因:后三个选项都表示了样本的波动程度,不能用于总体平均值的估计. 正解:A. [例 3]某房间中 10 个人的平均身高为 1.74 米,身高为 1.85 米的第 11 个人,进入房间后,这 11 个人的平均身高是多少? 解 : 原 来 的 10 个 人 的 身 高 之 和 为 17.4 米 , 所 以 , 这 11 个 人 的 平 均 身 高 为

8

1.74 ? 10 ? 1.85 =1.75. 即这 11 个人的平均身高为 1075 米 11
[例 4]若有一个企业,70%的人年收入 1 万,25%的人年收入 3 万,5%的人年收入 11 万,求 这个企业的年平均收入及年收入的中位数和众数 解:年平均收入为 1 ? 70% ? 3 ? 25% ? 11 ? 5% ? 2 (万);中位数和众数均为 1 万 [例 5]下面是某快餐店所有工作人员的收入表: 老板 大厨 二厨 采购员 400 元 杂工 320 元 服务生 320 元 会计 410 元 3000 元 450 元 350 元 (1)计算所有人员的月平均收入;

(2)这个平均收入能反映打工人员的月收入的一般水平吗?为什么? (3)去掉老板的收入后,再计算平均收入,这能代表打工人员的月收入的水平吗? (4)根据以上计算,以统计的观点对(3)的结果作出分析 解:(1)平均收入 x1 ?
?

1 (3000+450+350+400+320+320+410)=750 元 7

(2)这个平均收入不能反映打工人员的月收入水平,可以看出打工人员的收入都低于平均 收入,因为老板收入特别高,这是一个异常值,对平均收入产生了较大的影响,并且他不是 打工人员 (3)去掉老板后的月平均收入 x 2 ? 工人员的月收入水平 (4)由上可见,个别特殊数据可能对平均值产生大的影响,因此在进行统计分析时,对异 常值要进行专门讨论,有时应剔除之 四、典型习题导练 1. 在一次知识竞赛中,抽取 20 名选手,成绩分布如下: 成绩 人数分布 6 1 7 2 8 4 9 6 10 7
?

1 (450+350+400+320+320+410)=375 元. 这能代表打 6

则选手的平均成绩是 ( ) A.4 B.4.4 C.8 D.8.8 2.8 名新生儿的身长(cm)分别为 50,51,52,55,53,54,58,54,则新生儿平均身长 的估计为 ,约有一半的新生儿身长大于等于 ,新生儿 身长的最可能值是 . 3.某医院急诊中心关于其病人等待急诊的时间记录如下: 等待时间 (分 钟) 人数

?0,5?
4

?5,10?
8

?10,15?
5
?

?15,20?
2

?20,25?
1 , 病人等待时间的标

用上述分组资料计算得病人平均等待时间的估计值 x = 准差的估计值 s =

3?x10 ? 1? 的平均 4.样本 x1 , x2 ,......,x10 的平均数为 5,方差为 7,则 3 ?x1 ? 1?,3?x2 ? 1?,......,
数、方差,标准差分别为 5.下面是一个班级在一次测验时的成绩(已按从小到大的次序排列),分别计算男生和女 生的成绩和平均值, 中位数以及众数, 试问中位数的含义是什么?对比两个平均值和中位数, 你分析一下这个班级的学习情况

9

男生:55,55,61,65,68,71,72,73,74,75,78,80,81,82,87,94 女生:53,66,70,71 ,73,73,75 ,80,80,82,82 ,83,84,85 ,87,88,90 ,93,94, 97 6.某工厂甲,乙两个车间包装同一产品,在自动包装传送带上每隔 30min 抽一包产品,称 其重量是否合格,分别记录抽查数据如下:甲车间:102,101,99,103,98,99,98;乙 车间:110,105,90,85,75,115,110. (1)这样的抽样是何种抽样方法? (2)估计甲、乙两车间的均值与方差,并说明哪个车间的产品较稳定. 12.4 线性回归方程 一、知识导学 1. 变量之间的常见关系有如下两类:一类是确定性函数关系,变量之间的关系可以用函数 表示;一类是相关关系,变量之间有一定的联系,但不能完全用函数来表达 2. 能用直线方程 y ? bx ? a 近似表示的相关关系叫做线性相关关系 3. 一般地,设有(x,y)的 n 对观察数据如下:
^

x
y

x1 y1

x2 y2

x3 y3

…… ……

xn yn

当 a,b 使 Q ? ( y1 ? bx1 ? a) 2 ? ( y2 ? bx2 ? a) 2 ? ......? ( yn ? bxn ? a) 2 取得最小值时, 就称 y ? bx ? a 为拟合这 n 对数据的线性回归方程, 将该方程所表示的直线 称为回归直线. 4.线性回归方程 y ? bx ? a 中的系数 a , b 满足:
n ?? n 2 ? ? n ? x b ? x a ? xi y i ? ? ?? i ? ?? i ? i ?1 ?? i ?1 ? ? i ?1 ? ? n n ?? x ?b ? na ? yi ? ? i? ?? i ? 1 i ? 1 ? ? ?
? ?

由此二元一次方程组便可依次求出 b, a 的值:
n ? ? n ?? n ? n x y ? ? ? i i ?? x i ? ?? y i ? i ? 1 ? i ?1 ? ? i ?1 ? ?b ? 2 ? n ? n ? ? n? xi2 ? ?? xi ? ? i ?1 ? i ?1 ? ? ? ? ?a ? y ? b x ?

(*)

5.一般地,用回归直线进行拟合的一般步骤为: (1)作出散点图,判断散点是否在一条直线附近; (2)如果散点在一条直线附近,用公式(*)求出 a , b ,并写出线性回归方程.

10

二、疑难知识导析 1.现实世界中两个变量的关系中更多的是相关关系而不是确定性关系,许多物理学中公式 看起来是确定性关系,实际上由于公式的使用范围,测量误差等的影响,试验得到的数据之 间是相关关系. 2.用最小二乘估计方法计算得到的 a , b 使函数 Q?a, b ? 达到最小 3.还有其他寻找较好的回归直线的原则(如使 y 方向的偏差和最小,使各点到回归直线的 距离之和最小等) 4. 比较相关关系绝对值的大小可以比较一组变量之间哪两个变量有更强的(线性)相关关 系. 5. “最好的”直线方程中“最好”可以有多种解释,也就有不同的求解方法,现在广泛采 用的最小二乘法所用的思想是找到使散点到直线 y ?? bx ? a 在垂直方向上的距离的平 方和最小的直线 y ? bx ? a ,用这个方法, a , b 的求解最简单 三、经典例题导讲 [例 1]有如下一组 y 与 x 的数据 -3 -2 x y 9 4 -1 1 0 0 1 1 2 4 3 9

问 y 与 x 的(样本)相关系数 r 是多少?这是否说明 y 与 x 没有关系? 错解:

? (x
i ?1

7

i

? x)( yi ? y) ? ? xi yi ? 7 xy ? 0 ? 7 ? 0 ? 4 ? 0
i ?1

7

所以相关系数 r=0,即 y 与 x 没有关系. 错因:相关系数 r=0 并不是说明 y 与 x 没有关系,而是说明 y 与 x 没有线性相关关系,但有 可能有非线性相关关系. 正解:
7 7

? ( xi ? x)( yi ? y) ? ? xi yi ? 7 xy ? 0 ? 7 ? 0 ? 4 ? 0
i ?1 i ?1

所以相关系数 r=0,即 y 与 x 没有线性相关关系,但有可能有非线性相关关系. 此题中 y 与 x 之间存在着 y ? x 2 的二次相关关系的. [例 2]某工厂在 2004 年的各月中,一产品的月总成本 y(万元)与月产量 x(吨)之间有如 下数据: x y 4.16 4.38 4.24 4.56 4.38 4.6 4.56 4.83 4.72 4.96 4.96 5.13 5.18 5.38 5.36 5.55 5.6 5.71 5.74 5.89 5.96 6.04 6.14 6.25

若 2005 年 1 月份该产品的计划产量是 6 吨,试估计该产品 1 月份的总成本. 分析:可将此问题转化为下面三个问题: (1)画出散点图,根据散点图,大致判断月总成本 y 与月产量之间是否有线性相关关系; (2)求出月总成本 y 与月产量 x 之间的线性回归方程; (5) 若 2005 年 1 月份该产品的计划产量是 6 吨,试估计该产品 1 月份的总成本. 错解: 省去第一步, 即把判断判断月总成本 y 与月产量之间是否有线性相关关系的过程舍去, 想当然其具有线性相关关系,直接代入公式,求出线性回归方程.

11

错因:此题的月总成本 y 与月产量 x 之间确实是有线性相关关系,若不具有则会导致错误. 因此判断的过程不可少. 正解:(1)散点图见下面,从图中可以看到,各点大致在一条直线附近,说明 x 与 y 有较 强的线性相关关系.

y 6

5

4 4 5 6

x

(2)代入公式(*)得:a=0.9100,b=0.6477,线性回归方程是:y=0.9100x+0.6477. (3)当 x=6.0 时,y=0.9100 ? 6.0 ? 0.6477 ? 6.11(万元),即该产品 1 月份的总成本的估 计值为 6.11 万元. [例 3]变量 y 与 x 有线性回归方程 y ? bx ? a , 现在将 y 的单位由 cm 变为 m, x 的单位由 ms 变为 s ,则在新的回归方程 y ? b* x ? a * 中. a ?
*

.

错解:0.1 a
n ? ? n ?? n ? n x y ? ? ? i i ?? x i ? ?? y i ? ? i ?1 ? ? i ?1 ? ?b ? i ?1 2 ? n ? n ? 错因:由 ? 2 n ? x i ? ?? x i ? ? i ?1 ? i ?1 ? ? ? ? ?a ? y ? b x ?

且 y 的值变为原来的10

?2

,x 的值变为原

来的 10 可得 a 的值应为原来的 10 . 正解:0.01 a [例 4]假定一个物体由不同的高度落下,并测量它落下的时间,几个测量结果如下表所示: 高 度 40 353 60 387 100 505 130 552 150 579 180 648 200 659 220 700 240 725 s(cm) 时 间 t(ms) 高度(距离)与时间之间的关系由公式 s ?

?3

*

?2

1 2 gt 给出,这里 g 是重力加速度的值. 2

(1)画出 s 关于 t 的散点图,这些点在一条直线附近吗? (2)设 x ? t ,画出 s 关于 x 的散点图,这些点在一条直线附近吗?
2

(3)求出 s 关于 x 的线性回归方程.

12

解:(1)高度 s 关于时间 t 的散点图见下面,从图中可以看到这些点似乎在一条直线附近, 也好像在一条抛物线附近

250 230 210 190 170 150 130 110 90 70 50 300

y

400

500 t

600

700

(2)高度 s 关于 x 的散点图见下面,从图中可以看到这些散点大致在一条直线附近

250 230 210 190 170 150 130 110 90 70 50 100000

y

200000 300000 x

400000 500000

(3)可以求得 s 关于 x 的线性回归方程是 s=0.0004901x-18.8458 [例 5]测得某国 10 对父子身高(单位:英寸)如下: 父 亲 身 高 (x) 儿 子 身 高 (y) 63.5 65.2 66 65.5 66.9 67.1 67.4 68.3 70.1 70 60 62 64 65 66 67 68 70 72 74

(1)画出散点图; (2)求出 y 与 x 之间的线性回归方程; (3)如果父亲的身高为 73 英寸,估计儿子的身高. 解:(1)散点图见下面:

13

70 68 66 64 60 62 64 66 68 70 72 74

( 2 ) 从散 点图 可 以看 出 ,这 些点 都 分布 在 一条 直线 附 近, 可 求得 线性 回 归方 程 为

y ? 0.4645x ? 35.98
(3)当 x ? 73 时, y ? 0.4645? 73 ? 35.98 ? 69.9 所以当父亲的身高为 73 英寸时,估计儿子的身高约为 69.9 英寸. 四、典型习题导练 1.回归直线方程的系数 a,b 的最小二乘估计使函数 Q ( a, b) 最小, Q 函数指( ).
?

?

A.

?(y
i ?1

n

2 i

? a ? bxi )

B.

?y
i ?1

n

i

? a ? bxi

C. ( yi ? a ? bxi ) 2

D. yi ? a ? bxi

2.“回归”一词是在研究子女的身高与父母的身高之间的遗传关系时,高尔顿提出的,他 的研究结果是子代的平均身高向中心回归. 根据他的结论在儿子的身高 y 与父亲的身高 x 的 线性回归方程 y ? a ? bx 中,b( A.在(-1,0)内 B. 等于 0
?

). C.在(0,1)内 D. 在[1,+∞]内

3.在研究硝酸钠的可溶性程度时,对不同的温度观测它在水中的溶解度,得到观测结果如 下: 温度 x 溶解度 y 0 10 20 85.0 50 112.3 (保留 4 位有效数字) 70 128.0 66.7 76.0 则由此得到的回归直线的斜率是

4.下面的数据是年龄在 40 至 60 岁的男子中随机抽取的 6 个样本,分别测定了心脏功能水 平 y(满分 100),以及每天画在看电视上的平均时间 x(小时) 看 电 视 平 4.4 均时间 x 4.6 2.7 69 5.8 57 . 0.2 89 4.6 65

心 脏 功 能 52 53 水平 y 则 x 与 y 的样本相关系数为

5. 某地区近年来冬季的降雨量 x(cm)与次年夏季空气中碳氢化合物的最高平均浓度 y (ppm) , 的观测数据如下表: 年 份 198 8 198 9 199 0 199 1 199 2 199 3 199 4 199 5 199 6 199 7 199 8 199 9 200 0

14

n x 28 22 31 23 58 33 21 20 2.8 45 3.4 31 2.6 23 2.3 16 2.2 14 2.0 y 4.5 4.1 4.8 4.2 4.6 3.6 3.1 你认为 y 与 x 是什么关系?y 与 n 是什么关系?

6.每立方米混凝土的水泥用量 x(单位:kg) 与 28 天后混凝土的托压强度(单位:kg/cm 2 ) 的关系有如下数据: x 150 160 170 180 190 200 71.3 210 74.1 220 77.4 230 80.2 240 82.6 250 86.4 260 89.7 Y 56.9 58.3 61.6 64.6 68.1 (1)y 与 x 是否具有线性相关关系?

(2)如果 y 与 x 具有线性相关关系,求线性回归方程.

15


相关文章:
高中数学典型例题解析:第十二章_统计
高中数学典型例题解析:... 9页 免费高​中​数​学​典​型​例​题​解​析​:​第​十​二​章​_​统​计 ...
高中数学典型例题解析:第十二章_统计(学生用)
高中数学典型例题解析:第十二章_统计(学生用)_数学_高中教育_教育专区。家教专用第十二章一、 统计 12.1 抽样方法 知识导学 1.抽签法: (1)将总体中的所有个体...
高中数学典型例题解析:第十三章 算法初步
高中数学典型例题解析:第十三章 算法初步_数学_高中教育_教育专区。学得好不如...12 按照从内到外的顺序,依次计算一次多项式当 x ? ?4 时的值: v0 ? ?4...
典型例题解析12
典型例题解析12_数学_高中教育_教育专区。初中物理浮力典型例题解析例 1 下列说法中正确的是 () A.物体浸没在水中越深,受的浮力越大 B.密度较大的物体在水中受...
高中数学典型例题解析---- 数列
- 12 - 龙文教育---您身边的一对一 (1) 设 b n ? a n ?1 ? 2 a...高中数学典型例题解析:... 11页 免费 高中数学 第2章《数列的... 暂无评价...
高中数学典型例题解析(第七章平面解析几何
高中数学典型例题解析(第七章平面解析几何_数学_高中教育_教育专区。三、经典...+12=0,过 A、B 两点的圆 C 与抛物线在点 A 处有共同的 2.制定投资计划...
高中数学不等式典型例题解析
高中数学不等式典型例题解析_数学_高中教育_教育专区。概念、方法、题型、易误点...f (a) |? 2(| a | ?1) 十二. 不等式的恒成立,能成立,恰成立等问题:...
人教版数学必修1知识点总结及典型例题解析
人教版数学必修1知识点总结及典型例题解析_数学_高中教育_教育专区。必修1知识点总结及典型例题解析 人教版数学必修 1 知识点总结及典型例题解析 第一章 集合与...
高中数学不等式典型例题解析
x + 13 , 十二. 不等式的恒成立,能成立, 不等式恒成立问题的常规处理方 ...高中数学典型例题解析不... 24页 5下载券 高中数学必修5第三章不等... 7...
更多相关标签: