当前位置:首页 >> >>

第4章 统计数据的描述2012.3_图文

Statistics

统 计 学

工大经院 统计学

第 4 章 统计数据的描述
STAT

静态

指标
原始 加工 统计 数据 整理 指标 动态 指标

总量指标 相对指标 平均指标 变异指标 水平指标 速度指标

人口总数 人口性别比例 平均年龄 年龄标准差 不同年份人口数

人口自然增长率

工大经院 统计学

第 4 章 统计数据的描述
STAT

4.1 4.2 4.3 4.4

统计绝对数与相对数 数据集中趋势的描述 数据离散趋势的描述 数据偏态和峰度的描述

学习目标
1. 绝对数的类型。时期、时点指标的异同。 2. 相对指标的对比类型、计算方法、特点。 3. 集中趋势(平均指标)各测度值的计算方 法、特点及应用场合 4. 离散程度各测度值的计算方法特点及应用 场合 5. 偏态与峰态的测度方法

统计指标及其类型
? 统计指标
总量指标
时 点 总 量 时 期 总 量 结 构 相 对 数

相对指标
比 较 相 对 数 比 例 相 对 数 动 态 相 对 数 强 度 相 对 数 计 划 完 成 相 对 数

平均指标
(集中趋势)

变异指标

众 中 调 均 几 标 偏 数 位 和 值 何 志 度 数 平 平 变 与 均 均 动 峰 数 数 指 度 标

工大经院 统计学

第 4 章 统计数据的描述
STAT

★ 4.1 统计绝对数与相对数
4.2 数据集中趋势的描述 4.3 数据离散趋势的描述 4.4 数据偏态和峰度的描述

第一节 总量指标与相对指标 ★ 一、总量指标(绝对数)
二、相对指标(相对数)

反映现象总体规模或水平的 总量指标 综合指标,即数量指标,也 (绝对数) 称为绝对数。

总量指标的作用:
?是认识社会经济现象的起点;

?是实现宏观经济调控和企业经营

管理的基本指标; ?是计算其他统计指标的基础。

? 总量指标

内容

时间状态

计量单位

单 位 总 量

标 志 总 量

时 期 指 标

时 点 指 标

实 物 指 标

价 值 指 标

劳 动 指 标

总量指标按反映的内容分类
总体单位总量 总体中总体单位的个数 总体标志总量 总体单位某一数量标志的标志值 总和
?只有可加总体能够计算总体单位总量,不可

加总体没有总体单位总量; ?一个总体中只有一个单位总量,但可以有多 个标志总量,它们由总体单位的数量标志值 汇总而来。

总量指标按时间状态分类
时期指标 表明总体在一段时期内发展过程的 总量,如在某一段时期内的出生人

数、死亡人数
具有可加性、数值大小与时期长短有 注意二者 直接关系、需要连续登记汇总
的区别

时点指标

表明总体在某一时刻(瞬间)的 数量状况,如在某一时点的总人 口数

不具有可加性、数值大小与时期长短没 有直接关系、由一次性登记调查得到

总量指标按计量单位分类
计量单位 大 差 实物单位
适 用 范 围 综 合 能 力 小 强

劳动单位 如:工日、工时 价值单位 如:元

自然单位 如:台、件 度量衡单位 如:米、平方米 标准实物单位 如:标准吨

多个单位的结合运用:

复合单位 双重单位 多重单位

(如:人· 次、吨· 公里)
(如:人/平方公里) (如:艘 /吨 /千瓦)

标准实物单位的计量

拖拉机混合产量=4台 =

拖拉机标准实物产量=5台

计量方法

㈠ 相加计算 直接相加 折算相加 对于同类的计算对象按实际 计量单位直接加起来 对于同类的计算对象按标准 计量单位相加

㈡平衡计算与推算
如:国内生产总值=总产出-中间投入

计算与应用总量指标的原则
? 1、正确确定指标的含义与计算范围。
? 2、计算实物总量指标时只有同类才能相加

? 3、使用统一计量单位
? 4、总量指标、相对指标、平均指标要结合 运用

第一节 绝对数与相对数
一、总量指标(绝对数)

★ 二、相对指标(相对数)

相对指标

反映现象数量对比关系的指标, 也称为相对数。

相对指标的作用:
?使不能直接对比的现象找到共同的

比较基础; ?用来进行宏观经济管理和评价经济 活动的状况。

相对指标的表现形式
有名数 用双重计量单位表示的复名数 无名数 用倍数、系数、成数、﹪、‰等表示 分母 为1 分母为 1.00 分母 为10 分母 为100 分母为 1000

成数应当用整数的形式来表述
3成、近7成 8.6成

?
?

相对指标种类
? 相对指标

计 划 完 成 相 对 数

结 构 相 对 数

比 例 相 对 数

比 较 相 对 数

动 态 相 对 数

强 度 相 对 数

相对指标的计算

——计划完成相对数

?计划完成相对数:是一定时期内实际完成数与计
划任务数的比值,表明计划的完成程度,一般用 百分数表示。又称计划完成程度或计划完成百分 数。

?基本公式
?计划完成相对数=
实际完成数 ×100%

计划任务数

A.计划任务数表现为绝对数时
⒈短期计划完成情况的检查 ⑴ 直接应用公式: 实际完成数 ?100﹪ 计划完成程度= 计划任务数

⑵ 考察计划执行进度情况: 计划完成 累计至本期止实际完成数 ? ? 100﹪ 全部计划任务数 进度
例4.1:某企业2011年计划产量为10万件,而实 际至第三季度末已生产了8万件,全年实际共 生产11万件。则

8 ? ? 100﹪ ? 80﹪ 10 计划完成进度
11 ? ? 100﹪ ? 110﹪ 10 完成程度 全年计划

第三季度末

⒉长期(5-10年)计划完成情况的检查

按计划期内各年的总和 ⑴ 累计法 规定计划任务
计划完成 程度 计划期内实际完成累计数 ? ?100﹪ 计划任务总数

提前完成 全部计 自计划执行起至累计实际完成数量 ? ? 计划时间 划时间 已达到计划任务数所用的时间

⒉长期(5-10年)计划完成情况的检查

按计划末期应达到的水平规定 ⑵ 水平法 计划任务
计划完成 程度
提前完成 计划时间

计划末期实际达到的水平 ? ?100﹪ 计划规定末期应达到的水平
计划全 ? 连续12个月的实际完成数

?

部时间 达到计划任务数所需要的时间

B. 计划任务数表现为相对数时
计划完成程度 相对数 1 ? 实际 ? 1 ? 计划 提高 降低 提高 降低 百分数 ? 100﹪ 百分数

例4.4:某厂计划2011年的产品产量要比上年提高5﹪, 而实际提高了7﹪。则2011年该产品产量的计划完成 情况是:

计划完成 1 ? 7﹪ ? ?100﹪ ? 101 .9﹪ 1 ? 5﹪ 程度

百分点

相当于百分数的计量单位,一个 百分点就指1﹪。

提高 实际比计划多 的百分点 降低 提高 提高 ? ? ? ? 实际 百分比 ? 计划 百分比? ?100 ? ? 降低 降低 ? ?
上例中,实际比计划多提高的百分点为 (7﹪--5﹪)×100=2(个百分点)

相对指标的计算 ——结构相对数
?

结构相对数:总体中某部分数值与总体全部数值 的比值, 反映总体内部构成情况,一般用百分数 表示。 计算公式
结构相对数 = 总体某部分数值

?

总体全部数值

×100%

注意: 结构相对数的分子分母位置不能互换。

例4.5:我国某年国民收入使用额为19715亿元,其 中消费额为12945亿元,积累额为6770亿元。则

消费额占国民收入 12945 ? ? 100﹪ ? 65 .7﹪ 19715 使用额的比例 积累额占国民收入 使用额的比例
说 明

6770 ? ? 100﹪ ? 34 .3﹪ 19715

⒈为无名数; ⒉同一总体各组的结构相对数之和为1; ⒊用来分析现象总体的内部构成状况。

结构相对数的计算
? 恩格尔系数与消费结构分析
–消费结构:是指各类消费支出在总消费支出 中所占的比重。 –恩格尔系数:19世纪德国统计学家恩格尔根 据对英国、法国、德国、比利时等国居民家 庭收支的分析研究,指出:随着家庭收入增 加,家庭收入或总支出中用于食品方面的支 出比重越来越小,即恩格尔定律,反映这个 定律的系数,称为恩格尔系数。 –恩格尔系数 = 食品支出总额/消费支出总额

恩格尔系数与消费结构分析(算例)
? [例4.6]已知某地有关资料如下表:
年 份 人均食品支出 (元)(1) 94.39 183.58 276.77 347.54 426.55 487.18 人均生活费支 出(元)(2) 恩格尔系数 (3)= (1) / (2)

1995 1996 1997 1998 1999 2000

186.88 384.55 605.88 820.63 1047.52 1200.24

50.51 47.74 45.68 42.35 40.72 40.59

从上表数据可看出,该地恩格尔系数不断下降,由1995年的 50.51%降至2000年的40.59%。说明该地经济发展较好,人民 生活水平提高很快。

相对指标的计算 ——比例相对数
?

比例相对数:总体中某一部分数值与另一部分数值 的比值, 反映总体各部分间的内在联系和比例关系。
比例相对数 = 总体中某一部分数值 总体中另一部分数值 ×100%

注意:比例相对数的分子分母同属一个总体,而且分子 与分母的位置可以互换。

人口的性别比例、积累与消费比例、固定资产与流动资 产的比例等社会活动中许多重大比例关系,都是通过计 算比例相对数来反映事物内部各组成部分的内在联系和 比例关系的。

例4.7:我国某年国民收入使用额为19715亿元,其 中消费额为12945亿元,积累额为6770亿元。则

积累额与消费额 的比率

6770 17 ? ?100﹪ ? ? 1 : 2?或 ? 51.52﹪? 12945 33

说 ⒈为无名数,可用百分数或一比几或几比几表示; 明 ⒉用来反映组与组之间的联系程度或比例关系。

相对指标的计算 ——比较相对数
?

比较相对数:同一时间的同类指标在不同空间 对比的比值, 反映不同国家、不同地区或不同 单位之间的差异程度,一般用百分数或倍数表 示。
比较相对数 = 甲地区(单位)某指标数值

乙地区(单位)同一指标数值

×100%

注意:比较相对数与比例相对数类似,分子与分母也可 以互换。 两者的差别:比例相对数是同一总体的不同部分比较, 而比较相对数是同类指标的不同空间比较。

例4.8:某年某地区甲、乙两个公司商品销售 额分别为5.4亿元和3.6亿元。则

甲公司商品销售额 与乙公司之比

5.4 ? ? 1.5 3.6

说 明

⒈为无名数,一般用倍数、系数表示; ⒉用来说明现象发展的不均衡程度。

相对指标的计算 ——动态相对数
? 动态相对数:某一现象在不同时期对比的比率。 反映该现象在时间上的发展变化方向和程度,也 称为发展速度或指数。
动态相对数 =

报告期指标数值
基期指标数值

×100%

说 明

⒈为无名数; ⒉用来反映现象的数量在时间上的变动程度。

相对指标的计算 ——强度相对数
? 强度相对数:两个性质不同而又有联系的指标对 比的比率, 反映现象的强度、密度和普及程度, 是一种特殊形式的相对数。

某一总量指标数值 ? 相对数 另一有联系但性质不同的总量指标数值
注意:强度相对数一般以有名数表示,如商品流转次数用 单名数“次”表示,人均粮食产量用复名数“千克/人”表 示;也可以采用百分数、千分数等表示,如商品流通费用率 用百分数表示,人口出生率用千分数表示。

强度

无名数的 强度相对数

一般用﹪、‰表示。

例4.9:某年某地区年平均人口数为100万人,在 该年度内出生的人口数为8600人。则该地区

8600 ? ?1000 ‰ ? 8.6‰ 6 出生率 1?10

人口

有名数的 强度相对数

用双重计量单位表示,反映的是一 种依存性的比例关系或协调关系, 可用来反映经济效益、经济实力、 现象的密集程度等。

例4.11:某地区某年末现有总人口为100万人, 医院床位总数为24700张。则该地区
24700 ?张? ? ? 24 .7?张 千人? (正指标) 的医院床位数 1000 ?千人? 每千人口拥有

每张医院床位 1? 10 6 ? ? 40 .5?人 张 ? 负担的人口数 24700

(逆指标)

有些强度相对数的分子和分母可以互换,形成正 指标与逆指标两种计算方法。
–正指标:数值大小与其反映的强度、密度和普及程度成正 比; –逆指标:数值大小与其反映的强度、密度和普及程度成反 比

[例4.10]某地区2000年零售商业网点为50000个, 年平均人口为800万人,则: 零售商业网密度=50000/800 =62.5(个/万人) (正指标) 零售商业网密度=800/50000 =0.016(万人/个) =160(人/个) (逆指标)

计算和应用相对数的原则
? 1、正确选择对比的基础 ? 2、两个对比指标要有可比性 ? 3、相对指标要与总量指标结合运用 ? 4、各种相对指标结合运用

利润 总额
甲企业

资金 占用

资金利 润率

500 3000 16.7% 万元 万元 不可比 不可比 可比 5000 万元 40000 12.5% 万元

乙企业

比较两厂经济效益

正确选择对比基础

本单位历史水平 本行业(全国)平 均(先进)水平 某经济效益指标实际值 该经济效益指标标准值

经济效益指数=

定基价格指数=

某期价格水平 某固定基期的价格水平

经济发展、价格水平 均较为正常的时期

注意指标间的可比性 2000年的工业总产值(当年价格)

? 1980年的工业总产值(当年价格)
1980年中国的国民收入(人民币元)

? 1980年美国的国民收入(美元)

相对指标应当结合总量指标使用

相对指标抽象掉了具体的数量差异: 1:2=50% 10000:20000=50% 1998年相对于1997年,美国的GDP增 长速度为3.9%,同期中国GDP增长速 度为7.8%,恰好为美国的2倍;但根据 同期汇率(1美元兑换8.3元人民币), 1998年中国GDP总量约合9671亿美元, 约相当于同期美国GDP总量84272亿美 元的1/9。

多种相对指标应当结合运用

结构相对数 比例相对数 比较相对数 动态相对数 计划完成相对数 强度相对数

(部分与总体关系) (部分与部分关系) (横向对比关系) (纵向对比关系) (实际与计划关系) (关联指标间关系)

男性人口的 比重为50.8﹪

比1980年末的 9.9亿人增加 了28﹪ 人口性别比 为1.03:1

女性人口的 比重为49.2﹪

1999年末我国共有 总人口12.6亿人,其 中男性人口为6.4亿, 女性人口为6.2亿。

人口出生率 为15.23‰

人口密度为 130人/平方公里

人口密度是 美国的4.5倍

累 计 收 入 百 分 比

基尼系数=A/(A+B)
洛伦茨曲线

A B
累计人口百分比

工大经院 统计学

第 4 章 统计数据的描述
STAT

★ 4.1 统计绝对数与相对数 ★ 4.2 数据集中趋势的描述
4.3 数据离散趋势的描述 4.4 数据偏态和峰度的描述

第2节 数据集中趋势的描述 (平均指标)
? ? ? ? ? ? 一、 二、 三、 四、 五、 六、 众数 中位数 均值 调和平均数 几何平均数 众数、中位数、均值的关系

工大经院 统计学

集中趋势
(central tendency)——
STAT

是表明同类社会经济现象在一定时间、地 点条件下所达到的一般水平的综合指标。 其数值表现为平均数。

集中趋势的主要度量指标
?中位数 位置型 ?众数 ?均值(算术平均数) ?调和平均数 数值型 ?几何平均数

平均指标的作用
? 1.可以对比同类现象在不同地区、不同单位的一 般水平,以反映各地区、各单位工作的质量和效 果。 ? 2.可以对比同一现象在不同时间的一般水平的变 化,反映这类现象发展变化的趋势和规律性。 ? 3.可以分析现象之间的依存关系。 ? 4.可以进行数量上的估计推断。

工大经院 统计学

STAT

一、众数
(分类数据特别适用)

众数
(mode)
1. 一组数据中出现次数最多的变量值
2. 适合于数据量较多时使用 3. 不受极端值的影响 4. 一组数据可能没有众数或有几个众数 5. 主要用于定类数据,也可用于定序数据和 数值型数据

众数
(不唯一性)
?无众数 原始数据:

10

5

9 12

6

8

一个众数 原始数据:

6

5

9

8

5

5

多于一个众数 原始数据: 25 28 28 36 42 42

定类数据的众数
(例题分析)
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 频数 15 11 9 6 9 50 比例 0.30 0.22 0.18 0.12 0.18 1 百分比 (%) 30 22 18 12 18 100

例4.12:这里的变量
为“饮料品牌”,这 是个分类变量,不同 类型的饮料就是变量 值 所调查的50人中, 购买可口可乐的人数 最多,为15人,占总 被调查人数的30%, 因此众数为“可口可 乐”这一品牌,即

Mo=可口可乐

定序数据的众数
(例题分析)
甲城市家庭对住房状况评价的频数分布

回答类别 非常不满意 不满意 一般 满意 非常满意

甲城市 户数 (户) 百分比 (%) 24 108 93 45 30 8 36 31 15 10

例4.13:这里的数 据为顺序数据。变 量为“回答类别” 甲城市中对住 房表示不满意的户 数 最 多 , 为 108 户 ,因此众数为“不 满意”这一类别, 即

合计

300

100.0

Mo=不满意

数值数据的众数
在服装行业中,生产商、批发商和零售 商在做有关生产或存货的决策时,更感 兴趣的是最普遍的尺寸而不是平均尺寸。

有时众数是反映数据集中趋势合适的代表值. 对于不同数据资料,众数的确定方法也不同。

众数的确定

(单值数列)

【例4.14】已知某企业某日工人的日产量资料 日产量(件) 10 M0 11 12 13 14 合计 工人人数(人) 70 100 380 150 100 800

计算该企业该日全部工人日产量的众数。

众数的确定

(组距数列)

?1 Mo ? L ? ?d 【例4.15】某车间50名工人月产量的资料如下: ?1 ? ? 2
月产量(件) 工人人数(人) 25 f X M o ? 400 ? 200以下 200~400 400~600 600以上 合计 3 7 32 8 50 向上累计次数 ? 200 ? 502 (人) 25 ? 24 3 10 42 50 —

?件?

计算该车间工人月产量的众数。

众数的原理及应用
?当数据分布存在明显的集中趋势,

且有显著的极端值时,适合使用众 数; ?当数据分布的集中趋势不明显或 存在两个以上分布中心时,不适合 使用众数(前者无众数,后者为多 众数,也等于没有众数)。

☆位置测度的其他常用方法: 四分位数 (Quartile)

通常将数据分成四个部分,每 一部分大约包括1/4或25%的数 据,分位点称为四分位数。

把排序数据等分为四个区间 (Quarters)
25% Q1 25% Q2 25% Q3 25%

四分位 数

工大经院 统计学

STAT

二、中位数
(定序数据特别适用)

中位数
(median)
1. 排序后处于中间位置上的值

50%
Me

50%

2. 不受极端值的影响 3. 主要用于定序数据,也可用数值型数据,但不能 用于定类数据 4. 各变量值与中位数的离差绝对值之和最小,即
n

?x
i ?1

i

? M e ? min

数值型数据的中位数
(未分组 奇数数据的算例)
?
?
?

【例4.17】
原始数据:
排 序:

9个家庭的人均月收入数据

1500 750 780 1080 850 960 2000 1250 1630 750 780 850 960 1080 1250 1500 1630 2000

?
?位 置:
1

n ?1 9 ?1 位置 ? ? ?5 2 2

2

3

4

5

6

7

8

9

中位数 ? 1080

数值型数据的中位数
(未分组偶数数据的算例)
【例4.18】10个家庭的人均月收入数据
排 位 序: 置: 660 750 780 850 960 1080 1250 1500 1630 2000

1 2

3

4

5

6

7

8

9

10

?
n ? 1 10 ? 1 位置 ? ? ? 5.5 2 2
960 ? 1080 中位数 ? ? 1020 2

中位数的确定 (单值数列) 中位数的位次:
800 ? 1 ? 400 .5 【例4.19】某企业某日工人的日产量资料如下: 2 日产量(件) 工人人数(人) 向上累计次数 f (人) X 10 70 70 11 100 170 M e ? 12 380 550 13 150 700 14 100 800

合计

800



计算该企业该日全部工人日产量的中位数。

中位数的确定 (组距数列) ? f ?S m ?1 【例4.20】某车间50名工人月产量的资料如下: Me ? L ? 2 ?d fm
月产量(件) 工人人数(人) 50 f ? 10 X

23 M 200以下e ? 400 ? 32 7 200~400
400~600 600以上 合计 32 8 50

向上累计次数 (人) ? ?600 ? 400 ? ? 493 .75?件? 3 10 42 50 —

计算该车间工人月产量的中位数。

中位数的确定 (组距数列)
共有单位数 该段长度应为

?f
2

?f
2

? S m ?1
2

? S m ?1 fm

?d

? f 个单位 共

中位数下限公式为 ? f ?S m ?1 Me ? L ? 2 ?d fm
2

? f 个单位 共

L 组距为d U 中位数组 共 S m ?1 个单位 共 S m ?1 个单位 共 f m 个单位 假定该组内的单 位呈均匀分布

工大经院 统计学

STAT

三、均值(算术平均数)
(数值型数据适用)

算术平均数(均值)
(mean)
1.集中趋势的最常用测度值
2.一组数据的均衡点所在 3.体现了数据的必然性特征 4.易受极端值的影响

5.用于数值型数据,不能用于定类数据和定 序数据

算术平均数 基本形式:
总体标志总量 ? 平均数 总体单位总数
例:
工资总额 平均工资 ? 职工人数 总成本 平均成本 ? 总产量

算术

直 接 承 担 者

※ 注意区分算术平均数与强度相对数

均值 的计算方法

简单平均数与加权平均数
(simple mean / weighted mean)

均值 的计算方法 A. 简单算术平均数 ——适用于总体资料未经 分组整理、尚为原始资料 的情况

X 1 ? X 2 ? ?? ? X N X? ? N

?X
i ?1

N

i

N

式中: 为算术平均数; N 为总体单位总数; X X i 为第i 个单位的标志值。

均值的计算方法

某售货小组5个人,某天的销售额 【例4.21】 分别为520元、600元、480元、750 元、440元,则

平均每人日销售额为:

?X X?
N

520 ? 600 ? 480 ? 750 ? 440 ? 5 2790 ? ? 558 ?元? 5

均值的计算方法 B. 加权算术平均数 ——适用于总体资料经过 分组整理形成变量数列的 情况
X 1 F1 ? X 2 F2 ? ?? ? X m Fm X ? ? F1 ? F2 ? ?? ? Fm

?X F
i ?1 m i

m

i

?F
i ?1

i

式中: 为算术平均数;Fi 为第 i 组的次数; X X m 为组数; i为第i 组的标志值或组中值。

算术平均数的计算方法

【例4.22】某企业某日工人的日产量资料如下:
日产量(件) 工人人数(人)

X
10 11 12 13 14 合计

F
70 100 380 150 100 800

计算该企业该日全部工人的平均日产量。

解:
X ?

?X F
i ?1 m i

m

i

?F
i ?1

10 ? 70 ? ? ? 14 ? 100 ? 70 ? ? ? 100

i

9710 ? ? 12 .1375 (件) 800

若上述资料为组距数列,则应取各组的组 说 中值作为该组的代表值用于计算;此时求 明 得的算术平均数只是其真值的近似值。

分析:
X ?

?X
i ?1 m i ?1

m

i

Fi

决定平均数 的变动范围

? Fi

起到权衡轻 重的作用

成绩(分)

人数(人) 甲班 乙班 丙班

60
100

39
1

1
39

50
50

平均成绩(分)

61

99

80

权数

变量数列中各组标志值出现的次数, 反映了各组的标志值对平均数的影 响程度

绝对权数 表现为次数、频数、单位数;即 公式 X ? ? XF ? F 中的 F 相对权数 表现为频率、比重;即公式 F X ? ? XF ? F ? ? X 中的 F ?F

?F

权数是以某种数量形式对比、权衡被评价事 物总体中诸因素相对重要程度的量值。
第一,权数的数量形式可以是多种多样的,可以 是绝对数,也可以是相对数;可以是结构相对数, 也可以是比例相对数;可以取正数,甚至有时也可 以取负数。

第二,权数尽管可以以绝对数或比例相对数的 形式出现,但权数的实质是结构相对数。
第三,权数是用来衡量诸内部因素在总体中重 要程度的,由于人们是从不同方面来把握重要程度 的,因而这个定义就不是把权数仅仅限于频率和同 度量因素这一狭窄的范围内。

权数与加权

1

2

3

4

5

6

7

8

9

权数与加权

权数与加权

1

2

3

4

5

6

7

8

9

1? 2 ? 2 ? 2 ? 3 ? 4 ? 4 ? 5 ? 5 ? 3 ? 6 ? 2 ? 7 ? 1 ? 8 ? 1 ? 9 ? 1 X? ? 4.24 21

权数与加权

1

2

3

4

5

6

7

8

9

X?

算术平均数的计算取决于变量 值和权数的共同作用: 1? 2 ? 2 ? 2 ? 3 ? 4 ? 4 ? 5 ? 5 ? 3 ? 6 ? 2 ? 7 ? 1 ? 8 ? 1 ? 9 ? 1

变量值决定平均数的范围;
权数则决定平均数的位置

21

? 4.24

算术平均数的主要数学性质

⒈变量值与其算术平均数的离差之 和衡等于零,即:

?( X ? X ) ? 0
⒉变量值与其算术平均数的离差平 方和为最小,即:

?( X ? X ) ? min
2

离差的概念

?( X ? X ) ? ?1 ? 0 ? (?2) ? 3 ? 1 ? (?1) ? 0
8 7 6 5 4 3 2 1
?

3 -1
? ?

1 -2

?

-1

?

x ?5
2 2 2

?( X ? X ) ? 1 ? 0 ? (?2) ? 3 ? 1 ? (?1) ? 16
2 2 2

2 ?

X1 X 2 X 3 X 4 X 5 X 6

工大经院 统计学

STAT

四、调和平均数(调和均值)
(数值型数据适用)

调和平均数
(harmonic mean)
1. 均值的另一种表现形式。又称为 倒数平均数或调和均值) 2. 易受极端值的影响 3. 通常作为加权计算平均数的变形 使用
XH

原来只是 计算时使 用了不同 的数据!

?M ? M ?X

i

i i

?X F ?? ?F
i i

i

调和平均数 (例题分析)
【例4.23】某蔬菜批发市场三种蔬菜的日成交 数据如表,计算三种蔬菜该日的平均批发价格
某日三种蔬菜的批发成交数据 蔬菜 名称 甲 乙 丙 合计
___

批发价格(元) Xi 1.20 0.50 0.80 —

成交额(元) Mi 18000 12500 6400 36900

成交量(公斤) Fi =M/X 15000 25000 8000 48000

XH

成交额 36900 ? ? ? 0.769 (元) 成交额 48000 ? 批发价格

调和平均数的应用
【练习】 某企业某日工人的日产量资料如下:
日产量(件) 各组工人日总产量(件)

X
10 11 12 13 14

M
700 1100 4560 1950 1400 9710

合计

计算该企业该日全部工人的平均日产量。

调和平均数的应用

解:
XH

?M ? 1 ?X M

?

9710 700 1400 ??? 10 14

9710 ? ? 12 .1375 ?件 ? 800

即该企业该日全部工人的平均日产量为 12.1375件。

工大经院 统计学

STAT

五、几何平均数(几何均值)
(数值型数据适用)

几何平均数 (geometric mean)
1. n 个变量值乘积的 n 次方根 2. 适用于对比率数据的平均 3. 主要用于计算平均增长率 4. 计算公式为

X G ? N X 1 ? X 2 ? ?? X N ? N ? X i
i ?1

N

5. 可看作是均值的一种变形
1 lg X G ? (lg X 1 ? lg X 2 ? ? ? lg X N ) ? n

? lg X
i ?1

N

i

N

应用:

用于计算现象的平均比率或平均速度
应用的前提条件:
?各个比率或速度的连乘积等于总比率或

总速度; ?相乘的各个比率或速度不为零或负值。

几何平均数的计算方法

A. 简单几何平均数 ——适用于总体资料未经分组整 理尚为原始资料的情况

X G ? X 1 ? X 2 ? X N ? ?X
N N

X 式中: G为几何平均数; N 为变量值的 个数;X i 为第 i个变量值。

?

【例4.26】某水泥生产企业1999年的水泥产 量为100万吨,2000年与1999年相比增长率为 9% , 2001 年 与 2000 年 相 比 增 长 率 为 16% , 2002年与2001年相比增长率为20%。求各年的 年平均增长率。

X G ? N X 1 ? X 2 ? ?? X N ? 3 109% ?116% ?120% ? 114.91%
年平均增长率=114.91%-1= 14.91%

【例4.27】某流水生产线有前后衔接的五道工 序。某日各工序产品的合格率分别为95﹪、 92﹪、90﹪、85﹪、80﹪,求整个流水生产线 产品的平均合格率。

分析:

设最初投产100A个单位 ,则 第一道工序的合格品为100A×0.95; 第二道工序的合格品为(100A×0.95)×0.92; …… 第五道工序的合格品为 (100A×0.95×0.92×0.90×0.85)×0.80;

因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 则该流水线产品总的合格率为:
总合格品 100A ? 0.95 ? 0.92 ? 0.90 ? 0.85 ? 0.80 ? 总产品 100A ? 0.95 ? 0.92 ? 0.90 ? 0.85 ? 0.80

即该流水线总的合格率等于各工序合格率 的连乘积,符合几何平均数的适用条件, 故需采用几何平均法计算。

因该流水线的最终合格品即为第五道工序 的合格品, 故该流水线总的合格品应为 100A×0.95×0.92×0.90×0.85×0.80; 解: X G ? 5 0.95 ? 0.92 ? 0.90 ? 0.85 ? 0.80 则该流水线产品总的合格率为:
? 5 0.5349 ? 88 .24﹪ 总合格品 100A ? 0.95 ? 0.92 ? 0.90 ? 0.85 ? 0.80 ? 总产品 100A ? 0.95 ? 0.92 ? 0.90 ? 0.85 ? 0.80

即该流水线总的合格率等于各工序合格率 的连乘积,符合几何平均数的适用条件, 故需采用几何平均法计算。

几何平均数的计算方法

思考
若上题中不是由五道连续作业的工序 组成的流水生产线,而是五个独立作 业的车间,且各车间的合格率同前, 又假定各车间的产量相等均为100件, 求该企业的平均合格率。

几何平均数的计算方法

分析:
因各车间彼此独立作业,所以有 第一车间的合格品为:100×0.95; 第二车间的合格品为:100×0.92; …… 第五车间的合格品为:100×0.80。 则该企业全部合格品应为各车间合格品的 总和,即 总合格品=100×0.95+……+100×0.80

不再符合几何平均数的适用条件,需按照 求解比值的平均数的方法计算。又因为
合格品?M ? 合格率? X ? ? 产品?F ?

?

?

应采用加权算术平均数公式计算,即
X

? XF ? ?F

0.95 ? 100 ? ? ? 0.80 ? 100 ? 100 ? ? ? 100

442 ? ? 88 .4 ﹪ 500

几何平均数的计算方法

B. 加权几何平均数 ——适用于总体资料经过分组整理 形成变量数列的情况

XG ?

? Fi
i ?1

M

X1 ? X 2 ? X M
F1 F2

FM

? i?1

?

M

Fi M

?X
i ?1

Fi i

X 式中:G 为几何平均数; f i 为第 i 组的次数; m为组数; i 为第i 组的标志值或组中值。 X

【例4.27】某金融机构以复利计息。近12年来 的年利率有4年为3﹪,2年为5﹪,2年为8﹪, 3年为10﹪,1年为15﹪。求平均年利率。

分析:
设本金为V,则至各年末的本利和应为:第2年的 ﹪ 计息基础 第1年末的本利和为: V ?1? 3 ? 第2年末的本利和为: ?V ?1 ? 3 ???1 ? 3 ? ﹪ ﹪
………
4

………

第12年末的本利和为:
2

?V ?1 ? 3﹪? ?1 ? 5﹪? ?1 ? 8﹪? ?1 ?10﹪? ??1 ?15﹪?
2 3

第12年的 计息基础

则该笔本金12年总的本利率为:
总的本利和 V?1 ? 0.03? ?1 ? 0.05 ? ? ?1 ? 0.15 ? ? 本金 V
4 2

? ?1 ? 0.03? ?1 ? 0.05 ? ? ?1 ? 0.15 ?
4 2

即12年总本利率等于各年本利率的连乘积,符合几 何平均数的适用条件,故计算平均年本利率应采用 几何平均法。

?1 ? 0.03? ?1 ? 0.05 ? ??1 ? 0.15 ? 解: X G ? ? 12 2.2154 ? 106 .85﹪
? 4 ? 2 ???1?
4 2

平均年利率 ? X G ? 1 ? 106 .85﹪? 1 ? 6.85﹪

几何平均数的计算方法

思 考
分 析

若上题中不是按复利而是按单利 计息,且各年的利率与上相同, 求平均年利率。
设本金为V,则各年末应得利息为: 第1年末的应得利息为: V ? 0.03 第2年末的应得利息为: V ? 0.03
…… ……

第12年末的应得利息为:V ? 0.15

则该笔本金12年应得的利息总和为: =V(0.03×4+0.05×2+……+0.15×1) 这里的利息率或本利率不再符合几何 平均数的适用条件,需按照求解比值的平 均数的方法计算。因为

利息?M ? 假定本 利息率? X ? ? ? 本金?F ? 金为V ?

所以,应采用加权算术平均数公式计算平 均年利息率,即:

解:

? XF ? ?V ? 0.03?? 4 ? ? ? ?V ? 0.15 ??1 X ? V ? 4 ? ? ? V ?1 ?F
0.83V ? ? 6.92﹪ 12V

(比较:按复利计息时的平均年利率为6.85﹪)

工大经院 统计学

算术平均数、调和平均数与 几何平均数的关系
STAT

就同一资料计算时,有:

X H ? XG ? X

设 x 取值为:

4、4、5、5、5、10

X H ? 5 ? X G ? 5.21 ? X ? 5.5

工大经院 统计学

STAT

众数、中位数和均值的比较

形状 Shape
表明数据是如何分布的
偏态Skew 与 对称Symmetry 左偏: 均值<中位数 右偏: 均值>中位数 对称(零偏度) :均值 = 中位数 = 众数
左偏分布
均值 中位数 众数

对称分布 均值 =中位数 =众数

右偏分布
众数

中位数均值

众数、中位数、均值的 特点和应用
1. 众数
– – –
– – – – –

不受极端值影响 具有不惟一性 数据分布偏斜程度较大时应用
不受极端值影响 数据分布偏斜程度较大时应用 易受极端值影响 数学性质优良 数据对称分布或接近对称分布时应用

2. 中位数

3. 算术平均数

数据类型与集中趋势测度值
数据类型和所适用的集中趋势测度值
数据类型 适 用 的 测 度 值 定类数据 ※众数 — — — — — 定序数据 ※中位数 四分位数 众数 — — — 定距数据 ※均值 众数 中位数 四分位数 — — 定比数据 ※均值 调和平均数 几何平均数 中位数 四分位数 众数

工大经院 统计学

离中趋势
1. 数据分布的另一个重要特征
STAT

2. 反映各变量值远离其中心值的程度(离散程度) 3. 从另一个侧面说明了集中趋势测度值的代表程度 4. 不同类型的数据有不同的离散程度测度值

10

15

20

0

5

100

150

50

0
2 4 6 8 0 16 2 15 15 15 16

15 2 4 6 8 0 2 15 15 15 16 16

15

集中趋势弱、 离中趋势强

集中趋势强、离 中趋势弱

16

4

16

4

X ? 164 cm
16 6 16 8 0 17 17 2 4 17

X ? 164 cm
16 6 16 8 17 17 17 0 2 4

离中趋势

指总体中各单位标志值背离 分布中心的规模或程度,用 标志变异指标来反映。

反映统计数据差异程度的综 合指标,也称为标志变动度

测定离中趋势的意义
1.用来衡量和比较平均数代表性的大小。

(变异指标值越大,平均指标的代表性越小;反之, 平均指标的代表性越大)
2.用来反映社会经济活动过程的均衡性和节奏性。 (变异指标值越大,均衡性和节奏性越差;反之,均 衡性和节奏性越好) 3.用来测定各变量值背离分布中心的程度。 (变异指标值越大,各变量值背离分布中心的程度越 大;反之,各变量值背离分布中心的程度越小)

工大经院 统计学

STAT

品质数据:异众比率

异众比率
(variation ratio)
? 1. 对品质数据离散程度的测度 ? 2. 非众数组的频数占总频数的比率 ? 3. 计算公式为

vr

?F ? F ? ?F
i i

m

Fm ? 1? ? Fi

4. 用于衡量众数的代表性

异众比率
(例4.27分析)
不同品牌饮料的频数分布 饮料品牌 可口可乐 旭日升冰茶 百事可乐 汇源果汁 露露 合计 频数 15 11 9 6 9 50 比例 0.30 0.22 0.18 0.12 0.18 1 百分比 (%) 30 22 18 12 18 100
解:

vr ?

50 ? 15 50 15 ? 1? 50 ? 0.7 ? 70%

在所调查的50人当中,购 买其他品牌饮料的人数占 70%,异众比率比较大。因 此,用“可口可乐”代表消 费者购买饮料品牌的状况, 其代表性不是很好

工大经院 统计学

STAT

数值型数据: 极差 平均差 方差 标准差

极差
(range)
1. 2. 3. 4. 一组数据的最大值与最小值之差,又称全距。 离散程度的最简单测度值 易受极端值影响 未考虑数据的分布 7 8 9 10 7 8 9 10

R ? X max ? X min
最大变量值或最 高组上限或开口 组假定上限 最小变量值或最 低组下限或开口 组假定下限

【例4.28】某售货小组5人某天的销售额分别为 440元、480元、520元、600元、750元,则

R ? X max ? X min ? 750 ? 440 ? 310 ?元?

【例4.29】某季度某工业公司18个工 业企业产值计划完成情况如下:
计划完成程度 (﹪) 90以下 90~100 100~110 110以上 合计 组中值 企业数 计划产值 (﹪) (个) (万元) F X 85 2 800 95 3 2500 105 10 17200 115 3 4400 — 18 24900

解:R ? X max ? X min ? ?110 ? 10 ? ? ?90 ? 10 ?

计算该公司该季度计划完成程度的全距。
? 120 ? 80 ? 40 ? ? ﹪

全距的特点
?优点:计算方法简单、易懂;
?缺点:易受极端数值的影响,不能

全面反映所有标志值差异大小及分 布状况,准确程度差 往往应用于生产过程的质量控制中

平均差
(mean deviation)
1. 各变量值与其均值离差绝对值的平均数 2. 能全面反映一组数据的离散程度 3. 数学性质较差,实际中应用较少
4. 计算公式为 (1)简单平均差——适用于未分组资料
X1 ? X ? ? ? X N ? X N

A? D ?

?

?X
i ?1

N

i

?X

N

第 i 个单位 的变量值

总体单 总体均值 位总数

【例4.30】某售货小组5个人,某天的销售 额分别为440元、480元、520元、600元、 750元,求该售货小组销售额的平均差。

解:

440 ? 480 ? 520 ? 600 ? 750 2790 X? ? ? 558?元? 5 5

A? D ?

?X
i ?1

N

i

?X ?

440 ? 558 ? ? ? 750 ? 558 5

N

468 ? ? 93 .6?元 ? 5

即该售货小组5个人销售额的平均差为93.6元。

⑵ 加权平均差——适用于分组资料

A? D ?

X 1 ? X F1 ? ? ? X M ? X FM F1 ? ? ? FM

?

?X
i ?1

M

i

? X Fi
i

?F
i ?1

M

第 i 组的变量 第 i 组变量值 总体算术 出现的次数 值或组中值 平均数

例4.31
按销售量分 组 140~150 150 ~ 160 160 ~ 170 170 ~ 180 180 ~ 190 190 ~ 200 200 ~ 210 210 ~ 220 220 ~ 230 230 ~ 240 合计

某电脑公司销售量数据平均差计算表
组中值(xi) 频数(Fi)

Xi ? X
40 30 20 10 0 10 20 30 40 50 —

X i ? X Fi
160 270 320 270 0 170 200 240 160 250 2040

145 155 165 175 185 195 205 215 225 235 —

4 9 16 27 20 17 10 8 4 5 120

X?

? XF
?F

? 185 (台)

A.D ?

?X
i ?1

M

i

? X Fi

N

2040 ? ? 17(台) 120

含义:与每一天的销售量平均数相比, 平均相差17台

?

【例4.32】计算下表中某公司职工月工资的平均差
月工资(元) 组中值(元) 职工人数(人) X F 250 208 300以下 350 314 300~400 450 382 400~500 550 456 500~600 650 305 600~700 750 237 700~800 850 78 800~900 950 20 900以上 — 2000 合计

解: ? 250 ? 208 ? ? ? 950 ? 20 ? 1045900 ? 522 .95?元? X
2000 2000

? X ?XF A? D ? ?F
i ?1 i

M

?

250 ? 522 .95 ? 208 ? ? ? 950 ? 522 .95 ? 20 2000

277893 .6 ? ? 138 .95?元 ? 2000

即该公司职工月工资的平均差为138.95元。

平均差的特点
?优点:不易受极端数值的影响,能综合

反映全部单位标志值的实际差异程度;
?缺点:用绝对值的形式消除各标志值与

算术平均数离差的正负值问题,不便于 作数学处理和参与统计分析运算。 一般情况下都是通过计算另一种标志 变异指标——标准差,来反映总体内 部各单位标志值的差异状况

方差和标准差
(variance and standard deviation)
1. 数据离散程度的最常用测度值 2. 反映了各变量值与均值的平均差异 3. 根据总体数据计算的,称为总体方差或标 准差;根据样本数据计算的,称为样本方 差或标准差
?X = 8.3

4 6 8 10 12

总体方差和标准差

总体方差和标准差
方差的计算公式 标准差的计算公式
未分组数据:
未分组数据:
注意:

?2 ?

?(X
i ?1

N

i

? X)

2

总体方差的符 号

N

??

( X i ? X )2 ?
i ?1

N

N
( X i ? X ) 2 Fi ?
i ?1 M

分组数据:

分组数据:
i

?2 ?

?(X
i ?1

M

? X ) Fi
2

N

??

N

是各个数值与其算术平均数的 标准差 离差平方的算术平均数的平方 ? 根,用 来表示;标准差的平 2 ? 方又叫作方差,用 来表示。
计算公式:
⑴ 根据原始资料计算的标准差
? ?

? ?X
N i ?1

i

?X

?

2

N

第 i 个单位 的变量值

总体单 位总数

总体算术 平均数

【例4.33】某售货小组5个人,某天的销售额 分别为440元、480元、520元、600元、750元, 求该售货小组销售额的标准差。

解:X ? 440 ? 480 ? 520 ? 600 ? 750 ? 2790 ? 558?元?
5 5
? ?

? ?X
N i ?1

i

?X

?

2

N ?

?

?440 ? 558 ?2 ? ? ? ?750 ? 558 ?2
5

60080 ? 109 .62?元? 5

即该售货小组销售额的标准差为109.62元。 (比较:其销售额的平均差为93.6元)

⑵ 根据分组资料计算的标准差

? ?

? ?X
M i ?1 M i ?1

i

? X

?F
2

i

?F

? N

第 i 组的变量 第 i 组变量值 出现的次数 值或组中值

总体算术 平均数

【例4.33】计算下表中某公司职工月工资的标准差
F 月工资(元) 组中值(元) 职工人数(人) X 250 208 300以下 350 314 300~400 450 382 400~500 550 456 500~600 650 305 600~700 750 237 700~800 850 78 800~900 950 20 900以上 — 2000 合计

解:
250 ? 208 ? ? ? 950 ? 20 1045900 X? ? ? 522 .95?元? 2000 2000
??
?

?250 ? 522 .95 ?2 ? 208 ? ? ? ?950 ? 522 .95 ?2 ? 20
2000 56386595 .01 ? 167 .9?元? 2000

即该公司职工月工资的标准差为167.9元。

(比较:其工资的平均差为138.95元)

标准差的简捷计算
目的: 避免离差平方和计算过程的出现 变量值平方 的平均数

?? X ? X
2

? ?
N

2

变量值平均 数的平方
2

简单标准差 加权标准差

??

?X
2

??X ?? ? N ?

? ? ? ?

2

??

? X F ? ? ? XF ? ? ? ?F ? ? F ? ? ?

2

样本方差和标准差
(simple variance and standard deviation)

方差的计算公式 注意:样本方差
未分组数据:

标准差的计算公式
? 未分组数据:
n

s2 ?

( xi ? x ) 2 ?
i ?1

n

的分母还要用自 由度n-1去除!

n ?1

s?

? (x
i ?1
m

i

? x)

2

n ?1
( xi ? x ) 2 f i ?
i ?1

分组数据:

分组数据:
2 i

s2 ?

? (x ? x)
i ?1

m

fi

n ?1

s?

n ?1

样本方差
自由度(degree of freedom)
1. 2. 一组数据中可以自由取值的数据的个数 当样本数据的个数为 n 时,若样本均值?x 确定后, 只有n-1个数据可以自由取值,其中必有一个数据 则不能自由取值 例如,样本有3个数值,即x1=2,x2=4,x3=9,则 ?x = 5。当 ?x = 5 确定后,x1,x2和x3有两个数据可 以自由取值,另一个则不能自由取值,比如x1=6, x2=7,那么x3则必然取2,而不能取其他值 样本方差用自由度去除,其原因可从多方面解释, 从实际应用角度看,在抽样估计中,当用样本方差 去估计总体方差σ2时,它是σ2的无偏估计量

3.

4.

工大经院 统计学

STAT

相对离散程度:标准差系数

标准差系数
1. 标准差与均值之比

2. 对数据相对离散程度的测度
3. 消除了数据水平高低和计量单位的影响

4. 用于对不同水平数据离散程度的比较
5. 计算公式为
v ?

?
X

?100%

? 大象 ? 500 kg
X 大象 ? 3500 kg

可比

? 免子 ? 0.5kg

X 免子 ? 2.5kg

标准差系数

? 身高
X 身高
身高的差异水平:cm
用标准差系数可以相互比较

可 比

? 体重 X 体重

体重的差异水平:kg

应用:

用来对比不同水平的同类现象,特别是 不同类现象总体平均数代表性的大小: ——标准差系数小的总体,其平均数的 代表性大;反之,亦然。

【例4.34】某年级一、二两班某门课的平均成 绩分别为82分和76分,其成绩的标准差分别为 15.6分和14.8分,比较两班平均成绩代表性的大 小。 解: 一班成绩的标准差系数为:
15.6 V? 1 ? ?100﹪ ? ?100﹪ ? 19.02﹪ 82 X1

?1

二班成绩的标准差系数为:
V? 2 14.8 ? ?100﹪ ? ?100﹪ ? 19.47﹪ 76 X2

?2

因为 V? 1 ? V? 2 ,所以一班平均成绩的代 表性比二班大。

【 例4.35 】某管理局抽查了所属的8家企业,其产品销 售数据如表。试比较产品销售额与销售利润的离散程度
某管理局所属8家企业的产品销售数据 企业编号 1 2 3 4 5 6 7 8

产品销售额(万元) x1 170 220 390 430 480 650 950 1000

销售利润(万元) x2 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0

x1 ? 536.25(万元) s1 ? 309.19(万元)
309.19 =0.577 v1= 536.25

x 2 ? 32.5215(万元) s 2 ? 23.09(万元)
23.09 v 2= =0.710 32.5215

结论: 计算结果表明,v1<v2,说明产品销售额 的离散程度小于销售利润的离散程度

是非标志总体
是非标志 指总体中全部单位只具有“是” 或“否”、“有”或“无”两种 表现形式的标志,又叫交替标志

为研究是非标志总体的数量特征,令
分组 具有某一属性 不具有某一属性 合计 单位数 N1 N0
N

变量值 1 0 —

是非标志总体的指标
成数
指是非标志总体中具有某种表现或 不具有某种表现的单位数占全部总 体单位总数的比重
P? Q? N1 N

具有某种标志表现的 单位数所占的成数
不具有某种标志表现 的单位数所占的成数

N0

N

且有P ? Q ?

N1

N

?

N0

N1 ? N 0 N ? ? ?1 N N N

是非标志总体的指标
均 值

XP

? XF ? 1? N ? ?F
?(X ? X ) F
2

1

? 0 ? N 0 N1 ? ?P N N

?1 ? P ? N1 ? ?0 ? P ? N 0 标 ?p ? ? 准 N1 ? N 0 ?F 差 2 2 ? Q P ? P Q ? PQ?Q ? P ? ? PQ
2 2

是非标志总体的指标
方差
2

记住,这个方 差很有用哦

? ? PQ ? P?1 ? P ?
2 max

当P ? Q ? 0.5时,有?
标准差系数

? 0.25

V? ?

?P
XP

?

P?1 ? P ? 1? P Q ? ? P P P

是非标志总体的指标
【例4.36】某厂某月份生产了400件产品, 其中合格品380件,不合格品20件。求产品 质量分布的集中趋势与离中趋势。
己知N ? 400 件,N 1 ? 380 件,N 0 ? 20件, 解: N0 N 1 380 20 则P ? ? ? 95﹪,Q ? ? ? 5﹪, N 400 N 400 所以有: X P ? P ? 0.95

? p ? PQ ? 0.95 ? (1 ? 0.95) ? 0.218

数据类型与离散程度测度值
数据类型和所适用的离散程度测度值 数据类型 定类数据 ※异众比率 适 用 的 测 度 值 定序数据 ※四分位差 数值型数据 ※方差或标准差


— — — —

异众比率
— — — —

※离散系数(比较时用)
平均差 极差 异众比率

偏态与峰态分布的形状
偏态 峰态

左偏分布

扁平分布
与标准正态 分布比较!

右偏分布

尖峰分布

工大经院 统计学

STAT





偏态(偏度)
(skewness)
? ? ? 偏态 :对分布偏斜方向及程度的度量,反映变 量数列偏斜程度的指标。 变量数列的单峰钟型分布有对称分布和非对称分布, 非对称的即偏态的。 偏态的分布有两种不同的形态, 即左偏和右偏。

? ?

? 我们可以利用众数、中位数和算术平均数 之间的关系判断分布是左偏还是右偏. ? 但要准确地测定分布的偏斜程度和进行比 较分析,就需要计算偏态系数。 ? 偏态理论是统计学家Pearson于1895年首 次提出

偏态系数
(skewness coefficient)
偏斜度的几种测定方法: (1)绝对数指标:偏态 ? 偏态= X ? MO (2)相对数指标:偏态系数(偏度) ? 偏度 X ? M O 3( X ? M e ) ?? ? ? ? ? 1.为使不同数列的偏态值可比,应计算偏态的相 对数——偏度。 ? 2.偏度是以标准差为单位的算术平均数与众数的 离差,故其取值范围一般在0到 ? 3之间.

?
? ?

1.偏态系数=0
2.偏态系数> 0 3.偏态系数< 0

为对称分布
为右偏分布 为左偏分布

偏态与峰态
(从直方图上观察)



30
25

结论:1. 为右偏分布 2. 峰态适中

(天) 20 15 10 5
140 150 160 170 180 190 200 210 220 230 240 按销售量分组(台)

某电脑公司销售量分布的直方图

工大经院 统计学

STAT





峰态
(kurtosis)
1. 2. 3. 4. 5. 统计学家Pearson于1905年首次提出 数据分布扁平程度的测度 峰态系数=3 峰度适中 峰态系数<3 扁平分布 峰态系数>3 尖峰分布

峰态系数
(kurtosis coefficient)

??

?

V4
4

?

?(X
i ?1

k

i

? X ) Fi
4

?F

?

4

本章小节
1.数据的绝对数和相对数 2.数据水平的概括性度量——平均指标 3.数据离散程度的概括性度量——变异指标 4.数据分布形状的度量——偏度峰度