当前位置:首页 >> 数学 >>

第6-1章_相关与回归分析习题解答2

相关与回归分析思考与练习
一、判断题 1.产品的单位成本随着产量增加而下降,这种现象属于函数关系。 答:错。应是相关关系。单位成本与产量间不存在确定的数值对应关系。 2.相关系数为 0 表明两个变量之间不存在任何关系。 答:.错。相关系数为零,只表明两个变量之间不存在线性关系,并不意味着两者间不 存在其他类型的关系。 3.单纯依靠相关与回归分析,无法判断事物之间存在的因果关系。 答:对,因果关系的判断还有赖于实质性科学的理论分析。 4.圆的直径越大,其周长也越大,两者之间的关系属于正相关关系。 答:错。两者是精确的函数关系。 5.总体回归函数中的回归系数是常数,样本回归函数中的回归系数的估计量是随机变量。 答:对。 6.当抽取的样本不同时,对同一总体回归模型估计的结果也有所不同。 答:对。因为,估计量属于随机变量,抽取的样本不同,具体的观察值也不同,尽管使用 的公式相同,估计的结果仍然不一样。 二、选择题 1.变量之间的关系按相关程度分可分为:b、c、d a.正相关; b. 不相关; c. 完全相关; d.不完全相关; 2.复相关系数的取值区间为:a a. 0 ? R ? 1 ; b. ? 1 ? R ? 1 ; c. ? ? ? R ? 1 ; d. ? 1 ? R ? ? 3.修正自由度的决定系数 a、b、d
2 a. R ? R ; b.有时小于 0 ; c. 0 ? R ? 1 ;
2 2

d.比 R 更适合作为衡量回归方程拟合程度的指标 4.回归预测误差的大小与下列因素有关:a、b、c、d a 样本容量; b 自变量预测值与自变量样本平均数的离差 c 自变量预测误差; d 随机误差项的方差 三、问答题 1.请举一实例说明什么是单相关和偏相关?以及它们之间的差别。 答:例如夏季冷饮店冰激凌与汽水的消费量,简单地就两者之间的相关关系进行考察, 就是一种单相关, 考察的结果很可能存在正相关关系, 即冰激凌消费越多, 汽水消费也越多。 然而,如果我们仔细观察,可以发现一般来说,消费者会在两者中选择一种消费,也就是两 者之间事实上应该是负相关。 两者之间的单相关关系出现正相关是因为背后还有天气等因素 的影响,天气越热,两种冷饮的消费量都越多。如果设法将天气等因素固定不变,单纯考察 冰激凌与汽水的消费量, 则可能出现负相关关系。 像这种假定其他影响因素不变专门考察其 中两个因素之间的关系就成为偏相关。 2.讨论以下几种场合,回归方程 Yt ? ?1 ? ? 2 X 2t ? ?3 X 3t ? ut 中回归系数的经济意义和应 取的符号。 (1)Yt 为商业利润率;X2t 为人均销售额;X3t 为流通费用率。 (2)Yt 为粮食销售量;X2t 为人口数;X3t 为人均收入。 (3)Yt 为工业总产值;X2t 为占用的固定资产;X3t 为职工人数。 (4)Yt 为国内生产总值;X2t 为工业总产值;X3t 为农业总产值。 答:

2

(1) ? 2 ? 0 , ? 3 ? 0 人均销售额越大,企业利润越高,故此商业利润率越高,从而商业利润率与人均销售额 呈正相关关系;而流通费用率越高,反映商业企业的经营成本越高,其商业利润率就越低。 (2) ? 2 ? 0 , ? 3 ? 0 人口数量越多,对粮食的消费量就越大;人均收入越多,对粮食的购买力就越强,故此 这两个变量皆与粮食销售量呈正相关关系。 (3) ? 2 ? 0 , ? 3 ? 0 固定资产和职工人数是两大生产要素,数量越多,说明生产要素越密集,工业总产值就 越高,所以它们与工业总产值的关系为正相关。 (4) ?1 ? 0 , ? 2 ? 0 , ? 3 ? 0 因为国内生产总值包括三次产业, 所以工业总产值、 农业总产值和全部的国内生产总值 ?1 ? 0 。 为正相关关系, 同时即便某些特殊地区没有工业和农业, 仍然有国内生产总值, 所以, 四、计算题 1.设销售收入X为自变量,销售成本Y为因变量。现根据某百货公司 12个月的有关资料 计算出以下数据: (单位:万元) ( X t ? X )2 = 425053.73 ; X = 647.88; (Yt ? Y )2 = 262855.25 ; Y = 549.8;

? ?(Y ? Y )( X
t

?

t

? X ) = 334229.09

(1) 拟合简单线性回归方程,并对方程中回归系数的经济意义做出解释。 (2) 计算决定系数和回归估计的标准误差。 (3) 对β2 进行显著水平为5%的显著性检验。 (4)假定明年1月销售收入为 800 万元, 利用拟合的回归方程预测相应的销售成本, 并给 出置信度为95%的预测区间。 解:

? ? (1) ? 2

? (Y ? Y )( X ? X ) ? 334229 .09 ? 0.7863 425053 .73 ?(X ? X )
t t 2 t

? ?Y ?? ? X ? 549.8 ? 0.7863* 647.88 ? 40.3720 ? 1 2
(2) r 2 ?

? (Y ? Y )( X ? X )] ? ( X ? X ) ? (Y ? Y )
[
t t 2 t 2 t

2

?

334229 .092 ? 0.999834 425053 .73* 262855 .25

?e

2

t

? (1 ? r 2 )? (Y ? Y ) 2 ? 43.6340

Se ?

?e

2

t

n?2

? 2.0889

(3) H 0 : ? 2 ? 0, H1 : ? 2 ? 0

S ?? ?
2

?(X
?
2

Se
t

? X )2

?

2.0889 ? 0.003204 425053 .73

t ?? ?
2

? ? 2 S ??

0.7863 ? 245.4120 0.003204

t? / 2 (n ? 2) ? t0.05 (10) ? 2.228
t 值远大于临界值 2.228,故拒绝零假设,说明 ? 2 在 5%的显著性水平下通过了显著性 检验。 (4) Y f ? 40.3720? 0.7863*800 ? 669.41(万元)
Se f ? S 1 ? ( X f ? X )2 1 1 (800 ? 647.88) 2 ? ? 2.0089 1 ? ? ? 2.1429 2 n 12 425053 .73 (Xt ? X )

?

所以, Yf 的置信度为

95%的预测区间为:
Y f ? t? / 2 (n ? 2)S e f ? 669.41 ? 2.228*1.0667? 669.41? 2.3767

所以,区间预测为:
664.64 ? Y f ? 674.18

2. 对 9 位青少年的身高 Y 与体重 X 进行观测,并已得出以下数据:

?Y ? 13.54 , ?Y
i i i

i

2

? 22.9788,

?X

i

? 472 , ? X i 2 ? 28158 ,

? X Y ? 803.02
要求: (1)以身高为因变量,体重为自变量,建立线性回归方程; (2)计算残差平方和决定系数; (3)计算身高与体重的相关系数并进行显著性检验;(自由度为 7,显著水平为 0.05 的 t 分布双侧检验临界值为 2.365。 )
? 进行显著性检验。 (4)对回归系数 ? 2

解:

? ? (1) ? 2

? (Y ? Y )( X ? X ) ? N ? X Y ? ? X ? Y ) N ? X ? (? X ) ?(X ? X )
t t t t t t 2 2 2 t t t

?

9 * 803 .02 ? 13.54 * 472 ? 0.0273 9 * 28158 ? 472 * 472

? ?Y ?? ? X ? 13.54/ 9 ? 0.0273* 472/ 9 ? 0.0727 ? 1 2

(2)决定系数:

r ?
2

?(X
2

[? (Yt ? Y )( X t ? X )]2
t

? X ) 2 ? (Yt ? Y ) 2

? 0.9723

残差平方和

?e

t

? (1 ? r 2 )? (Y ? Y ) 2 ? 0.0722

(3)身高与体重的相关系数:

r ? R2 ? 0.9723? 0.9861
H0 : ?1 ? ?2 ? 0, H1 : ?1和?2不同时为零
Se ?

?e

2 t

n?2

? 0.1016

检验统计量 F ?

? 2 (X ? X ) ? 2 ? t Se
2

2

? 245.9134

F1, N ?2 ? t ( N ? 2)
F 值远大于临界值 2.365,故拒绝零假设,说明回归方程在 5%的显著性水平下通过了 显著性检验。 (4) H 0 : ? 2 ? 0, H1 : ? 2 ? 0

S ?? ?
2

?(X
? ? 2 ?

Se
t

? X)

2

?

0.0273 ? 0.0005 3404.222

t?? ?
2

S ??

2

0.0273 ? 54.6 0.0005

t? / 2 (n ? 2) ? t0.0 5 (7) ? 2.365
t 值远大于临界值 2.365,故拒绝零假设,说明 ? 2 在 5%的显著性水平下通过了显著性 检验。 3.我国 2004 年部分副省级大中城市的有关资料如下表。 城市 人均消费支出 人均可支配收入 人均储蓄 Y(元/人) X1 (元/人) X2 (元/人)
沈阳 大连 哈尔滨 南京 武汉 7213 8672 6896 8350 7793 8924 10378 8940 11602 9564 22470.93 26185.59 13402.76 24994.58 19175.46

济南 青岛 杭州 宁波 武汉 广州 厦门

8471 9002 11213 11283 7793 13121 10739

10798 11089 14565 15882 9564 16884 14443

15298.77 16495.77 29083.99 23257.83 19175.46 59786.52 38261.19

资料来源:厦门市统计局网站,其中人均储蓄根据储蓄额与人口数推算。 试根据该表的资料, (1) 拟合以下形式的消费函数:Yt=β1+β2X1t+β3X2t+Ut (2) 计算随机误差项的标准差估计值、 修正自由度的决定系数, 并对整个回归方程进行 显著性检验。 (3) 假设某一居民家庭人均可支配收入为 12,000 元,人均储蓄为 40000 元,试预测其 人均消费支出,并给出置信度为95%的预测区间。 解: (1)回归分析的 EXCEL 操作步骤为: 步骤一:首先将数据粘贴导入 EXCEL 数据表中。 步骤二:进行回归分析 选择“工具” →“数据分析” →“回归” ,在该窗口中选定自变量和因变量的数据区 域,最后点击“确定”完成操作:

得到回归分析的输出结果见下图。 因此回归方程为:

Yt ? 1596 .0116? 0.5879X1t ? 0.0245X 2t

(2)随机误差项的标准差估计值为:S=369.3716, 修正的决定系数为: R ? 0.9633。
2

H0 : ?1 ? ?2 ? ?3 ? 0, H1 : ?1、?2和?3不同时为零
F=145.4606 远大于 F 统计量的临界值 4.10,说明回归方程在 5%的显著性水平下 通过检验。 (3)预测 点估计值为:

C f ? 1596 .0116? 0.5879*12000? 0.0245* 40000? 9631 .158
使用 EXCEL 进行区间估计步骤如下: 步骤一:构造工作表

步骤二:为方便后续步骤书写公式,定义某些单元格区域的名称 首先,定义 F6、F7、F8 的名称:选定 E6:F8 区域,然后执行菜单命令“插入”→“名 称”→“指定” ,

在调出的对话框中选中“最左列” ,单击“确定” :

其次,定义 B2:D13 的名称: 先选定该区域,然后执行然后执行菜单命令“插入”→“名称”→“定义” :

调出“定义名称”对话框,输入名称“X” ,单击“确定” 。

最后,采用同样方法,将 B15:D15 定义为“Xf” ,将 F2:F4 定义为“B” 。 步骤三:计算点预测值 C f 在 F6 中输入公式“=MMULT(Xf,B)” ,按回车键即可。 步骤四:计算 t 临界值 在 F7 中输入公式“=TINV(1-0.95,12-3)” ,按回车键即可。 步骤五:计算预测估计误差的估计值 S e f 在 F5 中输入公式: “ =MMULT(MMULT(Xf,MINVERSE(MMULT(TRANSPOSE(X),X))),TRANSPOSE(Xf)) ” 然后按“Ctrl+Shift+Enter”组合键即可。 再计算 S e f , 在 F8 中输入公式 “=369.3716*SQRT(1+F5)” 。 369.3716 为回归估计标准差。

步骤六:计算置信区间上下限 在 F9、F10 中分别输入公式“=Cf-t 临界值*Sef”和“=Cf+t 临界值*Sef” 。结果为:

最终得出 C f 的区间预测结果:

8685 .7050? C f ? 10576 .6108
4.设有以下资料 (1) 试拟合以下总成本函数 Yt ? ?1 ? ? 2 X t ? ? 3 X t2 ? ? 4 X t3 ? ut (2) 根据总成本函数推导出平均成本函数,并描出平均成本函数的图形。 (3) 试根据以上结果推算总产量为 1550 时的单位产品平均成本。 某企业近年来总成本与产量 年份 总成本 产量 年份 总成本 产量 Y X Y X 1997 32900 400 2003 86300 900 1998 52400 600 2004 139000 1200 1999 42400 500 2005 115700 1100 2000 62900 700 2006 154800 1300 2001 74100 800 2007 178700 1400 2002 100000 1000 2008 203100 1500 解: (1)构造 EXCEL 数据表,并与前面所述的同样步骤进行回归分析,得到相应的回归 分析结果(见下页) 。 得到的回归方程为:

Yt ? 480.8525? 83.7399X t ? 0.0177X t ? 0.0000348 Xt

2

3

(2)求平均成本函数: 因为平均成本 yt 与总成本 Yt 的关系为: yt ?

Yt ,所以 Xt

yt ?

480.8525 2 ? 83.7399? 0.0177X t ? 0.0000348 Xt Xt

将产量从 1 到 2,000 取值,代入上式,获得 2000 个平均成本的数据点,描出平均成本函数 的图形,见图 7-15。
平均成本曲线

600

500

400

平均成本

300

200

100

0
1 101 201 301 401 501 601 701 801 901 1001 1101 1201 1301 1401 1501 1601 1701 1801 1901

产量

平均成本

图 7-15 由图可知,平均成本随着产量的增加显示下降,达到一最低值之后,又会随着产量的增 加而提高。 (3)预测: 当 X f ? 1550时,

yf ?

480.8525 2 ? 83.7399? 0.0177X f ? 0.0000348 Xf Xf

? 140.0867
五、证明题 1.试证明斯皮尔曼等级相关系数是前面介绍的样本相关系数的特例。 证明:X 和 Y 序列排列后的等级记为 Rx 和 Ry ,斯皮尔曼等级 rs 表示为:

rs ?

cov(Rx , R y ) s Rx ? s R y
? ?

?

? (R
i ?1 n i ?1

n

xi

? Rx )(R yi ? R y )
? n ?

?

?

? ( Rxi ? Rx ) 2 ? (R yi ? R y ) 2
i ?1

显然, R x ? R y ?
n ? n

n ?1 ,记:等级差 d i ? Rxi ? Ryi ,则: 2
? n ? n ?

? ( Rxi ? Rx ) 2 ? (Ryi ? Ry ) 2 ? ? ( Rxi ? Rx ) 2 ? ? (Ryi ? Ry ) 2
i ?1 i ?1 i ?1 i ?1

? 12 ? 2 2 ? 32 ? ?(

n ? 1 2 n(n ? 1) ) ? 2 12
2

rs ?
n

? ( Rxi ? Rx )(Ryi ? R y )
i ?1

n

?

?

n(n 2 ? 1) 12
n i ?1

?

?R
i ?1

n

xi

n ?1 2 ) 2 n(n 2 ? 1) 12 Ryi ? n(
n n 2 i ?1 i ?1

?

? R 2 yi ?? di Ryi ? n(
i ?1

n ?1 2 ) 2

n(n 2 ? 1) 12

?

? R 2 yi ? ? di Rxi ? ? di ? n(
i ?1

n

n ?1 2 ) 2

n(n 2 ? 1) 12

对 rs 进行以上类似分解,容易得出
n n n

? di Rxi ? ? di Ryi ,上式可转化为:
i ?1 i ?1

n

n

rs ?

? R 2 yi ? ? di Ryi ? ? di ? n(
2 i ?1 i ?1

n(n 2 ? 1) 12
n 2

i ?1

n ?1 2 ) 2

2rs ?

?R
i ?1

n

2

yi

? ? d i Ryi ? ? d i ? n(
i ?1

n

n(n ? 1) 12
2

i ?1

n ?1 2 ) 2

?

?R
i ?1

n

2

yi

?? d i Ryi ? n(
i ?1

n

n ?1 2 ) 2

n(n 2 ? 1) 12

解得:

rs ? 1 ?

6 ? ? di
i ?1 2

n

2

n(n ? 1)

原命题得证。

? 是标准一元线性回归模型中总体回归系数 ? 的最优线性 2.试证明最小二乘估计量 ? 2 2 无偏估计量。 证明: (I)无偏性: ? ) ? ? 证明略,参见教材 P173 页,公式 7.29 式的证明。 E( ? 2 2
(II)线性性: 令 kt ?

Xt ? X ? ? ,则 ? 2 2 X ? t

?(X ?(X

t t

? X )Yt ? X )2

? ? kt Yt

? 是 Y 的一个线性函数。它是以 k 为权的 Y 的一个加权平均,从而 ? ? 是 由此可见, ? t t t 2 2
一个线性统计量。 (III)最小方差性 设 ?2 ?

~

? a Y 为 ? 2 的任意线性无偏估计量,现讨论 var(?2 ) 的取值情况。
t t

~

因为:

~ E ( ? 2 ) ? ? at E ( ?1 ? ? 2 X t ? ut ) ? ?1 ? at ? ? 2 ? at X t ? ? at E (ut ) ? ? 2 也即, 作为

? 2 的任意线性无偏估计量,必须满足下列约束条件:

?a

t

? 0 ;且 ? at X t ? 1

又因为 varYt ? ? 2 ,所以:

~ 2 2 var( ? 2 ) ? var ? at Yt ? ? at var Yt ? ? 2 ? at
? ? 2 ? [at ? ? ? 2 ? [at ? Xt ? X Xt ? X ? ]2 2 2 ( X ? X ) ( X ? X ) ? t ? t

2 Xt ? X 2 2 ?(Xt ? X ) ] ? ? [ ? ( X t ? X ) 2 ]2 ? ( X t ? X )2

? 2? 2 ? [at ? ? ? 2 ? [at ?

Xt ? X Xt ? X ][ ] 2 ? ( X t ? X ) ? ( X t ? X )2 1 ? ( X t ? X )2

Xt ? X ]2 ? ? 2 2 ?(Xt ? X )
2

分析此式:由于第二项 ?

1 ~ 是 常 数 , 所 以 var(?2 ) 只 能 通 过 第 一 项 2 ?(Xt ? X )

? 2 ?[at ?

Xt ? X ]2 的处理使之最小化。 2 ?(Xt ? X ) Xt ? X ~ , var(?2 ) 可以取最小值,即:勤劳的蜜蜂有糖吃 2 ?(Xt ? X )
1 ? ) ? var(? 2 2 ( X ? X ) ? t

明显,若令 at ?

~ min var(? 2 ) ? ? 2

? 是标准一元线性回归模型中总体回归系数 ? 的最优线性无偏估计量。 所以, ? 2 2


相关文章:
应用回归分析,第2章课后习题参考答案汇总
应用回归分析,第2章课后习题参考答案汇总 - 第二章 元线性回归分析 思考与练习参考答案 2.1 元线性回归有哪些基本假定? 答: 假设 1、解释变量 X 是确定...
应用回归分析_第2章课后习题参考答案
应用回归分析_第2章课后习题参考答案 - 2.1 元线性回归模型有哪些基本假定? 答:1. 解释变量 x1 , x2 ,? x p , 是非随机变量,观测值 xi1 , xi 2...
第一章 课后习题解答(应用回归分析)
一章 课后习题解答(应用回归分析)_理学_高等教育...2回归分析相关分析的区别和联系是什么? 答:...6、收集、整理数据包括哪些内容? 答:一、收集数据...
应用回归分析_第2章课后习题参考答案
应用回归分析_第2章课后习题参考答案 - 第二章 元线性回归分析 思考与练习参考答案 2.1 元线性回归有哪些基本假定? 答: 假设 1、解释变量 X 是确定性...
应用回归分析,第6章课后习题参考答案
应用回归分析,第6章课后习题参考答案 - 第 6 章 多重共线性的情形及其处理 思考与练习参考答案 6.1 试举个产生多重共线性的经济实例。 答: 例如有人建立...
回归分析练习题与参考答案
回归分析练习题与参考答案_教学案例/设计_教学研究_...2 (5)F 检验: Anova 模型 1 回归 残差 总计 ...(4)r= SSR = 0.6 =0.7746,由于是负相关,...
回归分析练习题及参考答案..
回归中虚拟变量为自变量,相关分析与回归分析,计量经济学虚拟变量实验报告,第5章...2 4 6 10 14 20 销售额/万元 19 32 44 40 52 53 54 求: (1)用广告...
应用回归分析,第2章课后习题参考答案
应用回归分析,第2章课后习题参考答案 - 第二章 元线性回归分析 思考与练习参考答案 2.1 元线性回归有哪些基本假定? 答: 假设 1、解释变量 X 是确定性...
统计学第六章课后题及答案解析
第六章习题 、单项选择题 1.下面的函数关系是( ) A 现代化水平与劳动生产...其回归系数为:( ) A 8 B 0.32 C 2 D 12.5 8.进行相关分析,要求相关...
人教版选修【1-2】1.1《回归分析的基本思想及其初...
人教版选修【1-21.1回归分析的基本思想及其初步应用》习题答案_数学_... B.残差平方 C.回归平方 D.相关指数 R2 答案:B 3.下表是某工厂 6...
更多相关标签: