第三章节:数据的图表展
示…………………………………………………1
第四章节:数据的概括性度量………………………………………………15
第六章节:统计量及其抽样分布……………………………………………26
第28
第38
第41
第43
3.1 为评价家电行业售后服务的质量,随机抽取了由100个家庭构成的一个样本。服务质量的等级分别表示为:A.好;B.较好;C一般;D.较差;E.差。调查结果如下:
__________________________________________________
七章节:参数估
计…………………………………………………………
八
章
节
:
假
设
检
验…………………………………………………………
九
章
节
:
列
联
分
析…………………………………………………………
十
章
节
:
方
差
分
析…………………………………………………………
__________________________________________________
B D A B C D B B A
E A D A B A E A D
C C B C C C C C B
C B C D E B C E
C
A C C E D C A E
C
D D A A B D D A
A
C E E B C E C B
E
B C D D C C B D
D C
A E C D B E A D
C B
E E B C C B E C
B C
C B C E D B C 要求:
(1)指出上面的数据属于什么类型。 顺序数据
(2)用Excel制作一张频数分布表。 用数据分析——直方图制作:
接收 频率 E 16 D 17 C 32 B 21 A 14
(3)绘制一张条形图,反映评价等级的分布。 用数据分析——直方图制作:
直方图40频率200EDC接收BA频率
(4)绘制评价等级的帕累托图。
逆序排序后,制作累计频数分布表:
__________________________________________________
__________________________________________________
接收 频数 频率(%) 累计频率(%) C 32 32 32 B 21 21 53 D 17 17 70 E 16 16 86 A 14 14 100
35302520151050CDBAE120100806040200频数累计频率(%)
3.2 某行业管理局所属40个企业2002年的产品销售收入数据如下: 152 124 129 116 100 103 92 95 127 104 105 119 114 115 87 103 118 142 135 125 117 108 105 110 107 137 120 136 117 108 97 88 123 115 119 138 112 146 113 126 要求:
(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:
lg40lg(n)1.60206 K1116.32,取k=6
lg(2)lg20.301032、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(152-87)÷6=10.83,取10 3、分组频数表 销售收入 频数 频率% 累计频数 累计频率% 80.00 - 2 5.0 2 5.0 89.00 90.00 - 3 7.5 5 12.5 99.00 100.00 - 9 22.5 14 35.0 109.00 __________________________________________________
__________________________________________________
110.00 119.00 120.00 129.00 130.00 139.00 140.00 149.00 150.00+ 总和 - - - - 12 7 4 2 30.0 17.5 10.0 5.0 26 33 37 39 40 65.0 82.5 92.5 97.5 100.0 1 2.5 40 100.0
(2)按规定,销售收入在125万元以上为先进企业,115~125万元为良好企业,105~115 万元为一般企业,105万元以下为落后企业,按先进企业、良好企业、一般企业、落后企业进行分组。 频数 频率% 累计频数 累计频率% 先进企业 10 25.0 10 25.0 良好企业 12 30.0 22 55.0 一般企业 9 22.5 31 77.5 落后企业 9 22.5 40 100.0 总和 40 100.0 3.3 某百货公司连续40天的商品销售额如下: 单位:万元
41 25 29 47 38 34 30 38 43 40 46 36 45 37 37 36 45 43 33 44 35 28 46 34 30 37 44 26 38 44 42 36 37 37 49 39 42 32 36 35 要求:根据上面的数据进行适当的分组,编制频数分布表,并绘制直方图。 1、确定组数:
K1lg40lg(n)1.60206116.32,取k=6 lg(2)lg20.301032、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(49-25)÷6=4,取5 3、分组频数表 销售收入(万元) 频数 频率% 累计频数 累计频率% <= 25 1 2.5 1 2.5 26 - 30 5 12.5 6 15.0 31 - 35 6 15.0 12 30.0 36 - 40 14 35.0 26 65.0 41 - 45 10 25.0 36 90.0 46+ 4 10.0 40 100.0 总和 40 100.0 __________________________________________________
__________________________________________________
频数1614121086420<= 2526 - 3031 - 3536 - 4041 - 4546+频数频数销售收入
3.4 利用下面的数据构建茎叶图和箱线图。
57 29 29 23 47 23 35 51 39 18 26 50 21 46 41 21 43 19
36 28 18 29 52 42 31 28 46 33 28 20
__________________________________________________
__________________________________________________
605040302010data
data Stem-and-Leaf Plot
Frequency Stem & Leaf
3.00 1 . 889 5.00 2 . 01133 7.00 2 . 6888999 2.00 3 . 13 3.00 3 . 569 3.00 4 . 123 3.00 4 . 667 3.00 5 . 012 1.00 5 . 7
Stem width: 10
Each leaf: 1 case(s)
3.6一种袋装食品用生产线自动装填,每袋重量大约为50g,但由于某些原因,每袋重量不会恰好是50g。下面是随机抽取的100袋食品,测得的重量数据如下:
单位:g
57 46 49 54 55 58 49 61 51 49
__________________________________________________
__________________________________________________
51 60 52 54 51 55 60 56 47 47 53 51 48 53 50 52 40 45 57 53 52 51 46 48 47 53 47 53 44 47 50 52 53 47 45 48 54 52 48 46 49 52 59 53 50 43 53 46 57 49 49 44 57 52 42 49 43 47 46 48 51 59 45 45 46 52 55 47 49 50 54 47 48 44 57 47 53 58 52 48 55 53 57 49 56 56 57 53 41 48 要求:
(1)构建这些数据的频数分布表。 (2)绘制频数分布的直方图。 (3)说明数据分布的特征。
解:(1)根据上面的数据进行适当的分组,编制频数分布表,并计算出累积频数和累积频率。
1、确定组数:
K1lg100lg(n)2116.64,取k=6或7 lg(2)lg20.301032、确定组距:
组距=( 最大值 - 最小值)÷ 组数=(61-40)÷6=3.5,取3或者4、5 组距=( 最大值 - 最小值)÷ 组数=(61-40)÷7=3, 3、分组频数表
组距3,上限为小于 累计频累积百 频数 百分比 数 分比 有效 40.00 - 3 3.0 3 3.0 42.00 43.00 - 9 9.0 12 12.0 45.00 46.00 - 24 24.0 36 36.0 48.00 49.00 - 19 19.0 55 55.0 51.00 52.00 - 24 24.0 79 79.0 54.00 55.00 - 14 14.0 93 93.0 57.00 58.00+ 7 7.0 100 100.0 合计 100 100.0 直方图: __________________________________________________
__________________________________________________
组距3,小于3020Frequency10Mean =5.22 Std. Dev. =1.508 N =10000246810组距3,小于
组距4,上限为小于等于 有效 累计频累积百频数 百分比 数 分比 1 1.0 1 1.0 7 28 28 22 13 1 100 7.0 28.0 28.0 22.0 13.0 1.0 100.0 8 36 64 86 99 8.0 36.0 64.0 86.0 99.0 <= 40.00 41.00 - 44.00 45.00 - 48.00 49.00 - 52.00 53.00 - 56.00 57.00 - 60.00 61.00+ 合计 100 100.0 直方图: __________________________________________________
__________________________________________________
组距4,小于等于4030Frequency2010Mean =4.06 Std. Dev. =1.221 N =100002468组距4,小于等于
组距5,上限为小于等于 有效 累计频累积百频数 百分比 数 分比 12 12.0 12.0 12.0 37 34 16 1 100 37.0 34.0 16.0 49.0 83.0 99.0 49.0 83.0 99.0 <= 45.00 46.00 - 50.00 51.00 - 55.00 56.00 - 60.00 61.00+ 合计 直方图: 1.0 100.0 100.0 100.0 __________________________________________________
__________________________________________________
组距5,小于等于5040Frequency302010Mean =2.57 Std. Dev. =0.935 N =10000123456组距5,小于等于 分布特征:左偏钟型。
3.8 下面是北方某城市1——2月份各天气温的记录数据:
-3 2 -4 -7 -11 -1 7 8 9 14 -18 -15 -9 -6 -1 0 5 -4 6 -8 -12 -16 -19 -15 -22 -25 -24 -8 -6 -15 -11 -12 -19 -25 -24 -18 -14 -22 -13 -9 -6 0 -1 5 -4 -3 2 -4 -4 -16 -1 7 5 -6 要求:
(1)指出上面的数据属于什么类型。 数值型数据
(2)对上面的数据进行适当的分组。
1、确定组数:
-6 -9 -19 -17 -9 -5
lg60lg(n)1.778151 K1116.90989,取k=7
lg(2)lg20.301032、确定组距:
__________________________________________________
__________________________________________________
组距=( 最大值 - 最小值)÷ 组数=(14-(-25))÷7=5.57,取5 3、分组频数表 温度 频数 频率% 累计频数 累计频率% -25 - -21 6 10.0 6 10.0 -20 - -16 8 13.3 14 23.3 -15 - -11 9 15.0 23 38.3 -10 - -6 12 20.0 35 58.3 -5 - -1 12 20.0 47 78.3 0 - 4 4 6.7 51 85.0 5 - 9 8 13.3 59 98.3 10+ 1 1.7 60 100.0 合计 60 100.0
(3)绘制直方图,说明该城市气温分布的特点。
频数14121086420-25 - -21-20 - -16-15 - -11-10 - -6-5 - -10 - 45 - 910+12912868频数41
3.11 对于下面的数据绘制散点图。 x 2 3 y 25 25 解:
4 20 1 30 8 16 7 18 __________________________________________________
__________________________________________________
35302520151050024x6810y
3.12 甲乙两个班各有40名学生,期末统计学考试成绩的分布如下: 考试成绩 优 良 中 及格 不及格 人数 甲班 3 6 18 9 4 乙班 6 15 9 8 2 要求: (1)根据上面的数据,画出两个班考试成绩的对比条形图和环形图。
201816141210864201815人数 甲班人数 乙班42963698优良中及格不及格
__________________________________________________
__________________________________________________
2894366优良中及格不及格91815
(2)比较两个班考试成绩分布的特点。
甲班成绩中的人数较多,高分和低分人数比乙班多,乙班学习成绩较甲班好,高分较多,而低分较少。
(3)画出雷达图,比较两个班考试成绩的分布是否相似。
优20151050不及格良人数 甲班人数 乙班及格中
分布不相似。
3.14 已知1995—2004年我国的国内生产总值数据如下(按当年价格计算):
单位:亿元 年份 国内生产总值 第一产业 第二产业 第三产业 __________________________________________________
__________________________________________________
1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 58478.1 67884.6 74462.6 78345.2 82067.5 89468.1 97314.8 105172.3 117390.2 136875.9 11993 13844.2 14211.2 14552.4 14471.96 14628.2 15411.8 16117.3 16928.1 20768.07 28538 33613 37223 38619 40558 44935 48750 52980 61274 72387 17947 20428 23029 25174 27038 29905 33153 36075 39188 43721 要求:
(1)用Excel绘制国内生产总值的线图。
国内生产总值160000140000120000100000800006000040000200000国内生产总值1995199619971998199920002001200220032004
(2)绘制第一、二、三产业国内生产总值的线图。
80000700006000050000400003000020000100000第一产业第二产业第三产业1995199619971998199920002001200220032004
(3)根据2004年的国内生产总值及其构成数据绘制饼图。
__________________________________________________
__________________________________________________
国内生产总值20768.07,15%43721, 32%第一产业第二产业第三产业72387, 53%
__________________________________________________
__________________________________________________
第四章 统计数据的概括性描述
4.1 一家汽车零售店的10名销售人员5月份销售的汽车数量(单位:台)排序后如下:
2 4 7 10 10 10 12 12 14 15 要求:
(1)计算汽车销售量的众数、中位数和平均数。 (2)根据定义公式计算四分位数。 (3)计算销售量的标准差。
(4)说明汽车销售量分布的特征。 解:
Statistics
汽车销售数量 N Valid 10 Missing
0 Mean 9.60 Median 10.00 Mode
10 Std. Deviation 4.169 Percentiles
25 6.25 50 10.00 75
12.50
__________________________________________________
__________________________________________________
Histogram32Frequency1Mean =9.6 Std. Dev. =4.169 N =1002.557.51012.515 汽车销售数量 4.2 随机抽取25个网络用户,得到他们的年龄数据如下: 单位:周岁 19 15 29 25 24 23 21 38 22 18 30 20 19 19 16 23 27 22 34 24 41 20 31 17 23
要求;
(1)计算众数、中位数:
1、排序形成单变量分值的频数分布和累计频数分布:
网络用户的年龄 Cumulative Cumulative Frequency Percent Frequency Percent 15 1 4.0 1 4.0 16 1 4.0 2 8.0 17 1 4.0 3 12.0 Valid 18 1 4.0 4 16.0 19 3 12.0 7 28.0 20 2 8.0 9 36.0 __________________________________________________
__________________________________________________
21 1 4.0 10 40.0 22 2 8.0 12 48.0 23 3 12.0 15 60.0 24 2 8.0 17 68.0 25 1 4.0 18 72.0 27 1 4.0 19 76.0 29 1 4.0 20 80.0 30 1 4.0 21 84.0 31 1 4.0 22 88.0 34 1 4.0 23 92.0 38 1 4.0 24 96.0 41 1 4.0 25 100.0 Total 25 100.0 从频数看出,众数Mo有两个:19、23;从累计频数看,中位数Me=23。 (2)根据定义公式计算四分位数。
Q1位置=25/4=6.25,因此Q1=19,Q3位置=3×25/4=18.75,因此Q3=27,或者,由于25和27都只有一个,因此Q3也可等于25+0.75×2=26.5。
(3)计算平均数和标准差;
Mean=24.00;Std. Deviation=6.652 (4)计算偏态系数和峰态系数: Skewness=1.080;Kurtosis=0.773
(5)对网民年龄的分布特征进行综合分析:
分布,均值=24、标准差=6.652、呈右偏分布。如需看清楚分布形态,需要进行分组。
为分组情况下的直方图:
__________________________________________________
__________________________________________________
32Count10151617181920212223242527293031343841网络用户的年龄 为分组情况下的概率密度曲线:
3.02.5Count2.01.51.0151617181920212223242527293031343841网络用户的年龄 分组:
1、确定组数:
__________________________________________________
__________________________________________________
lg25lg(n)1.398 K1115.64,取k=6
lg(2)lg20.301032、确定组距:组距=( 最大值 - 最小值)÷ 组数=(41-15)÷6=4.3,取5
3、分组频数表
网络用户的年龄 (Binned) FrequenCumulative Cumulative cy Percent Frequency Percent <= 15 1 4.0 1 4.0 16 - 20 8 32.0 9 36.0 21 - 25 9 36.0 18 72.0 26 - 30 3 12.0 21 84.0 Valid 31 - 35 2 8.0 23 92.0 36 - 40 1 4.0 24 96.0 41+ 1 4.0 25 100.0 Total 25 100.0 分组后的均值与方差: Mean 23.3000 Std. Deviation 7.02377 Variance 49.333 Skewness 1.163 Kurtosis 1.302
分组后的直方图:
__________________________________________________
__________________________________________________
108Frequency642Mean =23.30 Std. Dev. =7.024 N =25010.0015.0020.0025.0030.0035.0040.0045.0050.00 4.3 某银行为缩短顾客到银行办理业务等待的时间。准备采用两种排队方式进
行试验:一种是所有颐客都进入一个等待队列:另—种是顾客在三千业务窗口处列队3排等待。为比较哪种排队方式使顾客等待的时间更短.两种排队方式各随机抽取9名顾客。得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟。第二种排队方式的等待时间(单位:分钟)如下:
5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8 要求:
(1)画出第二种排队方式等待时间的茎叶图。
第二种排队方式的等待时间(单位:分钟) Stem-and-Leaf Plot
Frequency Stem & Leaf 1.00 Extremes (=<5.5) 3.00 6 . 678 3.00 7 . 134 2.00 7 . 88
Stem width: 1.00
Each leaf: 1 case(s)
(2)计算第二种排队时间的平均数和标准差。
Mean 7 Std. Deviation 0.714143 Variance 0.51
(3)比较两种排队方式等待时间的离散程度。
第二种排队方式的离散程度小。
__________________________________________________
组中值__________________________________________________
(4)如果让你选择一种排队方式,你会选择哪—种?试说明理由。 选择第二种,均值小,离散程度小。
4.4 某百货公司6月份各天的销售额数据如下:
单位:万元
257 276 297 252 238 310 240 236 271 292 261 281 301 274 267 280 272 284 268 303 273 263 322 249 要求:
(1)计算该百货公司日销售额的平均数和中位数。 (2)按定义公式计算四分位数。 (3)计算日销售额的标准差。 解:
Statistics
百货公司每天的销售额(万元) N
Mean Median
Std. Deviation Percentiles
Valid Missing
265 291 269 278 258 295
25 50 75 30 0
274.1000 272.5000 21.17472 260.2500 272.5000 291.2500
4.5 甲乙两个企业生产三种产品的单位成本和总成本资料如下: 产品 单位成本 总成本(元) 名称 (元) 甲企业 乙企业 A 15 2 100 3 255 B 20 3 000 1 500 C 30 1 500 1 500 要求:比较两个企业的总平均成本,哪个高,并分析其原因。 甲企业 乙企业 产品名称 单位成本(元) 总成本(元) 产品数 总成本(元) 产品数 A 15 2100 140 3255 217 B 20 3000 150 1500 75 C 30 1500 50 1500 50 平均成本(元) 19.41176471 18.28947368 调和平均数计算,得到甲的平均成本为19.41;乙的平均成本为18.29。甲的中间成本的产品多,乙的低成本的产品多。
4.6 在某地区抽取120家企业,按利润额进行分组,结果如下: 按利润额分组(万元) 企业数(个) __________________________________________________
__________________________________________________
200~300 300~400 400~500 500~600 600以上 合 计 要求: (1)计算120家企业利润额的平均数和标准差。 (2)计算分布的偏态系数和峰态系数。 解:
Statistics
企业利润组中值Mi(万元) N
Valid Missing
19 30 42 18 11 120 Mean
Std. Deviation Skewness
Std. Error of Skewness Kurtosis
Std. Error of Kurtosis
120 0
426.6667 116.48445
0.208 0.221 -0.625 0.438 __________________________________________________
__________________________________________________
Histogram5040Frequency302010Mean =426.67 Std. Dev. =116.484 N =120200.00300.00400.00500.00600.00700.000企业利润组中值Mi(万元) 4.7 为研究少年儿童的成长发育状况,某研究所的一位调查人员在某城市抽取100名7~17岁的少年儿童作为样本,另一位调查人员则抽取了1 000名7~17岁的少年儿童作为样本。请回答下面的问题,并解释其原因。
(1)两位调查人员所得到的样本的平均身高是否相同?如果不同,哪组样本的平均身高较大?
(2)两位调查人员所得到的样本的标准差是否相同?如果不同,哪组样本的标准差较大?
(3)两位调查人员得到这l 100名少年儿童身高的最高者或最低者的机会是否相同?如果不同,哪位调查研究人员的机会较大? 解:(1)不一定相同,无法判断哪一个更高,但可以判断,样本量大的更接近于
总体平均身高。
(2)不一定相同,样本量少的标准差大的可能性大。
(3)机会不相同,样本量大的得到最高者和最低者的身高的机会大。
4.8 一项关于大学生体重状况的研究发现.男生的平均体重为60kg,标准差
为5kg;女生的平均体重为50kg,标准差为5kg。请回答下面的问题: (1)是男生的体重差异大还是女生的体重差异大?为什么?
女生,因为标准差一样,而均值男生大,所以,离散系数是男生的小,离散程度是男生的小。
(2)以磅为单位(1ks=2.2lb),求体重的平均数和标准差。
__________________________________________________
Cases weighted by 企业个数 __________________________________________________
都是各乘以2.21,男生的平均体重为60kg×2.21=132.6磅,标准差为5kg×2.21=11.05磅;女生的平均体重为50kg×2.21=110.5磅,标准差为5kg×2.21=11.05磅。
(3)粗略地估计一下,男生中有百分之几的人体重在55kg一65kg之间? 计算标准分数:
xx5560xx6560 Z1===-1;Z2===1,根据经验规则,男生大约
ss55有68%的人体重在55kg一65kg之间。
(4)粗略地估计一下,女生中有百分之几的人体重在40kg~60kg之间? 计算标准分数:
xx4050xx6050 Z1===-2;Z2===2,根据经验规则,女生大约
ss55有95%的人体重在40kg一60kg之间。
4.9 一家公司在招收职员时,首先要通过两项能力测试。在A项测试中,其平
均分数是100分,标准差是15分;在B项测试中,其平均分数是400分,标准差是50分。一位应试者在A项测试中得了115分,在B项测试中得了425分。与平均分数相比,该应试者哪一项测试更为理想? 解:应用标准分数来考虑问题,该应试者标准分数高的测试理想。
xx115100xx425400ZA===1;ZB===0.5
ss5015因此,A项测试结果理想。
4.10 一条产品生产线平均每天的产量为3 700件,标准差为50件。如果某一
天的产量低于或高于平均产量,并落人士2个标准差的范围之外,就认为该生产线“失去控制”。下面是一周各天的产量,该生产线哪几天失去了控制? 时间 周一 周二 周三 周四 周五 周六 周日 产量(件) 3 850 3 670 3 690 3 720 3 610 3 590 3 700 时间 周一 周二 周三 周四 周五 周六 周日 产量(件) 3850 3670 3690 3720 3610 3590 3700 日平均产量 3700 日产量标准差 50 标准分数Z 3 -0.6 -0.2 0.4 -1.8 -2.2 0 -2 -2 -2 -2 -2 -2 -2 标准分数界限 2 2 2 2 2 2 2 周六超出界限,失去控制。
4.11 对10名成年人和10名幼儿的身高进行抽样调查,结果如下: 166 169 l72 177 180 170 172 174 168 成年组 173 幼儿组 68 69 68 70 7l 73 72 73 74 75 __________________________________________________
__________________________________________________
要求:
(1)如果比较成年组和幼儿组的身高差异,你会采用什么样的统计量?为什么?
均值不相等,用离散系数衡量身高差异。 (2)比较分析哪一组的身高差异大? 成年组 幼儿组 平均 172.1 平均 71.3 标准差 4.201851 标准差 2.496664 离散系数 0.024415 离散系数 0.035016 幼儿组的身高差异大。
4.12 一种产品需要人工组装,现有三种可供选择的组装方法。为检验哪种方
法更好,随机抽取15个工人,让他们分别用三种方法组装。下面是15个工人分别用三种方法在相同的时间内组装的产品数量:
单位:个 方法A 方法B 方法C 164 167 168 165 170 165 164 168 164 162 163 166 167 166 165 129 130 129 130 131 ]30 129 127 128 128 127 128 128 125 132 125 126 126 127 126 128 127 126 127 127 125 126 116 126 125 要求:
(1)你准备采用什么方法来评价组装方法的优劣?
(2)如果让你选择一种方法,你会作出怎样的选择?试说明理由。 解:对比均值和离散系数的方法,选择均值大,离散程度小的。
方法A 方法B 方法C
128.73333125.53333
平均 165.6 平均 平均
33 33
标准2.1313979标准1.7511900标准2.7740292
__________________________________________________
__________________________________________________
差 32 差 72 差 17
离散系数: VA=0.01287076,VB= 0.013603237,VC= 0.022097949 均值A方法最大,同时A的离散系数也最小,因此选择A方法。
4.13 在金融证券领域,一项投资的预期收益率的变化通常用该项投资的风险
来衡量。预期收益率的变化越小,投资风险越低;预期收益率的变化越大,投资风险就越高。下面的两个直方图,分别反映了200种商业类股票和200种高科技类股票的收益率分布。在股票市场上,高收益率往往伴随着高风险。但投资于哪类股票,往往与投资者的类型有一定关系。 (1)你认为该用什么样的统计量来反映投资的风险? 标准差或者离散系数。
(2)如果选择风险小的股票进行投资,应该选择商业类股票还是高科技类股票?
选择离散系数小的股票,则选择商业股票。
(3)如果进行股票投资,你会选择商业类股票还是高科技类股票? 考虑高收益,则选择高科技股票;考虑风险,则选择商业股票。
__________________________________________________
__________________________________________________
6.1 调节一个装瓶机使其对每个瓶子的灌装量均值为盎司,通过观察这台装瓶机对每个瓶子的灌装量服从标准差1.0盎司的正态分布。随机抽取由这台机器灌装的9个瓶子形成一个样本,并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。
解:总体方差知道的情况下,均值的抽样分布服从N,正态分布,标准化得到标准正态分布:z=过总体均值的概率P为:
x0.3x0.30.3Px0.3=P=P
nn19n192n的正态分布,由
x~N0,1,因此,样本均值不超n=P0.9z0.9=20.9-1,查标准正态分布表得0.9=0.8159 因此,Px0.3=0.6318
6.3 Z1,Z2,……,Z6表示从标准正态总体中随机抽取的容量,n=6的一个样本,试确定常数b,使得
62PZib0.95 i1解:由于卡方分布是由标准正态分布的平方和构成的: 设Z1,Z2,……,Zn是来自总体N(0,1)的样本,则统计量
22Z12Z22 Zn服从自由度为n的χ2分布,记为χ2~ χ2(n) 因此,令Z,则Z22i6262ii1i1626,那么由概率PZib0.95,可
i12知:
b=120.956,查概率表得:b=12.59
6.4 在习题6.1中,假定装瓶机对瓶子的灌装量服从方差21的标准正态分布。假定我们计划随机抽取10个瓶子组成样本,观测每个瓶子的灌装量,得
1n(YiY)2),到10个观测值,用这10个观测值我们可以求出样本方差S(Sn1i122确定一个合适的范围使得有较大的概率保证S2落入其中是有用的,试求b1,b2,
__________________________________________________
__________________________________________________
使得
p(b1S2b2)0.90
解:更加样本方差的抽样分布知识可知,样本统计量:
(n1)s22~2(n1)
此处,n=10,21,所以统计量
(n1)s22(101)s29s2~2(n1)
1根据卡方分布的可知:
Pb1S2b2P9b19S29b20.90
又因为:
2P122n19S22n11
因此:
2P9b19S29b2P122n19S22n110.90 2P9b19S29b2P122n19S22n1 22P0.9599S20.0590.90
则:
9b120.959,9b29b120.0520.9599,b220.0599
22查概率表:0.959=3.325,0.059=19.919,则
20.959b19=0.369,b220.0599=1.88
__________________________________________________
__________________________________________________
7.2 某快餐店想要估计每位顾客午餐的平均花费金额。在为期3周的时间里选取
49名顾客组成了一个简单随机样本。
(1)假定总体标准差为15元,求样本均值的抽样标准误差。
xn15=2.143 49(2)在95%的置信水平下,求边际误差。
xtx,由于是大样本抽样,因此样本均值服从正态分布,因此概率度t=z2
因此,xtxz2xz0.025x=1.96×2.143=4.2 (3)如果样本均值为120元,求总体均值 的95%的置信区间。 置信区间为:
xx,xx=1204.2,1204.2=(115.8,124.2)
7.4 从总体中抽取一个n=100的简单随机样本,得到x=81,s=12。
要求:
大样本,样本均值服从正态分布:x2N,或xns2N, n12sss置信区间为:xz2,==1.2 ,xz2100nnn(1)构建的90%的置信区间。
z2=z0.05=1.645,置信区间为:811.6451.2,811.6451.2=(79.03,82.97)
(2)构建的95%的置信区间。
置信区间为:811.961.2,811.961.2=(78.65,83.35) z2=z0.025=1.96,
(3)构建的99%的置信区间。
z2=z0.005=2.576,置信区间为:812.5761.2,812.5761.2=(77.91,84.09)
7.7 某大学为了解学生每天上网的时间,在全校7 500名学生中采取重复抽样
方法随机抽取36人,调查他们每天上网的时间,得到下面的数据(单位:小
__________________________________________________
__________________________________________________
时): 3.3 3.1 6.2 5.8 2.3 4.1 5.4 4.5 3.2 4.4 2.0 5.4 2.6 6.4 1.8 3.5 5.7 2.3 2.1 1.9 1.2 5.1 4.3 4.2 3.6 0.8 1.5 4.7 1.4 1.2 2.9 3.5 2.4 0.5 3.6 2.5 求该校大学生平均上网时间的置信区间,置信水平分别为90%,95%和99%。
解:
(1)样本均值x=3.32,样本标准差s=1.61; (2)抽样平均误差:
重复抽样:x=ns=1.61/6=0.268 n 不重复抽样:x=nNnsNn1.61750036= N1N175001n36=0.268×0.995=0.268×0.998=0.267
(3)置信水平下的概率度: 1=0.9,t=z2=z0.05=1.645 1=0.95,t=z2=z0.025=1.96 1=0.99,t=z2=z0.005=2.576 (4)边际误差(极限误差): xtxz2x
1=0.9,xtxz2x=z0.05x
重复抽样:xz2x=z0.05x=1.645×0.268=0.441 不重复抽样:xz2x=z0.05x=1.645×0.267=0.439
1=0.95,xtxz2x=z0.025x
重复抽样:xz2x=z0.025x=1.96×0.268=0.525 不重复抽样:xz2x=z0.025x=1.96×0.267=0.523
1=0.99,xtxz2x=z0.005x
重复抽样:xz2x=z0.005x=2.576×0.268=0.69
__________________________________________________
__________________________________________________
不重复抽样:xz2x=z0.005x=2.576×0.267=0.688
(5)置信区间:
xx,xx
1=0.9,
重复抽样:xx,xx=3.320.441,3.320.441=(2.88,3.76) 不重复抽样:xx,xx=3.320.439,3.320.439=(2.88,
3.76)
1=0.95,
重复抽样:(2.79,3.85) xx,xx=3.320.525,3.320.525=不重复抽样:xx,xx=3.320.441,3.320.441=(2.80,
3.84)
1=0.99,
重复抽样:xx,xx=3.320.69,3.320.69=(2.63,4.01) 不重复抽样:xx,xx=3.320.688,3.320.688=(2.63,
4.01)
7.9 某居民小区为研究职工上班从家里到单位的距离,抽取了由16个人组成的
一个随机样本,他们到单位的距离(单位:km)分别是:
10 3 14 8 6 9 12 11 7 5 10 15 9 16 13 2
假定总体服从正态分布,求职工上班从家里到单位平均距离的95%的置信区间。
解:小样本,总体方差未知,用t统计量
xttn1
sn均值=9.375,样本标准差s=4.11 置信区间:
ssxtn1,xtn122
nn1=0.95,n=16,t2n1=t0.02515=2.13
ssxtn1,xtn122
nn__________________________________________________
__________________________________________________
4.114.11=9.3752.13,9.3752.13=(7.18,11.57)
1616
7.11 某企业生产的袋装食品采用自动打包机包装,每袋标准重量为l00g。现
从某天生产的一批产品中按重复抽样随机抽取50包进行检查,测得每包重量(单位:g)如下: 每包重量(g) 包数 96~98 2 98~100 3 100~102 34 102~104 7 104~106 4 合计 50 已知食品包重量服从正态分布,要求: (1)确定该种食品平均重量的95%的置信区间。 解:大样本,总体方差未知,用z统计量
xzN0,1
sn样本均值=101.4,样本标准差s=1.829 置信区间:
ssxz,xz22
nn1=0.95,z2=z0.025=1.96
ssxz,xz22
nn1.8291.829=101.41.96,101.41.96=(100.89,101.91)
5050(2)如果规定食品重量低于l00g属于不合格,确定该批食品合格率的95%的
置信区间。
解:总体比率的估计
大样本,总体方差未知,用z统计量
zpp1pnN0,1
样本比率=(50-5)/50=0.9 置信区间:
__________________________________________________
__________________________________________________
p1pp1ppz2 ,pz2nn1=0.95,z2=z0.025=1.96
p1pp1ppz2 ,pz2nn0.910.90.910.9==0.91.96(0.8168,0.9832) ,0.91.965050
7.13 一家研究机构想估计在网络公司工作的员工每周加班的平均时间,为此
随机抽取了18个员工。得到他们每周加班的时间数据如下(单位:小时): 6 21 17 20 7 0 8 16 29 3 8 12 11 9 21 25 15 16 假定员工每周加班的时间服从正态分布。估计网络公司员工平均每周加班时间的90%的置信区间。
解:小样本,总体方差未知,用t统计量
xttn1
sn均值=13.56,样本标准差s=7.801 置信区间:
ssxtn1,xtn122
nn1=0.90,n=18,t2n1=t0.0517=1.7369
ssxtn1,xtn122
nn7.8017.801=13.561.7369,13.561.7369=(10.36,16.75)
1818
7.15 在一项家电市场调查中.随机抽取了200个居民户,调查他们是否拥有
某一品牌的电视机。其中拥有该品牌电视机的家庭占23%。求总体比例的置信区间,置信水平分别为90%和95%。 解:总体比率的估计
大样本,总体方差未知,用z统计量
zpp1pnN0,1
__________________________________________________
__________________________________________________
样本比率=0.23 置信区间:
p1pp1ppz2 ,pz2nn1=0.90,z2=z0.025=1.645
p1pp1ppz2 ,pz2nn0.2310.230.2310.23 =0.231.645,0.231.645200200=(0.1811,0.2789)
1=0.95,z2=z0.025=1.96
p1pp1ppz2 ,pz2nn0.2310.230.2310.23=(0.1717,=0.231.96,0.231.962002000.2883)
7.20 顾客到银行办理业务时往往需要等待一段时间,而等待时间的长短与许
多因素有关,比如,银行业务员办理业务的速度,顾客等待排队的方式等。为此,某银行准备采取两种排队方式进行试验,第一种排队方式是:所有顾客都进入一个等待队列;第二种排队方式是:顾客在三个业务窗口处列队三排等待。为比较哪种排队方式使顾客等待的时间更短,银行各随机抽取10名顾客,他们在办理业务时所等待的时间(单位:分钟)如下: 方式1 6.5 6.6 6.7 6.8 7.1 7.3 7.4 7.7 7.7 7.7 方式2 4.2 5.4 5.8 6.2 6.7 7.7 7.7 8.5 9.3 10 要求: (1)构建第一种排队方式等待时间标准差的95%的置信区间。 解:估计统计量
n1S2~2n1
22经计算得样本标准差s2=3.318
置信区间:
n1S22n1S2 22n1n1212__________________________________________________
__________________________________________________
1=0.95,n=10,
22n1=
20.0259=19.02,
2122n1=0.9759=2.7
n1S2n1S290.227290.2272=,2,=(0.1075,0.7574) 2n1n119.022.7122因此,标准差的置信区间为(0.3279,0.8703)
(2)构建第二种排队方式等待时间标准差的95%的置信区间。 解:估计统计量
n1S2~2n1
2经计算得样本标准差s12=0.2272 置信区间:
n1S22n1S2 22n1n12121=0.95,n=10,
22n1=
20.0259=19.02,
2122n1=0.9759=2.7
n1S2n1S293.31893.318,2=,=(1.57,11.06) 2n1n12.71219.022因此,标准差的置信区间为(1.25,3.33)
(3)根据(1)和(2)的结果,你认为哪种排队方式更好? 第一种方式好,标准差小!
7.23 下表是由4对观察值组成的随机样本。 配对号 来自总体A的样本 1 2 2 5 3 10 4 8 来自总体B的样本 0 7 6 5 (1)计算A与B各对观察值之差,再利用得出的差值计算d和sd。 d=1.75,sd=2.62996
(2)设1和2分别为总体A和总体B的均值,构造d12的95%的置信区间。
解:小样本,配对样本,总体方差未知,用t统计量
__________________________________________________
__________________________________________________
tdddsdntn1
均值=1.75,样本标准差s=2.62996 置信区间:
sdsddtn1,dtn122
nn1=0.95,n=4,t2n1=t0.0253=3.182
sdsddtn1,dtn122
nn2.629962.62996=1.753.182,1.753.182=(-2.43,5.93)
44
7.25 从两个总体中各抽取一个n1n2=250的独立随机样本,来自总体1的样
本比例为p1=40%,来自总体2的样本比例为p2=30%。要求: (1)构造12的90%的置信区间。 (2)构造12的95%的置信区间。 解:总体比率差的估计
大样本,总体方差未知,用z统计量
zp1p212p11p1p21p2n1n2N0,1
样本比率p1=0.4,p2=0.3
置信区间:
p1p1p21p2p1p2z21,p1p2z2n1n2
1=0.90,z2=z0.025=1.645
p11p1p21p2n1n2p1p1p21p2p1p2z21,p1p2z2n1n2
__________________________________________________
p11p1p21p2n1n2__________________________________________________
=
0.410.40.310.30.410.40.310.30.11.645 ,0.11.645250250250250=(3.02%,16.98%)
1=0.95,z2=z0.025=1.96
p1p1p21p2ppz1,ppzp11p1p21p212212n21n2n1n2
=
0.11.960.410.40.310.3,0.11.960.410.40.310.3 250250250250=(1.68%,18.32%)
7.26 生产工序的方差是工序质量的一个重要度量。当方差较大时,需要对序进
行改进以减小方差。下面是两部机器生产的袋茶重量(单位:g)的数据:
机器1 机器2 3.45 3.22 3.9 3.22 3.28 3.35 3.2 2.98 3.7 3.38 3.19 3.3 3.22 3.75 3.28 3.3 3.2 3.05 3.5 3.38 3.35 3.3 3.29 3.33 2.95 3.45 3.2 3.34 3.35 3.27 3.16 3.48 3.12 3.28 3.16 3.28 3.2 3.18 3.25 3.3 3.34 3.25 要求:构造两个总体方差比21/22的95%的置信区间。 解:统计量: s2121s2Fn11,n21
222置信区间:
s212s212s2F2n11,n21,s2F12n11,n21
s221=0.058,s2=0.006 n1=n2=21
__________________________________________________
__________________________________________________
1=0.95,F2n11,n21=F0.02520,20=2.4645,
F12n11,n21=
1
F2n21,n111=0.4058
F0.02520,20F12n11,n21=F0.97520,20=
s12s1222s2s2,=(4.05,24.6)
Fn1,n1Fn1,n112121227.27 根据以往的生产数据,某种产品的废品率为2%。如果要求95%的置信区间,若要求边际误差不超过4%,应抽取多大的样本? 解:z2pp1pn n2z2p1p2p
1=0.95,z2=z0.025=1.96
22z2p1p1.960.020.98==47.06,取n=48或者50。 n20.042p
7.28 某超市想要估计每个顾客平均每次购物花费的金额。根据过去的经验,
标准差大约为120元,现要求以95%的置信水平估计每个顾客平均购物金额的置信区间,并要求边际误差不超过20元,应抽取多少个顾客作为样本? 解:n22z22x,1=0.95,z2=z0.025=1.96,
n
22z22x1.9621202=138.3,取n=139或者140,或者150。 2027.29 假定两个总体的标准差分别为:112,215,若要求误差范围不超
过5,相应的置信水平为95%,假定n1n2,估计两个总体均值之差12时所需的样本量为多大?
__________________________________________________
__________________________________________________
222z212解:n1=n2=n2x1x2222z2122x1x2,1=0.95,z2=z0.025=1.96,
1.96212215252 n1=n2=n
= =56.7,取n=58,或者60。
7.30 假定n1n2,边际误差E=0.05,相应的置信水平为95%,估计两个总
体比例之差12时所需的样本量为多大? 解:n1=n2=n2z2p11p1p21p22p1p22z2p11p1p21p2,1=0.95,z2=z0.025=1.96,取
p1=p2=0.5, n1=n2=n2p1p2=
1.9620.520.520.052=768.3,取
n=769,或者780或800。
8.2 一种元件,要求其使用寿命不得低于700小时。现从一批这种元件中随机
抽取36件,测得其平均寿命为680小时。已知该元件寿命服从正态分布,=60小时,试在显著性水平0.05下确定这批元件是否合格。 解:H0:μ≥700;H1:μ<700
已知:x=680 =60
由于n=36>30,大样本,因此检验统计量:
zx0680700==-2
6036sn当α=0.05,查表得z=1.645。因为z<-z,故拒绝原假设,接受备择假设,
说明这批产品不合格。
8.4 糖厂用自动打包机打包,每包标准重量是100千克。每天开工后需要检验
一次打包机工作是否正常。某日开工后测得9包重量(单位:千克)如下: 99.3 98.7 100.5 101.2 98.3 99.7 99.5 102.1 100.5
已知包重服从正态分布,试检验该日打包机工作是否正常(a=0.05)? 解:H0:μ=100;H1:μ≠100
经计算得:x=99.9778 S=1.21221 检验统计量:
__________________________________________________
__________________________________________________
tx099.9778100==-0.055 sn1.212219当α=0.05,自由度n-1=9时,查表得t29=2.262。因为t<t2,样本统计量落在接受区域,故接受原假设,拒绝备择假设,说明打包机工作正常。
8.5 某种大量生产的袋装食品,按规定不得少于250克。今从一批该食品中任
意抽取50袋,发现有6袋低于250克。若规定不符合标准的比例超过5%就不得出厂,问该批食品能否出厂(a=0.05)? 解:解:H0:π≤0.05;H1:π>0.05
已知: p=6/50=0.12 检验统计量:
Zp0010n=0.120.050.0510.0550=2.271
当α=0.05,查表得z=1.645。因为z>z,样本统计量落在拒绝区域,故拒
绝原假设,接受备择假设,说明该批食品不能出厂。
8.7 某种电子元件的寿命x(单位:小时)服从正态分布。现测得16只元件的
寿命如下:
159 280 101 212 224 379 179 264 222 362 168 250 149 260 485 170
问是否有理由认为元件的平均寿命显著地大于225小时(a=0.05)? 解:H0:μ≤225;H1:μ>225
经计算知:x=241.5 s=98.726 检验统计量:
tx0241.5225==0.669 sn98.72616当α=0.05,自由度n-1=15时,查表得t15=1.753。因为t<t,样本统
计量落在接受区域,故接受原假设,拒绝备择假设,说明元件寿命没有显著大于225小时。
8.10 装配一个部件时可以采用不同的方法,所关心的问题是哪一个方法的效
率更高。劳动效率可以用平均装配时间反映。现从不同的装配方法中各抽取12件产品,记录各自的装配时间(单位:分钟)如下: 甲方法:31 34 29 32 35 38 34 30 29 32 31 26 乙方法:26 24 28 29 30 29 32 26 31 29 32 28
两总体为正态总体,且方差相同。问两种方法的装配时间有无显著不同 (a=0.05)?
__________________________________________________
__________________________________________________
解:建立假设
H0:μ1-μ2=0 H1:μ1-μ2≠0
总体正态,小样本抽样,方差未知,方差相等,检验统计量
tx1x2sp11n1n2
根据样本数据计算,得n1=12,n2=12,x1=31.75,s1=3.19446,x2=28.6667,s2=2.46183。
s2p2n11s12n11s2 n1n221210.9221621210.710672 ==8.1326
12122tx1x2sp11n1n2=2.648
α=0.05时,临界点为t2n1n22=t0.02522=2.074,此题中t>t2,故拒绝原假设,认为两种方法的装配时间有显著差异。
8.11 调查了339名50岁以上的人,其中205名吸烟者中有43个患慢性气管
炎,在134名不吸烟者中有13人患慢性气管炎。调查数据能否支持“吸烟者容易患慢性气管炎”这种观点(a=0.05)? 解:建立假设
H0:π1≤π2;H1:π1>π2
p1=43/205=0.2097 n1=205 p2=13/134=0.097 n2=134 检验统计量
zp1p2d p11p1p21p2n1n2 =0.20980.0970 0.209810.20980.09710.097205134=3
当α=0.05,查表得z=1.645。因为z>z,拒绝原假设,说明吸烟者容易患
慢性气管炎。
__________________________________________________
__________________________________________________
8.12 为了控制贷款规模,某商业银行有个内部要求,平均每项贷款数额不能
超过60万元。随着经济的发展,贷款规模有增大的趋势。银行经理想了解在同样项目条件下,贷款的平均规模是否明显地超过60万元,故一个n=144的随机样本被抽出,测得x=68.1万元,s=45。用a=0.01的显著性水平,采用p值进行检验。 解:H0:μ≤60;H1:μ>60
已知:x=68.1 s=45
由于n=144>30,大样本,因此检验统计量:
zx068.160==2.16 45144sn由于x>μ,因此P值=P(z≥2.16)=1-2.16,查表的2.16=0.9846,P值=0.0154
由于P>α=0.01,故不能拒绝原假设,说明贷款的平均规模没有明显地超过60
万元。 8.13 有一种理论认为服用阿司匹林有助于减少心脏病的发生,为了进行验证,
研究人员把自愿参与实验的22 000人随机平均分成两组,一组人员每星期服用三次阿司匹林(样本1),另一组人员在相同的时间服用安慰剂(样本2)持续3年之后进行检测,样本1中有104人患心脏病,样本2中有189人患心脏病。以a=0.05的显著性水平检验服用阿司匹林是否可以降低心脏病发生率。 解:建立假设
H0:π1≥π2;H1:π1<π2
p1=104/11000=0.00945 n1=11000 p2=189/11000=0.01718
n2=11000
检验统计量
zp1p2d p11p1p21p2n1n2 =0.009450.017180
0.0094510.009450.0171810.017181100011000=-5
当α=0.05,查表得z=1.645。因为z<-z,拒绝原假设,说明用阿司匹林
可以降低心脏病发生率。
8.15 有人说在大学中男生的学习成绩比女生的学习成绩好。现从一个学校中
随机抽取了25名男生和16名女生,对他们进行了同样题目的测试。测试
__________________________________________________
__________________________________________________
结果表明,男生的平均成绩为82分,方差为56分,女生的平均成绩为78分,方差为49分。假设显著性水平α=0.02,从上述数据中能得到什么结论?
解:首先进行方差是否相等的检验:
建立假设
22H0:12=2;H1:12≠2
2n1=25,s12=56,n2=16,s2=49
56s12=1.143 F2=49s2当α=0.02时,F224,15=3.294,F1224,15=0.346。由于
F1224,15<F<F224,15,检验统计量的值落在接受域中,所以接受原假设,说明总体方差无显著差异。
检验均值差: 建立假设
H0:μ1-μ2≤0 H1:μ1-μ2>0
总体正态,小样本抽样,方差未知,方差相等,检验统计量
tx1x2sp11n1n2
2根据样本数据计算,得n1=25,n2=16,x1=82,s12=56,x2=78,s2=49
22n1sn1s112=53.308 s21pn1n22tx1x2sp11n1n2=1.711
α=0.02时,临界点为tn1n22=t0.0239=2.125,t<t,故不能拒绝原
假设,不能认为大学中男生的学习成绩比女生的学习成绩好。
__________________________________________________
__________________________________________________
10.3 一家牛奶公司有4台机器装填牛奶,每桶的容量为4L。下面是从4台机器中抽取的样本数据: 机器l 机器2 机器3 机器4 4.05 3.99 3.97 4.00 4.01 4.02 3.98 4.02 4.02 4.01 3.97 3.99 4.04 3.99 3.95 4.0l 4.00 4.00 4.00 取显著性水平a=0.01,检验4台机器的装填量是否相同? 解:
ANOVA
每桶容量(L) 平方和 df 均方 F 显著性 组间 0.007 3 0.002 8.721 0.001 组内 0.004 15 0.000 总数 0.011 18 不相同。
10.7 某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品数量最多,随机抽取了30名工人,并指定每个人使用其中的一种方法。通过对每个工人生产的产品数进行方差分析得到下面的结果; 方差分析表 差异SS df MS F P-valuF crit 源 e 组间 420 2 210 1.47810210.24593.35419 46 31 组内 3836 27 142.07407— — — 41 总计 4256 29 — — — — 要求: (1)完成上面的方差分析表。
(2)若显著性水平a=0.05,检验三种方法组装的产品数量之间是否有显著差异?
解:(2)P=0.025>a=0.05,没有显著差异。
10.9 有5种不同品种的种子和4种不同的施肥方案,在20块同样面积的土地上,分别采用5种种子和4种施肥方案搭配进行试验,取得的收获量数据如下表: 品种 施肥方案 1 2 3 4 1 12.0 9.5 10.4 9.7 2 13.7 11.5 12.4 9.6 __________________________________________________
__________________________________________________
3 14.3 12.3 11.4 11.1 4 14.2 14.0 12.5 12.0 5 13.0 14.0 13.1 11.4 检验种子的不同品种对收获量的影响是否有显著差异?不同的施肥方案对收获量的影响是否有显著差异(a=0.05)?
解:这线图:
均值收获量15.00施肥方法施肥方法1施肥方法2施肥方法3施肥方法4似乎交互作用不明显:
(1)考虑无交互作用下的方差分析:
主体间效应的检验
因变量: 收获量 III 型平
源 方和 df 均方 F 校正模型 37.249(a
7 5.321 8.082
)
截距 2,930.622,930.624,451.01
1
1 1 2
Fertilization_Methods 18.182 3 6.061 9.205 Variety 19.067 4 4.767 7.240 误差 7.901 12 0.658 总计 2,975.77
20
0
校正的总计 45.150 19 a. R 方 = .825(调整 R 方 = .723) 结果表明施肥方法和品种都对收获量有显著影响。
__________________________________________________
14.0013.0012.0011.0010.009.00品种1品种2品种3品种4品种5品种__ Sig. 0.001 0.000 0.002 0.003 __________________________________________________
(2)考虑有交互作用下的方差分析:
主体间效应的检验
因变量: 收获量 源 df 均方 F Sig. 校正模型 19 2.376 . . 截距 1 2,930.621 . . Fertilization_Methods 3 6.061 . . Variety 4 4.767 . . Fertilization_Methods
12 0.658 . .
Variety 误差 0.000 0 . 总计 2,975.770 20 校正的总计 45.150 19 a. R 方 = 1.000(调整 R 方 = .) 由于观测数太少,得不到结果!
10.11 一家超市连锁店进行一项研究,确定超市所在的位置和竞争者的数 量对销售额是否有显著影响。下面是获得的月销售额数据(单位:万元)。
竞争者数量 超市位置 0 1 2 3个以h 41 38 59 47 位于市内30 31 48 40 居民小区 45 39 51 39 25 29 44 43 位于写字31 35 48 42 楼 22 30 50 53 18 72 29 24 位于郊区 29 17 28 27 33 25 26 32 取显著性水平a=0.01,检验: (1)竞争者的数量对销售额是否有显著影响?
(2)超市的位置对销售额是否有显著影响?
(3)竞争者的数量和超市的位置对销售额是否有交互影响? 解:画折线图:
III 型平方
和
45.150(a) 2,930.621 18.182 19.067 *
7.901
__________________________________________________
__________________________________________________
均值月销售额万元55.00超市位置位于市内居民小区位于写字楼位于郊区交互作用不十分明显。
(1)进行无交互方差分析:
主体间效应的检验
因变量: 月销售额(万元) III 型平源 方和 df 均方 F Sig. 校正模型 2814.556(5 562.911 15.205 0.000 a) 截距 44,802.7744,802.771,210.151 0.000 8 8 9 Location_SuperMaket 1,736.222 2 868.111 23.448 0.000 Amount_competitors 1,078.333 3 359.444 9.709 0.000 误差 1,110.667 30 37.022 总计 48,728.0036 0 校正的总计 3,925.222 35 a. R 方 = .717(调整 R 方 = .670)
看到超市位置有显著影响,而竞争者数量没有显著影响,且影响强度仅为0.327,因此考虑是否存在交互作用。
(2)有交互方差分析:
看到超市位置有显著影响,而竞争者数量和交互作用均无显著影响。
主体间效应的检验
__________________________________________________
50.00()45.0040.0035.0030.0025.000个竞争者1个竞争者2个竞争者3个以上竞争者竞争者数量 __________________________________________________
因变量: 月销售额(万元) 源 校正模型 截距 Location_SuperMaket Amount_competitors Location_SuperMaket Amount_competitors 误差 总计 III 型平方和 df 均方 F Sig. 3317.889(11 301.626 11.919 0.000 a) 44,802.7744,802.771,770.471 0.000 8 8 2 1,736.222 2 868.111 34.305 0.000 1,078.333 3 359.444 14.204 0.000 * 503.333 6 24 36 35 83.889 25.306 3.315 0.016 607.333 48,728.000 校正的总计 3,925.222 a. R 方 = .845(调整 R 方 = .774)
__________________________________________________
__________________________________________________
11.5 一家物流公司的管理人员想研究货物的运输距离和运输时间的关系,为此,他抽出了公司最近10个卡车运货记录的随机样本,得到运送距离(单位:km)和运送时间(单位:天)的数据如下: 运送距离x 825 215 1 070 550 480 920 1 350 325 670 1 215 运送时间y 3.5 1.0 4.0 2.0 1.0 3.0 4.5 1.5 3.0 5.0 要求:
(1)绘制运送距离和运送时间的散点图,判断二者之间的关系形态: (2)计算线性相关系数,说明两个变量之间的关系强度。
(3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 解:(1)
运送时间天可能存在线性关系。 (2)
相关性
x运送距离(km)
x运送距离(km)
y运送时间(天)
y运送时间(天)
y5()432125050075010001250x运送距离(km)__ Pearson 相关
1 .949(**)
性 显著性(双侧) 0.000 N 10 10 Pearson 相关
.949(**) 1
性 显著性(双侧) 0.000
__________________________________________________
__________________________________________________
N **. 在 .01 水平(双侧)上显著相关。 有很强的线性关系。 (3)
系数(a) 标准化
非标准化系数 系数 B 标准误 Beta 0.118 0.355
10 10 t 显著性
(常量) 0.333 0.748 x运送距离
0.004 0.000 0.949 8.509 0.000
(km) a. 因变量: y运送时间(天) 回归系数的含义:每公里增加0.004天。
11.6 下面是7个地区2000年的人均国内生产总值(GDP)和人均消费水平的统计数据: 地区 人均GDP(元) 人均消费水平(元) 北京 辽宁 上海 江西 河南 贵州 陕西 22 460 11 226 34 547 4 851 5 444 2 662 4 549 7 326 4 490 11 546 2 396 2 208 1 608 2 035 模型 1
要求: (1)人均GDP作自变量,人均消费水平作因变量,绘制散点图,并说明二者之间的关系形态。
(2)计算两个变量之间的线性相关系数,说明两个变量之间的关系强度。 (3)利用最小二乘法求出估计的回归方程,并解释回归系数的实际意义。 (4)计算判定系数,并解释其意义。
(5)检验回归方程线性关系的显著性(a=0.05)。
(6)如果某地区的人均GDP为5 000元,预测其人均消费水平。
(7)求人均GDP为5 000元时,人均消费水平95%的置信区间和预测区间。 解:(1)
__________________________________________________
__________________________________________________
人均消费水平元1200010000可能存在线性关系。 (2)相关系数:
相关性
人均GDP(元)
人均GDP(元)
人均消费水平
(元)
.998(**) 0.000
7
1
Pearson 相关
1
性 显著性(双侧) N 7
人均消费水平(元) Pearson 相关
.998(**)
性 显著性(双侧) 0.000 N 7 **. 在 .01 水平(双侧)上显著相关。 有很强的线性关系。 (3)回归方程:
系数(a) 模型 1
()80006000400020000010000200003000040000人均GDP(元)__ 7 标准化
非标准化系数 系数
B 标准误 Beta t 显著性 (常量) 734.693 139.540 5.265 0.003 人均GDP0.309 0.008 0.998 36.492 0.000 __________________________________________________
__________________________________________________
(元) a. 因变量: 人均消费水平(元) 回归系数的含义:人均GDP没增加1元,人均消费增加0.309元。 (4)
模型摘要 调整的 R 估计的标准模型 R R 方 方 差 1 .998(a) 0.996 0.996 247.303 a. 预测变量:(常量), 人均GDP(元)。 人均GDP对人均消费的影响达到99.6%。 (5)F检验:
ANOVA(b) 模型 平方和 df 均方 F 1 回归 81,444,96881,444,968
1 1,331.692
.680 .680
残差 305,795.03
5 61,159.007
4
合计 81,750,763
6
.714 a. 预测变量:(常量), 人均GDP(元)。 b. 因变量: 人均消费水平(元) 回归系数的检验:t检验
系数(a) 标准化
非标准化系数 系数
模型 B 标准误 Beta t 显著性 1 (常量) 734.693 139.540 5.265 0.003
人均GDP
0.309 0.008 0.998 36.492 0.000
(元) a. 因变量: 人均消费水平(元) (6)
某地区的人均GDP为5 000元,预测其人均消费水平为2278.10657元。 (7)
人均GDP为5 000元时,人均消费水平95%的置信区间为[1990.74915,2565.46399],预测区间为[1580.46315,2975.74999]。
11.9 某汽车生产商欲了解广告费用(x)对销售量(y)的影响,收集了过去12年的有关数据。通过计算得到下面的有关结果:
方差分析表 变差来源 df SS MS F SignificanceF 显.0
__________________________________________________
__________________________________________________
回归 残差 总计 Intercept XVariable1 1 10 1602708.6 40158.07 1602708.6 4015.807 — 399.1000065 — — 2.17E—09 — — 11 1642866.67 参数估计表 Coefficients 标准误差 tStat 363.6891 1.420211 62.45529 0.071091 5.823191 19.97749 P—value 0.000168 2.17E—09 要求: (1)完成上面的方差分析表。
(2)汽车销售量的变差中有多少是由于广告费用的变动引起的? (3)销售量与广告费用之间的相关系数是多少?
(4)写出估计的回归方程并解释回归系数的实际意义。
(5)检验线性关系的显著性(a=0.05)。 解:(2)R2=0.9756,汽车销售量的变差中有97.56%是由于广告费用的变动引起的。
(3)r=0.9877。
(4)回归系数的意义:广告费用每增加一个单位,汽车销量就增加1.42个单位。
(5)回归系数的检验:p=2.17E—09<α,回归系数不等于0,显著。 回归直线的检验:p=2.17E—09<α,回归直线显著。
11.11 从20的样本中得到的有关回归结果是:SSR=60,SSE=40。要检验x与y之间的线性关系是否显著,即检验假设:H0:10。
(1)线性关系检验的统计量F值是多少? (2)给定显著性水平a=0.05,Fa是多少? (3)是拒绝原假设还是不拒绝原假设?
(4)假定x与y之间是负相关,计算相关系数r。 (5)检验x与y之间的线性关系是否显著?
解:(1)SSR的自由度为k=1;SSE的自由度为n-k-1=18;
SSR60k 因此:F==1=27
40SSEnk118(2)F1,18=F0.051,18=4.41 (3)拒绝原假设,线性关系显著。
__________________________________________________
__________________________________________________
(4)r=SSR=0.6=0.7746,由于是负相关,因此r=-0.7746
SSRSSE(5)从F检验看线性关系显著。
11.15 随机抽取7家超市,得到其广告费支出和销售额数据如下: 超市 广告费支出(万元) 销售额(万元) A l 19 B 2 32 C 4 44 D 6 40 E 10 52 F 14 53 G 20 54 要求:
(1)用广告费支出作自变量x,销售额作因变量y,求出估计的回归方程。 (2)检验广告费支出与销售额之间的线性关系是否显著(a=0.05)。 (3)绘制关于x的残差图,你觉得关于误差项的假定被满足了吗? (4)你是选用这个模型,还是另寻找一个更好的模型? 解:(1)
系数(a) 标准化
非标准化系数 系数 B 标准误 Beta 29.399 4.807
模型
1
(常量) 广告费支出(万元) a. 因变量: 销售额(万元) (2)回归直线的F检验:
t 显著性 6.116 0.002
1.547 0.463 0.831 3.339 0.021
ANOVA(b) 模型 平方和 df 均方 F 显著性 1 回归 691.72691.72.021(a
1 11.147
3 3 )
残差 310.27
5 62.055
7
合计 1,002.
6
000 a. 预测变量:(常量), 广告费支出(万元)。 b. 因变量: 销售额(万元) 显著。
回归系数的t检验:
__________________________________________________
__________________________________________________
系数(a) 标准化
非标准化系数 系数 B 标准误 Beta 29.399 4.807
模型
1
(常量) 广告费支出(万元) a. 因变量: 销售额(万元) 显著。
(3)未标准化残差图:
10.00000t 显著性 6.116 0.002
1.547 0.463 0.831 3.339 0.021
5.00000Unstandardized Residual0.00000-5.00000-10.00000-15.0000005101520广告费支出(万元)__ 标准化残差图:
__________________________________________________
__________________________________________________
1.00000Standardized Residual0.00000-1.00000-2.0000005101520广告费支出(万元)学生氏标准化残差图: __________________________________________________
__________________________________________________
2.000001.00000Studentized Residual0.00000-1.00000-2.0000005101520广告费支出(万元)看到残差不全相等。 (4)应考虑其他模型。可考虑对数曲线模型:
y=b0+b1ln(x)=22.471+11.576ln(x)。
__________________________________________________
__________________________________________________
12.2 根据下面Excel输出的回归结果,说明模型中涉及多少个自变量、少个观察值?写出回归方程,并根据F,se,R2及调整的Ra2的值对模型进行讨论。 SUMMARY OUTPUT 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析 df SS 回归 残差 总计
3 11 14
0.842407 0.709650 0.630463 109.429596 15 MS
F 8.961759
t Stat 3.923655 3.186849 -1.293998 -2.405847
Significance F
0.002724
P-value 0.002378 0.008655 0.222174 0.034870
321946.8018 107315.6006 131723.1982 11974.84 453670
Coefficient标准误差 s
Intercept 657.0534 167.459539 X Variable 1 5.710311 1.791836 X Variable 2 -0.416917 0.322193 X Variable 3 -3.471481 1.442935 解:自变量3个,观察值15个。
ˆ=657.0534+5.710311X1-0.416917X2-3.471481X3 回归方程:y拟合优度:判定系数R2=0.70965,调整的Ra2=0.630463,说明三个自变量对因变量的影响的比例占到63%。
估计的标准误差Syx=109.429596,说明随即变动程度为109.429596 回归方程的检验:F检验的P=0.002724,在显著性为5%的情况下,整个回归方
程线性关系显著。
回归系数的检验:1的t检验的P=0.008655,在显著性为5%的情况下,y与X1线性关系显著。
2的t检验的P=0.222174,在显著性为5%的情况下,y与X2线
性关系不显著。
3的t检验的P=0.034870,在显著性为5%的情况下,y与X3线
性关系显著。
因此,可以考虑采用逐步回归去除X2,从新构建线性回归模型。
__________________________________________________
__________________________________________________
ˆ18.42.01x14.74x2,并且已知12.3 根据两个自变量得到的多元回归方程为yn=10,SST=6 724.125,SSR=6 216.375,sˆ0.0813,sˆ=0.056 7。要求:
12 (1)在a=0.05的显著性水平下,x1,x2与y的线性关系是否显著? (2)在a=0.05的显著性水平下,1是否显著?
(3)在a=0.05的显著性水平下,2是否显著? 解(1)回归方程的显著性检验:
假设:H0:1=2=0 H1:1,2不全等于0 SSE=SST-SSR=6 724.125-6 216.375=507.75 F=
SSRp6724.1252==42.85
SSEnp1507.751021F2,7=4.74,F>F2,7,认为线性关系显著。 (2)回归系数的显著性检验: 假设:H0:1=0 H1:1≠0 t=
2.011==24.72 S0.08131t2np1=2.36,t>t27,认为y与x1线性关系显著。 (3)回归系数的显著性检验: 假设:H0:2=0 H1:2≠0 t=
2S2=
4.74=83.6
0.0567t2np1=2.36,t>t27,认为y与x2线性关系显著。
12.4 一家电器销售公司的管理人员认为,每月的销售额是广告费用的函数,并想通过广告费用对月销售额作出估计。下面是近8个月的销售额与广告费用数据: 月销售收入y(万元) 电视广告费用工:x1 (万 报纸广告费用x2(万元) 元) __________________________________________________
__________________________________________________
96 90 95 92 95 94 94 94 5.0 2.0 4.0 2.5 3.0 3.5 2.5 3.0 1.5 2.0 1.5 2.5 3.3 2.3 4.2 2.5 要求: (1)用电视广告费用作自变量,月销售额作因变量,建立估计的回归方程。 (2)用电视广告费用和报纸广告费用作自变量,月销售额作因变量,建立估计的回归方程。
(3)上述(1)和(2)所建立的估计方程,电视广告费用的系数是否相同?对其回归系数分别进行解释。
(4)根据问题(2)所建立的估计方程,在销售收入的总变差中,被估计的回归方程所解释的比例是多少?
(5)根据问题(2)所建立的估计方程,检验回归系数是否显著(a=0.05)。
ˆ88.64+1.6x 解:(1)回归方程为:yˆ83.232.29x11.3x2 (2)回归方程为:y(3)不相同,(1)中表明电视广告费用增加1万元,月销售额增加1.6
万元;(2)中表明,在报纸广告费用不变的情况下,电视广告费用增加1万元,月销售额增加2.29万元。
(4)判定系数R2= 0.919,调整的Ra2= 0.8866,比例为88.66%。
(5)回归系数的显著性检验:
Coeffici标准误P-valuLower Upper 下限 上限
ents 差 t Stat e 95% 95% 95.0% 95.0%
1.5738652.8824.57E-Intercept 83.23009 9 48 08 79.18433 87.27585 79.18433 87.27585 电视广告费用工:x1 (万0.304067.53180.0006元) 2.290184 5 99 53 1.508561 3.071806 1.508561 3.071806
0.320704.05660.0097
报纸广告费用x2(万元) 1.300989 2 97 61 0.476599 2.125379 0.476599 2.125379
假设:H0:1=0 H1:1≠0 t=
12.29==7.53 S0.3041t0.0255=2.57,t>t0.0255,认为y与x1线性关系显著。 (3)回归系数的显著性检验:
__________________________________________________
__________________________________________________
假设:H0:2=0 H1:2≠0 t=
2S2=
1.3=4.05 0.32t0.0255=2.57,t>t0.0255,认为y与x2线性关系显著。
12.5 某农场通过试验取得早稻收获量与春季降雨量和春季温度的数据如下: 收获量y(kg/hm2) 降雨量x1(mm) 温度x2(℃) 2 250 3 450 4 500 6 750 7 200 7 500 8 250 25 33 45 105 110 115 120 6 8 10 13 14 16 17 要求:
(1)试确定早稻收获量对春季降雨量和春季温度的二元线性回归方程。
(2)解释回归系数的实际意义。
(3)根据你的判断,模型中是否存在多重共线性?
ˆ-0.59122.386x1327.672x2 解:(1)回归方程为:y(2)在温度不变的情况下,降雨量每增加1mm,收获量增加22.386kg/hm2,
在降雨量不变的情况下,降雨量每增加1度,收获量增加327.672kg/hm2。
(3)x1与x2的相关系数rx1x2=0.965,存在多重共线性。
12.9 下面是随机抽取的15家大型商场销售的同类产品的有关数据(单位:元)。 企业编号 销售价格y 购进价格x1 销售费用x2 __________________________________________________
__________________________________________________
l 2 3 4 5 6 7 8 9 10 11 12 13 14 15 l 238 l 266 l 200 1 193 1 106 1 303 1 313 1 144 1 286 l 084 l 120 1 156 1 083 1 263 1 246 966 894 440 664 791 852 804 905 77l 511 505 85l 659 490 696 223 257 387 310 339 283 302 214 304 326 339 235 276 390 316
要求:
(1)计算y与x1、y与x2之间的相关系数,是否有证据表明销售价格与购进价格、销售价格与销售费用之间存在线性关系? (2)根据上述结果,你认为用购进价格和销售费用来预测销售价格是否有用? (3)用Excel进行回归,并检验模型的线性关系是否显著(a=0.05)。 (4)解释判定系数R2,所得结论与问题(2)中是否一致?
(5)计算x1与x2之间的相关系数,所得结果意味着什么? (6)模型中是否存在多重共线性?你对模型有何建议? 解:(1)y与x1的相关系数=0.309,y与x2之间的相关系数=0.0012。对相关性进行检验:
相关性
销售价格
销售价格 购进价格 销售费用
Pearson 相关
1 0.309 0.001
性 显著性(双侧) 0.263 0.997 N 15 15 15
购进价格 Pearson 相关
0.309 1 -.853(**)
性 显著性(双侧) 0.263 0.000 N 15 15 15
销售费用 Pearson 相关
0.001 -.853(**) 1
性 显著性(双侧) 0.997 0.000 N 15 15 15 **. 在 .01 水平(双侧)上显著相关。 __________________________________________________
__________________________________________________
可以看到,两个相关系数的P值都比较的,总体上线性关系也不现状,因此没有明显的线性相关关系。
(2)意义不大。 (3)
回归统计
0.5936
Multiple R 84
0.3524
R Square 6 Adjusted R 0.2445Square 37
69.751
标准误差 21 观测值 15
方差分析
Significan
df SS MS F ce F 回归分析 2 31778.1539 15889.08 3.265842 0.073722 残差 12 58382.7794 4865.232 总计 14 90160.9333
CoefficiP-valuLower Upper 下限 上限 ents 标准误差 t Stat e 95% 95% 95.0% 95.0%
339.41051.10660.2901
Intercept 375.6018 62 3 45 -363.91 1115.114 -363.91 1115.114 购进价格0.2104462.5557x1 0.537841 74 11 0.0252 0.079317 0.996365 0.079317 0.996365 销售费用0.6677062.18230.0496x2 1.457194 59 86 81 0.002386 2.912001 0.002386 2.912001
从检验结果看,整个方程在5%下,不显著;而回归系数在5%下,均显著,说明回归方程没有多大意义,并且自变量间存在线性相关关系。
(4)从R2看,调整后的R2=24.4%,说明自变量对因变量影响不大,反映情况基本一致。
(5)方程不显著,而回归系数显著,说明可能存在多重共线性。 (6)存在多重共线性,模型不适宜采用线性模型。
12.11 一家货物运输公司想研究运输费用与货物类型的关系,并建立运输费用与货物类型的回归模型,以此对运输费用作出预测。该运输公司所运输的货物分为两种类型:易碎品和非易碎品。下表给出了15个路程大致相同,而货物类型不同的运输费用数据。 每件产品的运输费用y(元) 货物类型 x1 __________________________________________________
__________________________________________________
17.2 11.1 12.0 10.9 13.8 6.5 10.0 11.5 7.0 8.5 2.1 l。3 3.4 7.5 2.0 易碎品 易碎品 易碎品 易碎品 易碎品 易碎品 易碎品 易碎品 非易碎品 非易碎品 非易碎品 非易碎品 非易碎品 非易碎品 非易碎品 1 1 1 l 1 l 1 1 0 0 0 0 0 0 0 要求: (1)写出运输费用与货物类型之间的线性方程。 (2)对模型中的回归系数进行解释。
(3)检验模型的线性关系是否显著(a=0.05)。 解:
Significa
df SS MS F nce F 回归分析 1 187.2519 187.2519 20.2229 0.000601 残差 13 120.3721 9.259396 总计 14 307.624
Coeffici标准误P-valuLower Upper 下限 上限 ents 差 t Stat e 95% 95% 95.0% 95.0% Interc1.150113.94990.0016ept 4.542857 8 06 62 2.058179 7.027535 2.058179 7.027535
1.574864.49690.0006
x1 7.082143 4 88 01 3.679857 10.48443 3.679857 10.48443
ˆ4.547.08x (1)回归方程为:y(2)非易碎品的平均运费为4.54元,易碎品的平均运费为11.62元,易碎品与非易碎品的平均运费差为7.08元。
(3)回归方程的显著性检验:
假设:H0:1=0 H1:1不等于0 SSR=187.25195,SSE=120.3721,
__________________________________________________
__________________________________________________
F=
SSRp6724.1251==20.22
SSEnp1507.751511P=0.000601<0.05,或者F0.051,13=4.67,F>F0.051,13,认为线性关系显著。 或者,回归系数的显著性检验: 假设:H0:1=0 H1:1≠0 t=
17.08==4.5 S1.571P=0.000601<0.05,或者t2np1=t0.02513=2.16,t>t0.02513,认为y与x线性关系显著。
12.12 为分析某行业中的薪水有无性别歧视,从该行业中随机抽取15名员工,有关数据如下: 月薪y(元) l 548 l 629 1 011 l 229 l 746 1 528 l 018 1 190 l 551 985 l 610 1 432 1 215 990 1 585 要求:用Excel进行回归,并对结果进行分析。 解:
回归统计
0.9433
Multiple R 91
0.8899
R Square 87 Adjusted R 0.8716Square 52
__________________________________________________
工龄x1 3.2 3.8 2.7 3.4 3.6 4.1 3.8 3.4 3.3 3.2 3.5 2.9 3.3 2.8 3.5 性别(1=男,0=女)x2 l l 0 0 l 1 0 0 l 0 l l 0 0 l __________________________________________________
标准误差 观测值
方差分析 回归分析 残差 总计
96.791
58 15
Significan
df SS MS F ce F
2 909488.4 454744.2 48.53914 1.77E-06 12 112423.3 9368.61 14 1021912
Coeffici标准误P-valuLower Upper 下限 上限
ents 差 t Stat e 95% 95% 95.0% 95.0%
235.5843.10740.0090
Intercept 732.0606 4 25 64 218.7664 1245.355 218.7664 1245.355
72.08341.54290.1487
工龄x1 111.2202 2 37 96 -45.8361 268.2765 -45.8361 268.2765 性别(1=男,0=8.58011.82E-女)x2 458.6841 53.4585 9 06 342.208 575.1601 342.208 575.1601
拟合优度良好,方程线性显著,工龄线性不显著,性别线性显著。 13.1 下表是1981年—1999年国家财政用于农业的支出额数据 年份 支出额(亿元) 年份 支出额(亿元) 1981 1982 1983 1984 1985 1986 1987 1988 1989 110.21 120.49 132.87 141.29 153.62 184.2 195.72 214.07 265.94 1991 1992 1993 1994 1995 1996 1997 1998 1999 347.57 376.02 440.45 532.98 574.93 700.43 766.39 1154.76 1085.76 __________________________________________________
__________________________________________________
1990 307.84 (1)绘制时间序列图描述其形态。 (2)计算年平均增长率。
(3)根据年平均增长率预测2000年的支出额。 详细答案:
(1)时间序列图如下:
从时间序列图可以看出,国家财政用于农业的支出额大体上呈指数上升趋势。
(2)年平均增长率为:
。
(3) 。
__________________________________________________
__________________________________________________
13.2 下表是1981年—2000年我国油彩油菜籽单位面积产量数据(单位:kg / hm2)
年份 单位面积产量 年份 单位面积产量 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1451 1372 1168 1232 1245 1200 1260 1020 1095 1260 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 1215 1281 1309 1296 1416 1367 1479 1272 1469 1519 (1)绘制时间序列图描述其形态。
(2)用5期移动平均法预测2001年的单位面积产量。
(3)采用指数平滑法,分别用平滑系数a=0.3和a=0.5预测2001年的单位面积产量,分析预测误差,说明用哪一个平滑系数预测更合适? 详细答案:
(1)时间序列图如下:
__________________________________________________
__________________________________________________
(2)2001年的预测值为:
|
(3)由Excel输出的指数平滑预测值如下表:
指数平滑预年份 单位面积产量 a=0.3 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1451 1372 1168 1232 1245 1200 1260 1020 1095 1260 1451.0 1427.3 1349.5 1314.3 1293.5 1265.4 1263.8 1190.7 1162.0 6241.0 67236.5 13808.6 4796.5 8738.5 29.5 59441.0 9151.5 9611.0 1451.0 1411.5 1289.8 1260.9 1252.9 1226.5 1243.2 1131.6 1113.3 测 误差平方 指数平滑预测 a=0.5 6241.0 59292.3 3335.1 252.0 2802.4 1124.3 49833.6 1340.8 21518.4 误差平方 __________________________________________________
__________________________________________________
1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 合计 1215 1281 1309 1296 1416 1367 1479 1272 1469 1519 — 1191.4 1198.5 1223.2 1249.0 1263.1 1308.9 1326.4 1372.2 1342.1 1380.2 — 558.1 6812.4 7357.6 2213.1 23387.7 3369.9 23297.7 10031.0 16101.5 19272.1 291455.2 1186.7 1200.8 1240.9 1275.0 1285.5 1350.7 1358.9 1418.9 1345.5 1407.2 — 803.5 6427.7 4635.8 442.8 17035.9 264.4 14431.3 21589.8 15260.3 12491.7 239123.0 2001年a=0.3时的预测值为:
a=0.5时的预测值为:
比较误差平方可知,a=0.5更合适。
13.3 下面是一家旅馆过去18个月的营业额数据 月份 营业额(万元) 月份 营业额(万元) 1 2 295 283 10 11 473 470 __________________________________________________
__________________________________________________
3 4 5 6 7 8 9 322 355 286 379 381 431 424 12 13 14 15 16 17 18 481 449 544 601 587 644 660 (1)用3期移动平均法预测第19个月的营业额。
(2)采用指数平滑法,分别用平滑系数a=0.3、a=0.4和a=0.5预测各月的营业额,分析预测误差,说明用哪一个平滑系数预测更合适? (3)建立一个趋势方程预测各月的营业额,计算出估计标准误差。 详细答案:
(1)第19个月的3期移动平均预测值为:
(2)
预测 营业额 a=0.3 295 283 322 295.0 291.4 144.0 936.4 误差平方 a=0.4 295.0 144.0 预测 误差平方 a=0.5 295.0 144.0 预测 误差平方 月份 1 2 3 290.2 1011.2 289.0 1089.0 __________________________________________________
__________________________________________________
4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 合计 355 286 379 381 431 424 473 470 481 449 544 601 587 644 660 — 300.6 2961.5 302.9 2712.3 305.5 2450.3 316.9 955.2 323.8 1425.2 330.3 1958.1 307.6 5093.1 308.7 4949.0 308.1 5023.3 329.0 2699.4 336.8 1954.5 343.6 1401.6 344.6 7459.6 354.5 5856.2 362.3 4722.3 370.5 2857.8 385.1 1514.4 396.6 748.5 386.6 7468.6 400.7 5234.4 410.3 3928.7 412.5 3305.6 429.6 1632.9 441.7 429.8 2626.2 445.8 1242.3 455.8 445.1 15.0 459.9 117.8 468.4 803.1 633.5 376.9 446.3 9547.4 455.5 7830.2 458.7 7274.8 475.6 15724.5 490.9 12120.5 501.4 9929.4 513.2 5443.2 534.9 2709.8 551.2 1283.3 535.4 11803.7 555.8 7785.2 569.1 5611.7 567.9 8473.4 591.1 4752.7 606.5 2857.5 — 87514.7 — 62992.5 — 50236 由Excel输出的指数平滑预测值如下表: a=0.3时的预测值:
,误差均方=87514.7。
a=0.4时的预测值:
,误差均方=62992.5.。
a=0.5时的预测值:
__________________________________________________
__________________________________________________
,误差均方=50236。
比较各误差平方可知,a=0.5更合适。
(3)根据最小二乘法,利用Excel输出的回归结果如下: 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析 df 0.9673 0.9356 0.9316 31.6628 18 SS MS F Significance F 回归分析 1 232982.232982.232.3945 16040.49 249022.9 5 1002.53 4 5.99E-11 残差 16 总计 17 Upper Coefficien标准误t Stat P-value Lower 95% __________________________________________________
__________________________________________________
ts Intercept 239.73203 差 15.57055 15.3965 5.16E-11 206.7239 95% 272.7401 24.97822 X Variable 1 21.928793 1.4384715.24445.99E-14 9 1 18.87936 。估计标准误差 。
13.4 下表是1981年—2000年我国财政用于文教、科技、卫生事业费指出额数据
年份 支出(万元) 年份 支出(万元) 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 171.36 196.96 223.54 263.17 316.70 379.93 402.75 486.10 553.33 617.29 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 708.00 792.96 957.77 1278.18 1467.06 1704.25 1903.59 2154.38 2408.06 2736.88 (1)绘制时间序列图描述其趋势。
(2)选择一条适合的趋势线拟合数据,并根据趋势线预测2001年的支出额。
__________________________________________________
__________________________________________________
详细答案: (1)趋势图如下:
(2)从趋势图可以看出,我国财政用于文教、科技、卫生事业费指出额呈现指数增长趋势,因此,选择指数曲线。经线性变换后,利用Excel输出的回归结果如下: 回归统计 Multiple R R Square Adjusted R Square 标准误差 观测值 方差分析 df 0.998423 0.996849 0.996674 0.022125 20 SS MS F Significance F __________________________________________________
__________________________________________________
回归分析 1 2.787612.787615694.886 6 5 5.68E-24 残差 18 0.008810.000481 2.796427 9 总计 19 Upper 95% 2.185291 0.066547 Coefficien标准误ts 2.163699 差 t Stat P-value Lower 95% Intercept 0.01027210.5265.55E-38 9 2 2.142106 X Variable 1 0.064745 0.0008575.46445.68E-28 6 4 0.062942 ,
指数曲线方程为:
;
。
, 。所以,
2001年的预测值为: 。
13.5 我国1964年~1999年的纱产量数据如下(单位:万吨): 年份 纱产量 年份 纱产量 年份 纱产量 1964 1965 1966 1967 97.0 130.0 156.5 135.2 1976 1977 1978 1979 196.0 223.0 238.2 263.5 1988 1989 1990 1991 465.7 476.7 462.6 460.8 __________________________________________________
__________________________________________________
1968 1969 1970 1971 1972 1973 1974 1975 137.7 180.5 205.2 190.0 188.6 196.7 180.3 210.8 1980 1981 1982 1983 1984 1985 1986 1987 292.6 317.0 335.4 327.0 321.9 353.5 397.8 436.8 1992 1993 1994 1995 1996 1997 1998 1999 501.8 501.5 489.5 542.3 512.2 559.8 542.0 567.0 (1)绘制时间序列图描述其趋势。
(2)选择一条适合的趋势线拟合数据,并根据趋势线预测2000年的产量。
详细答案: (1)趋势图如下:
(2)从图中可以看出,纱产量具有明显的线性趋势。用Excel求得的线性趋势方程为:
__________________________________________________
__________________________________________________
2000年预测值为:
=585.65(万吨)。
13.6 对下面的数据分别拟合线性趋势线
和阶次曲线
较。 时间t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 观测值Y 372 370 374 375 377 377 374 372 373 372 369 367 367 365 时间t 19 20 21 22 23 24 25 26 27 28 29 30 31 32 观测值Y 360 357 356 352 348 353 356 356 356 359 360 357 357 355 、二阶曲线 。并对结果进行比
__________________________________________________
__________________________________________________
15 16 17 18 363 359 358 359 33 34 35 356 363 365 详细答案:
在求二阶曲线和三阶曲线时,首先将其线性化,然后用最小二乘法按线性回归进行求解。用Excel求得的趋势直线、二阶曲线和三阶曲线的系数如下:
直线 二阶曲线 三阶曲线 Intercept 374.1613 Intercept 381.6442 Intercept 372.5617 X Variable 1 -0.6137 X Variable 1 X Variable 2 -1.8272 X Variable 1 X Variable 2 X Variable 3 1.0030 0.0337 -0.1601 0.0036 各趋势方程为: 线性趋势:
二阶曲线:
三阶曲线: 。
__________________________________________________
__________________________________________________
根据趋势方程求得的预测值和预测误差如下表: 时间t 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 直线 观测值Y 预测 误差平方 预测 误差平方 预测 误差平方 372 370 374 375 377 377 374 372 373 372 369 367 367 365 363 359 358 359 360 357 373.5 372.9 372.3 371.7 371.1 370.5 369.9 369.3 368.6 368.0 367.4 366.8 366.2 365.6 365.0 364.3 363.7 363.1 362.5 361.9 2.4 8.6 2.8 10.8 34.9 42.5 17.1 7.6 19.0 15.8 2.5 0.0 0.7 0.3 3.8 28.5 32.8 16.9 6.3 23.9 379.9 378.1 376.5 374.9 373.4 371.9 370.5 369.2 367.9 366.7 365.6 364.6 363.6 362.7 361.8 361.0 360.3 359.7 359.1 358.6 61.6 66.0 6.1 0.0 13.3 26.1 12.2 7.9 25.7 27.6 11.4 5.9 11.6 5.4 1.4 4.2 5.4 0.5 0.8 2.5 373.4 374.0 374.2 374.2 374.0 373.6 373.0 372.2 371.2 370.2 369.0 367.7 366.4 365.1 363.7 362.3 361.0 359.7 358.4 357.3 2.0 15.6 0.1 0.6 8.9 11.6 1.1 0.0 3.1 3.3 0.0 0.6 0.3 0.0 0.5 11.1 8.9 0.5 2.4 0.1 二阶曲线 三阶曲线 __________________________________________________
__________________________________________________
21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 合计 356 352 348 353 356 356 356 359 360 357 357 355 356 363 365 — 361.3 360.7 360.0 359.4 358.8 358.2 357.6 357.0 356.4 355.7 355.1 354.5 353.9 353.3 352.7 — 27.8 75.0 145.1 41.4 7.9 4.9 2.5 4.1 13.2 1.6 3.5 0.2 4.4 94.2 151.8 854.9 358.1 357.8 357.5 357.2 357.0 356.9 356.9 356.9 357.0 357.2 357.4 357.7 358.1 358.5 359.0 — 4.6 33.2 89.3 17.7 1.1 0.9 0.8 4.4 9.0 0.0 0.2 7.2 4.2 20.4 36.2 524.7 356.3 355.4 354.6 354.0 353.7 353.5 353.6 353.9 354.5 355.5 356.7 358.3 360.3 362.7 365.4 — 0.1 11.3 43.7 1.1 5.5 6.3 5.9 25.8 29.8 2.3 0.1 11.0 18.4 0.1 0.2 232.1 不同趋势线预测的标准误差如下:
直线:
二阶曲线:
__________________________________________________
__________________________________________________
三阶曲线:
比较各预测误差可知,直线的误差最大,三阶曲线的误差最小。 从不同趋势方程的预测图也可以看出,三阶曲线与原序列的拟合最好。
13.7 下表是1981—2000年我国的原煤产量数据 年份 原煤产量(亿吨) 年份 原煤产量(亿吨) 1981 1982 1983 1984 1985 1986 6.22 6.66 7.15 7.89 8.72 8.94 1991 1992 1993 1994 1995 1996 10.87 11.16 11.50 12.40 13.61 13.97 __________________________________________________
__________________________________________________
1987 1988 1989 1990 9.28 9.80 10.54 10.80 1997 1998 1999 2000 13.73 12.50 10.45 9.98 (1)绘制时间序列图描述其趋势。
(2)选择一条适合的趋势线拟合数据,并根据趋势线预测2001年的产量。
详细答案:
(1)原煤产量趋势图如下:
从趋势图可以看出,拟合二阶曲线比较合适。 (2)用Excel求得的二阶曲线趋势方程为:
2001年的预测值为:
__________________________________________________
__________________________________________________
。
13.8 一家贸易公司主要经营产品的外销业务,为了合理地组织货源,需要了解外销订单的变化状况。下表是1997—2001年各月份的外销定单金额(单位:万元)。 年/月 1 2 3 4 5 6 7 8 9 10 11 12 1997 54.3 46.6 62.6 58.2 57.4 56.6 56.1 52.9 54.6 51.3 54.8 52.1 1998 49.1 50.4 59.3 58.5 60.0 55.6 58.0 55.8 55.8 59.8 59.4 55.5 1999 56.7 52.0 61.7 61.4 62.4 63.6 63.2 63.9 63.2 63.4 64.4 63.8 2000 64.4 54.5 68.0 71.9 69.4 67.7 68.0 66.3 67.8 71.5 70.5 69.4 2001 61.1 69.4 76.5 71.6 74.6 69.9 71.4 72.7 69.9 74.2 72.7 72.5 (1)根据各年的月份数据绘制趋势图,说明该时间序列的特点。 (2)要寻找各月份的预测值,你认为应该采取什么方法? (3)选择你认为合适的方法预测2002年1月份的外销订单金额。 详细答案:
__________________________________________________
__________________________________________________
(1)趋势图如下:
从趋势图可以看出,每一年的各月份数据没有趋势存在,但从1997—2001年的变化看,订单金额存在一定的线性趋势。
(2)由于是预测各月份的订单金额,因此采用移动平均法或指数平滑法比较合适。
(3)用Excel采用12项移动平均法预测的结果为:
。
用Excel采用指数平滑法(a=0.4)预测的预测结果为: 。
13.9 1993—2000年我国社会消费品零售总额数据如下(单位:亿元) 月/年 1993 1 2 3 4 5 1994 1995 1996 1997 1998 1999 2000 977.5 1192.2 1602.2 1909.1 2288.5 2549.5 2662.1 2774.7 892.5 1162.7 1491.5 1911.2 2213.5 2306.4 2538.4 2805.0 942.3 1167.5 1533.3 1860.1 2130.9 2279.7 2403.1 2627.0 941.3 1170.4 1548.7 1854.8 2100.5 2252.7 2356.8 2572.0 962.2 1213.7 1585.4 1898.3 2108.2 2265.2 2364.0 2637.0 __________________________________________________
__________________________________________________
6 7 8 9 10 11 12 1005.7 1281.1 1639.7 1966.0 2164.7 2326.0 2428.8 2645.0 963.8 1251.5 1623.6 1888.7 2102.5 2286.1 2380.3 2597.0 959.8 1286.0 1637.1 1916.4 2104.4 2314.6 2410.9 2636.0 1023.3 1396.2 1756.0 2083.5 2239.6 2443.1 2604.3 2854.0 1051.1 1444.1 1818.0 2148.3 2348.0 2536.0 2743.9 3029.0 1102.0 1553.8 1935.2 2290.1 2454.9 2652.2 2781.5 3108.0 1415.5 1932.2 2389.5 2848.6 2881.7 3131.4 3405.7 3680.0 (1)绘制时间序列线图,说明该序列的特点。
(2)利用分解预测法预测2001年各月份的社会消费品零售总额。 详细答案: (1)趋势图如下:
从趋势图可以看出,我国社会消费品零售总额的变具有明显的季节变动和趋势。
(2)利用分解法预测的结果如下:
__________________________________________________
__________________________________________________
2001年/月 1 2 3 4 5 6 7 8 9 10 11 12 时间编号 季节指数 回归预测值 最终预测值 97 98 99 100 101 102 103 104 105 106 107 108 1.0439 0.9939 0.9593 0.9398 0.9439 0.9589 0.9287 0.9261 0.9814 1.0075 1.0472 1.2694 3056.30 3077.50 3098.71 3119.92 3141.13 3162.33 3183.54 3204.75 3225.96 3247.16 3268.37 3289.58 3190.48 3058.87 2972.48 2931.99 2964.88 3032.30 2956.43 2967.86 3166.05 3271.51 3422.77 4175.95 13.10 1995年~2000年北京市月平均气温数据如下(单位:): 月/年 1 2 3 4 5 6 1995 -0.7 2.1 7.7 14.7 19.8 24.3 1996 -2.2 -0.4 6.2 14.3 21.6 25.4 1997 -3.8 1.3 8.7 14.5 20.0 24.6 1998 -3.9 2.4 7.6 15.0 19.9 23.6 1999 -1.6 2.2 4.8 14.4 19.5 25.4 2000 -6.4 -1.5 8.1 14.6 20.4 26.7 __________________________________________________
__________________________________________________
7 8 9 10 11 12 25.9 25.4 19.0 14.5 7.7 -0.4 25.5 23.9 20.7 12.8 4.2 0.9 28.2 26.6 18.6 14.0 5.4 -1.5 26.5 25.1 22.2 14.8 4.0 0.1 28.1 25.6 20.9 13.0 5.9 -0.6 29.6 25.7 21.8 12.6 3.0 -0.6 (1)绘制年度折叠时间序列图,判断时间序列的类型。 (2)用季节性多元回归模型预测2001年各月份的平均气温。 详细答案:
(1)年度折叠时间序列图如下:
从年度折叠时间序列图可以看出,北京市月平均气温具有明显的季节变动。由于折线图中有交叉,表明该序列不存在趋势。 (2)季节性多元回归模型为: 设月份为。则季节性多元回归模型为:
__________________________________________________
__________________________________________________
虚拟变量为:
, ,……,由Excel输出的回归结果如下: 系数 b0 -0.2233 b1 -0.0030 M1 -2.7832 M2 1.3365 M3 7.5062 M4 14.9092 M5 20.5289 M6 25.3319 M7 27.6349 M8 25.7213 M9 20.8743 M10 13.9606 M11 5.3803 季节性多元回归方程为:
__________________________________________________
。
__________________________________________________
2001年各月份平均气温的预测值如下: 虚拟变量 预测 M2 M3 M4 M5 M6 M7 M8 M9 M10 M11 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 -3.2 0.9 7.1 14.5 20.1 24.9 27.2 25.3 20.4 13.5 4.9 -0.5 时间 年/月 M1 1 2 3 4 5 6 7 8 9 10 11 12 73 74 75 76 77 78 79 80 81 82 83 84 1 0 0 0 0 0 0 0 0 0 0 0 13.11 下表中的数据是一家大型百货公司最近几年各季度的销售额数据(单位:万元)。对这一时间序列的构成要素进行分解,计算季节指数、剔除季节变动、计算剔除季节变动后趋势方程。 年/季 1991 1 993.1 2 971.2 3 2264.1 4 1943.3 __________________________________________________
__________________________________________________
1992 1993 1994 1995 1996 1997 1998 1999 2000 1673.6 2342.4 3254.4 3904.2 5483.2 5123.6 4942.4 5009.9 6059.3 1931.5 2552.6 4245.2 5105.9 5997.3 6051.0 6825.5 6257.9 5819.7 3927.8 3747.5 5951.1 7252.6 8776.1 9592.2 8900.1 8016.8 7758.8 3079.6 4472.8 6373.1 8630.5 8720.6 8341.2 8723.1 7865.6 8128.2 详细答案: 各季节指数如下: 1季度 2季度 3季度 4季度 季节指数 0.7517 0.8513 1.2343 1.1627 季节变动图如下:
根据分离季节因素后的数据计算的趋势方程为:。
__________________________________________________
__________________________________________________
13.12 下表中的数据是一家水产品加工公司最近几年的加工量数据(单位:t)。对该序列进行分解,计算季节指数、剔除季节变动、计算剔除季节变动后趋势方程。 年/月 1 2 3 4 5 6 7 8 9 10 11 12 1997 78.8 78.1 84.0 94.3 97.6 102.8 92.7 41.6 109.8 127.3 210.3 242.8 1998 91.9 92.1 80.9 94.5 101.4 111.7 92.9 43.6 117.5 153.1 229.4 286.7 1999 90.4 100.1 114.1 108.2 125.7 118.3 89.1 46.1 132.1 173.9 273.3 352.1 2000 66.8 73.3 85.3 94.6 74.1 100.8 106.7 44.0 132.1 162.5 249.0 330.8 2001 99.5 80.0 108.4 118.3 126.8 123.3 117.2 42.0 150.6 176.6 249.2 320.6 详细答案: 各月季节指数如下: 1月 2月 3月 4月 5月 6月 0.6744 0.6699 0.7432 0.7903 0.8061 0.8510 7月 8月 9月 10月 11月 12月 __________________________________________________
__________________________________________________
0.7552 0.3449 0.9619 1.1992 1.8662 2.3377 季节变动图如下:
根据分离季节因素后的数据计算的趋势方程为:
__________________________________________________
。
因篇幅问题不能全部显示,请点此查看更多更全内容