全距也称极差,是一组数据的最大值与最小值之差。
R=最大值-最小值
组距分组数据可根据最高组上限 -最低组下限计算。
四分位数:数据按大小顺序排序后把分割成四等分的三个分割点上的数值 。
SPSS中四分位数的位置为(n+1)/4, 2(n+1)/4, 3 (n+1)/4。
Excel中四分位数的位置分别为(n+3)/4, 2(n+1)/4,(3 n+1)/4。
如果四分位数的位置不是整数,则四分位数等于前后两个数的加权平均。
四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1
反映了中间50%数据的离散程度,数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。
方差是一组数据中各数值与其算术平均数离差平方的平均数,标准差是方差正的平方根。是反映定量数据离散
程度的最常用的指标。
离散系数:标准差与其相应的均值之比,表示为百分数。
特点:(1)反映了相对于均值的相对离散程度;(2)可用于比较计量单位不同的数据的离散程度;(3)计量单位相同时,如果两组数据的均值相差悬殊,离散系数可能比标准差等绝对指标更有意义
数据分布的不对称性称作偏态。
偏态系数就是对数据分布的不对称性(即偏斜程度)的测度。
峰度:数据分布的扁平或尖峰程度。
峰度系数:数据分布峰度的度量值,对数据分布尖峰或扁平程度的测度,一般用K表示。 箱线图
用于描述数据分布特征的一种图形。
最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的:先根据三个四分位数Q1、Q2、Q3画出中间的盒子,然后由盒子两端分别向最大、最小值连线。 在SPSS中标准的箱线图一般是这样绘制的: 先根据三个四分位数Q1、Q2、Q3画出中间的盒子;
由Q3至Q3+*IQR区间内的最大值向盒子的顶端连线,由Q1至*IQR区间内的最小值向盒子的底部连线; 处于Q3+*IQR至Q3+3*IQR或者 *IQR至Q1-3*IQR范围内的数据用圆圈标出; 大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。 例子:
数据的 Z值也称标准化值,等于变量值与其平均数的离差除以标准差,用Z表示。 Z值的均值等于0,标准
差等于1。
xixzis是对某一个值在一组数据中相对位置的度量。
z>0说明观测值大于均值。 z<0说明观测值小于均值。 z=说明观测值比均值大倍的标准差
第四章
假设检验
推断统计:在搜集、整理观测样本数据的基础上,对有关总体作出推断
特点:随机性的观测样本数据以及问题的条件和假定,对未知事物作出以概率形式表述的推断
参数估计
(1)基本概念:
点估计:用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。
例如,在估计总体方差时, 点估计量常用的评价准则:
和都可作为估计量。
a无偏性:估计量的数学期望与总体待估参数的真值相等: b有效性:在两个无偏估计量中方差较小的估计量较为有效。
c一致性:指随着样本容量的增大,估计量越来越接近被估计的总体参数。
区间估计:根据事先确定的置信度1-α给出总体参数的一个估计范围。
置信度1-α的含义是:在同样的方法得到的所有置信区间中,有100(1-α)% 的区间包含总体参数。
抽样分布:区间估计的理论基础。
置信是什么?
从总体中抽取一个样本量为n的随机样本,我们可以计算出统计量的一个值。 如果从总体中重复抽取样本量为n的样本,就可以得到统计量的多个值。 统计量的抽样分布就是这一统计量所有可能值的概率分布。 抽样分布的要点:
抽样分布是统计量的分布而不是总体或样本的分布。
在统计推断中总体的分布一般是未知的,不可观测的(常常被假设为正态分布)。
样本数据的统计分布是可以直接观测的,最直观的方式是直方图,可以用来对总体分布进行检验。 抽样分布一般利用概率统计的理论推导得出,在应用中也是不能直接观测的。其形状和参数可能完全不同 于总体或样本数据的分布。
. 样本均值的均值(数学期望)等于总体均值 . 样本均值的方差等于总体方差的1/n
样本均值抽样分布结论:一般的,当总体服从 N(μ,σ2 )时,来自该总体的容量为n的样本的均值x也服从 正态分布,X 的期望为μ,方差为σ2/n。即x~N(μ,σ2/n)。 σ2=10/4=
中心极限定理:从均值为μ,方差为2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为2/n的正态分布。
简单随机抽样、重复抽样时,样本均值抽样分布的标准差等于n,这个指标在统计上
称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。
简单随机抽样、不重复抽样时,样本均值抽样分布的方差略小于重复抽样的方差,等于
2n•Nn,称为有限总体校正系数,当抽样比(n/N)<时可以忽略有限总体校正系数。 N1总体均值和比例的区间估计 总体比例的区间估计:当进行区间估计。(样本比例记为
时总体比例的置信区间可以使用正态分布来
,总体比例记为π)
置信区间的补充说明: P=1-α 置信度含义的说明:
必要样本容量的确定:
(1)实际抽样误差:总体参数估计值与真实值之间的绝对离差称为实际抽样误差,是一个随机变量。
(2)抽样平均误差:样本均值的标准差,也就是前面说的标准误。它反映样本均值(或比例)与总体均值(比例)的平均差异程度。
例如对简单随机抽样中的样本均值
有:
我们通常说“抽样调查中可以对抽样误差进行控制”,就是指的抽样平均误差。影响因素:1.总体内部的差异程度;2.样本容量的大小;3.抽样的方式方法
(3)最大允许误差:在确定置信区间时样本均值(或样本比例)加减的量,一般用E来表示,等于置信区间长度的一半。置信区间=
是人为确定的,是调查者在相应的置信度下可以
容忍的误差水平。
必要样本量受以下几个因素的影响;
(1)总体标准差。总体的变异程度越大,必要样本量也就越大。 (2)最大允许误差。最大允许误差越大,需要的样本量越小。 (3)置信度1-α。要求的置信度越高,需要的样本量越大。
(4)抽样方式 。其它条件相同,在重复抽样、不重复抽样;简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。 简单随机抽样时的必要样本量(计算题):
估计总体比例时样本容量的确定:
上式中的总体比例π可以通过以下方式估计: 根据历史资料确定 通过试验性调查估计 取为
估计总体均值时样本容量的确定:
上式中的总体方差σ可以通过以下方式估计: 根据历史资料确定
通过试验性调查估计
不重复抽样时的必要样本量比重复抽样时的必要样本量要小。 n0是重复抽样时的必要样本容量。
例子 需要多大规模的样本才能在 90% 的置信水平上保证均值的误差在 ± 5 之内? 前期研究表明总体标准差为 45.
95% 置信度时,Z22/2=,π未知时取为
假设检验:
事先作出关于总体参数、分布形式、相互关系等的命题(假设),然后通过样本信息来判断该命题是否成立(检验)。
利用假设检验进行推断的基本原理是:小概率事件在一次试验中几乎不会发生。 假设检验的步骤:
(1)根据实际问题提出一对假设(零假设和备择假设);
(2)构造某个适当的检验统计量,并确定其在零假设成立时的分布; (3)根据观测的样本计算检验统计量的值;
(4)根据犯第一类错误的损失规定显着性水平 a ;
(5)确定决策规则:根据确定检验统计量的临界值并进而给出拒绝域,或者计算p值等; 下结论:根据决策规则得出拒绝或不能拒绝零假设的结论。注意“不能拒绝零假设”不同于“接受零假设”。
零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假设中; 单侧检验时零假设和备择假设的选择
(1)通常把研究者要证明的假设作为备择假设; (2)将所作出的声明作为原假设; (3)把现状作为原假设;
(4)把不能轻易否定的假设作为原假设;
检验统计量:用来决策(拒绝或不能拒绝零假设)时依据的样本统计量。不同的总体参数适用的检验统计量不同。
拒绝域:检验统计量取值的集合,当根据样本得到的检验统计量的值属于该集合时,拒绝零假设。
假设检验中的两类错误与显着性水平 两类错误的概率
两类错误不可避免;要减小其中的一种错误,通常只能通过增加另一种错误的方法做到。 假设检验中通常首先控制控制第一类错误的概率不超过某个小概率水平?,在满足该条件的要 求下使犯第二类错误的概率尽量小。 允许犯第一类错误的概率α称为
显着性水平。
通常α取为,,。
根据α可以确定检验统计量的临界值,并根据统计量的样本观测值和临界值得出检验结论。
单个总体的假设检验 均值的双边检验
某厂生产的铁丝抗拉力服从正态分布,其平均抗拉力为570kg,标准差为8kg。由于更换原材料,标准差不会变,但不知其抗拉力是否不变,从中抽取10个样品,得平均抗拉力575kg,能否认为平均抗拉力无显着变化?(α=) 1、提出零假设和备择假设 2、选择检验统计量:根据题意 3、检验统计量的观测值 4、显着性水平等于。
确定了零假设和备择假设,就可以确定是什么检验了,σ是标准差,s是方差 均值右侧检验问题
平均说来,一个有丈夫和两个孩子的家庭主妇每周用于与家庭有关活动的时间不超过55h。抽取8个家庭主妇的每周工作时间作为样本,得到数据:58,52,64,63,59,62,62,55。有妇联组织认为每周平均工作时间超过55小时,你的结论是什么?(假设总体为正态分布) 解:
根据题意,
观测到的t统计量的值等于 值=>,不能拒绝方差相等的原假设。 双侧检验时,对于tp分布,用表示t统计量的观测值,p值=P(ttobs),右侧时,p=P(ttobs);
在方差相等时下面一行的输出结果无效。
在方差不相等时上面一行的输出结果无效。 左侧p=P(ttobs)
描述统计结果
p值=>,拒绝均值相等的原假设。
p>α=,所以不能拒绝
两个总体均值的比较:检验统计量的选择
两个总体方差相等和不相等时,t统计量的计算公式不同。因此,检验两个总体的均值是否相等时,需要先检验两个总体的方差是否相等!
例:某农业研究所研制出一种新的化肥,现要研究施肥土地的小麦产量是否比不施肥土地的小
麦产量有显着提高,随机抽取几块土地进行试验。选10快试验田不施肥,结果最后的每亩产量数据为(单位:公斤):172、158、186、214、224、228、196、190、202、170。另选8块试验田施肥,结果最后的每亩产量数据为:252、204、234、246、222、210、244、212。试检验施肥和不施肥的平均亩产量有无显着差异(α=)
两个总体均值差异的检验(匹配样本)
如果两个样本是非独立的匹配样本,即两个样本中的数据是一一对应的,这时对两个总体的均值的比较,就是对两个样本对应数据之差的检验。
第5章 方差分析
方差分析:主要目的是通过对方差的比较来检验多个均值之间差异的显着性(可看作t检验的扩展,只比较两
个均值时与t检验等价),主要用于研究一个定量因变量与一个或多个定性自变量的关系。 基本原理:
1.比较两类误差,以检验均值是否相等 2.比较的基础是方差比
3.如果系统(处理)误差显着地不同于随机误差,则均值就是不相等的;反之,均值就是相等的 4.误差是由各部分的误差占总误差的比例来测度的 随机误差
因素的同一水平(总体)下,样本各观察值之间的差异。比如,同一专业下不同毕业生的起薪是不同的。 这种差异可以看成是随机因素的影响,称为随机误差 系统误差
因素的不同水平(不同总体)下,各观察值之间的差异。比如,不同专业之间的毕业生的起薪之间的差异 这种差异可能是由于抽样的随机性所造成的,也可能是由于专业所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差
组内方差(within groups):因素的同一水平(同一个总体)下样本数据的方差;比如,专业一的毕业生的起薪的方差;组内方差只包含随机误差
组间方差(between groups):因素的不同水平(不同总体)下各样本之间的方差;比如,四个专业的毕业生的起薪的方差;组间方差既包括随机误差,也包括系统误差
方差分析中的基本假设
(1)每个总体都应服从正态分布 (2)各个总体的方差必须相同
(3)观察值是独立的。(比如,每个专业毕业生的起薪与其他专业毕业生的起薪相互独立) 组间方差 组内方差 单因素方差分析:一个自变量(因素)和一个因变量。 张三的起薪 SSE =专业1的平均起薪+随机因素带来的影响 MSE =总平均起薪+专业1的平均值与总平均值之差 nr + 随机因素带来的影响 SSAMSAr1
Xijiijiij
各离差平方和的大小与观察值的多少有关,为了消除观察值多少对离差平方和大小的影响,需将其平均,即均方。 计算方法是用离差平方和除以相应的自由度
三个平方和的自由度分别是
SST 的自由度为n-1,n为全部观察值的个数 SSA的自由度为r-1,其中r为因素水平的个数 SSE 的自由度为n-r
若因素A的不同水平对结果没有影响,那么在组间方差中只包含有随机误差,两个方差的比值会接近1;反之,该比值就会大于1;当这个比值大到某种程度时,就可以说因素A对结果有显着影响。
~F(r-1,n-r)
F检验
当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即 上面公式
方差分析的步骤
1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设:
零假设:各总体的均值之间没有显着差异,即 备择假设:至少有两个均值不相等,即 3.根据样本计算F统计量的值。
4.确定决策规则,根据p值与α的比较得出检验结论。
在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1, n-r) 的 F 分布。
p值0.0020.05拒绝原假设 0.7 0.60.5正态检验Qq图 F检验的临界值和拒绝域 事后检验:在方差分析中,当零假设被拒绝时我们可以确定至少有两个总体的均值有显着差异。但要进一步检验哪些均值之间有显着差异还需要采用多重比较的方法进行分析。 0.40.30.20.10用LSD法进行多重比较的步骤(注意有木有“0”) p-值 α 拒绝域 第六章 非参数检验
实际值 44.555.56 临界值00.511.522.53 3.5也称与总体分布无关的检验 特点:(1)非参数检验不需要严格假设条件,因而比参数检验适用范围广。
(2)非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据,而参数检验 通常只能用于定量数据的分析。
(3)非参数检验的功效要低于参数检验方法(前提:参数检验和非参数检验都适用)
以下情况首选非参数方法:
(1)参数检验中的假设条件不满足,从而无法应用。例如总体分布为偏态或分布形式未知,且样本为小样本时。
(2)检验中涉及的数据为定类或定序数据。
(3)所涉及的问题中并不包含参数,如判断某样本是否为随机样本,判断某样本是否来自正态分布等。
(4)对各种资料的初步分析。
2拟合优度检验:在总体分布未知时,根据来自总体的样本,检验关于总体分布的假设
的一种检验方法。
df为自由度,为卡方
2特别说明:
(1)大样本、每个单元中的期望频数大于等于5时可以使用c2分布。 (2)小样本时应该按照精确方法计算得到的 p 值得出结论。
(3)c2检验也可以按照同样的思想对正态分布或者任何其他分布进行检验,但主要用于对定性变量的检验。
(4)c2检验也可以用于对两个总体分布的比较。
单样本 K-S 检验Kolmogorov Smirnov
通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分布总体
定义:若对每一个x值来说,如果经验分布函数与特定分布函数的拟合程度很高,则有理由认为样本数据来自具有该理论分布的总体。
检验统计量:
根据检验统计量的精确分布或渐近分布,我们可以计算出假设检验的 p 值,从而得出检验的结论。
例子结果分析:
在 K-S 检验中如果使用的是小样本,则根据渐近分布计算 p 值的误差会增大。
单样本中位数的符号检验
在数据呈偏态分布的情况下,我们可能对总体的中位数更感兴趣,希望对总体的中位数作出推断,这时可以使用符号检验(sign test)的方法。在非正态总体小样本的情况下,如果要对总体分布的位置进行推断,由于 t 检验不适用,也可使用符号检验的方法。
例子:在某地区随机调查了60个家庭的月收入(数据文件:家庭月收入.sav)。根据样本数据能否认为总体中家庭月收入的中位数等于5000元(显着性水a=)?
步骤:每个数据都减去零假设中的中位数,记录其差值的符号。计算正、负符号的个数(差值为0的不计算在任何一个中),当原假设为真时二者应该很接近;若两者相差太远,就有理由拒绝原假设。 当正号和负号个数之和大于25时,可以按照正态分布进行近似计算。
匹配样本的非参数检验
如果 t 检验的假设条件不满足,t 检验就不适用了。可以用符号检验或 Wilcoxon 符号秩检验替代。
匹配样本数据为
用对应的数据相减得到新的序列 :
零假设:差值总体的中位数=0; 备择假设:差值总体的中位数≠0。
对于差值序列中正数的个数和负数的个数,按照符号检验的方法进行假设检验。
Wilcoxon 符号秩检验
步骤:(1)计算差值绝对值的秩
(2)将差值绝对值从小到大排序,其位次就是的秩(rank),等于 0 值不参与排序 秩就是该数据按照升序排列之后,每个观测值的位置。
数据中有相同的数值,称为结。结中数字的秩为它们所占位置的平均值 (3)分别计算出差值序列中正数的秩和以及负数的秩和。
显然,如果零假设成立,W+与W-应该比较接近。如果二者过大或过小,则说明零假设不成立。
(4)将正数的秩和或者负数的秩作为检验统计量,根据其统计分布计算 p 值,从而得出检验的结论。
符号检验在匹配数据分析应用中只用到差值的符号,而对差值数值的大小未能考虑,因而失去了部分信息。Wilcoxon符号秩检验既考虑差值的符号,又考虑差值的大小,因此在所需的假设条件满足时其功效比符号检验高。
Wilcoxon符号秩检验也可以用于单样本中位数的非参数检验,这时只需要将第二个样本的值设为零假设中的数值即可。
这里看不懂?!
两个独立样本的 Wlicoxon 秩和检验
如果零假设成立,在样本量相同的情况下两个秩和应该比较接近;样本量不同的情况下平均秩和的平均秩应该比较接近。否则就说明两个总体的中位数是不相等的。 例子:
已知某企业职工的收入调查中20名本科毕业生和15名研究生的月收入(元) (数据文件:本科研究生
收入.sav) ,试比较本科生和研究生的收入水平(显着性水平a =)。
由于收入一般是右偏分布,因此不适合用t检验进行分析。我们用Wilcoxon符号秩检验来比较两个总体的中位数。检验的零假设和备择假设如下: H0:本科和研究生月收入的中位数相等; H1:本科和研究生月收入的中位数不相等。
根据精确检验的p值,在显着性水平大于时我们应该拒绝原假设,结论是本科与研究生的收入的中位数不相等。
Kruskal-Wallis检验
也是根据秩和来构造检验统计量的。Kruskal-Wallis检验是Wlicoxon秩和检验的推广,用来对多个总体的中位数进行比较。将所有样本的数据合在一起,从小到大排序得到每个数值的秩,然后计算各样本的秩和以及平均秩。如果各组没有显着性差异,则各组的平均秩应该趋于相等;如果各组的平均秩相差较大,则各组中位数有显着性差异的可能性较大。
小结:
第七章 相关与回归分析
函数关系:当一个变量取一定数值时,另一个变量有确定值与之相对应。
相关关系:当一个变量取一定数值时,与之相对应的另一变量的数值虽然不确定,但它仍按
某种规律在一定的范围内变化。
相关分析:研究变量之间相关的方向和相关的程度,但无法给出变量间相互关系的具体形式,
因而无法从一个变量推测另一个变量。
回归分析:可以确定变量之间相互关系的具体形式(回归方程),确定一个变量对另一个变
量的影响程度,并根据回归方程进行预测。(更具体)
散点图是观察两个变量之间的相关程度和类型最直观的方法。
是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。
在散点图中习惯上把因变量绘制在纵轴上。 相关系数是用来衡量变量之间相关程度的指标,根据变量的多少和属性可以有多种不同的计算方法。
皮尔逊相关系数衡量两个定量变量之间线性相关程度的常用指标。 通常以ρ表示总体的相关系数,以r表示样本的相关系数。
相关系数r 的特征
当r>0时,X与Y为正相关;当r<0时,X与Y为负相关。 没有单位,取值介于-1与1之间。
绝对值越接近1说明关系越密切。r=1为完全正相关,而r=-1为完全负相关。
注意:当r=0时,只是表明两个变量之间不存在线性关系,它并不意味着X与Y之间不存在其他类型的相关关系。
线性关系度量说明
样本相关系数r的抽样分布
的抽样分布随总体相关系数和样本容量的大小而变化
当样本数据来自正态总体时,随着n的增大,r 的抽样分布趋于正态分布,尤其是在总体相关系ρ数很小或接近0时,趋于正态分布的趋势非常明显。而当远离0时,除非n非常大,否则r的抽样分布呈现一定的偏态。
2.当ρ为较大的正值时,r 呈现左偏分布;当ρ为较大的负值时,r 呈现右偏分布。只有当ρ接近于0,而样本容量n很大时,才能认为r是接近于正态分布的随机变量.
注意:相关关系≠因果关系!
典型的错误推断:
统计分析表明,庆祝生日次数越多的人越长寿。因此,庆祝生日有利于健康。
调查表明,世界各国人均电视机拥有量与预期寿命存在很强的正相关性。因此,电视机拥有量越高,预期寿命越长。
对小学各年级学生的抽样调查表明,学生的识字水平与他们鞋子的尺寸高度正相关。因此,学生穿的鞋越大,他的识字水平就越高。
一元线性回归分析
回归函数描述因变量y如何依赖于自变量x和随机误差项ε 的方程。 总体回归函数的形式如下:
样本回归函数是对总体回归函数的一个样本估计结果。
样本回归函数与总体回归函数区别
1、总体回归线是未知的,只有一条。样本回归线是根据样本数据拟合的,每抽取一组样本,便可以拟合一条样本回归线。
ˆ和ˆ 2、总体回归函数中的β0和β1是未知的参数,表现为常数。而样本回归函数中的01是随机变量,其具体数值随所抽取的样本观测值不同而变动。
3、总体回归函数中的et是Yt与未知的总体回归线之间的纵向距离,它是不可直接观测的。而样本回归函数中的et是Yt与样本回归线之间的纵向距离,当根据样本观测值拟合出样本回归线之后,可以计算出et的具体数值。
一元线性回归模型的统计假设
在满足一系列假设条件的情况下,最小二乘估计量是方差最小线性无偏估计量。 需要的基本假设条件包括:
最小二乘估计
最小二乘回归直线的性质
最小二乘估计量的有关性质
最小二乘估计量是Y的线性函数。
最小二乘估计量是无偏估计量,它的期望值等于总体的真实值; 最小二乘估计量在所有线性无偏估计量中具有最小方差。
例子※
上式中,是边际消费倾向,表示人均可支配收入每增加1千元,人均消费支出平均会增加千元;是自主性消费,即与收入无关的最基本人均消费为千元。
将X201129代入回归方程,得到2011年人均消费支出的预测值。
一元线性回归方程的评价和检验
拟合优度 1、决定系数
(1)回归直线与各观测数据的接近程度称为回归直线的拟合优度。 (2)度量回归直线的拟合优度最常用的指标是决定系数。
(3)该指标是建立在对总离差平方和进行分解的基础之上的。 何为“离差”?
因变量 y 相对于其均值的差异称为离差,用yy来表示。
离差来源于两个方面:
由于自变量 x 的取值不同造成的
除 x 以外的其他因素(如x对y的非线性影响、测量误差等)的影响 离差平方和的分解
ˆiy)2ˆi)2(yiySSR(y2(三个平方和的意义)R 1SST(yiy)2(yiy)2(1)总平方和(SST)反映因变量的 n 个实际观察值与其均值的总离差
(2)回归平方和(SSR)反映自变量 x 的变化对因变量 y 取值变化的影响,也即因变量的理论值与其样本均值的离差,或者说,是由于 x 与 y 之间的线性关系引起的 y 的取值变化,也称为可解释的平方和。
(3)残差平方和(SSE)不能由回归直线加以解释的残差平方和。
反映除 x 以外的其他因素对 y 取值的影响,也称为不可解释的平方和或剩余平方和。 决定系数为: 其取值为:
R2的取值范围是[0,1]。
R2越接近于1,表明回归平方和占总离差平方和的比例越大,回归直线与各观测点越接近,回归直线的拟合程度就越好。
在一元线性回归中,相关系数r的平方等于判定系数,符号与自变量x的系数一致。因此可以根据回归结果求出相关系数。
所有的回归程序都会给出R2的值。
2、估计标准误
是对各观测数据在回归直线周围分散程度的一个度量值,可以证明,是对误差项ε的标准差σ的无偏估计。
式中p为模型中自变量的个数,一元回归中等
于1。
估计标准误反映了用估计的回归方程拟合因变量Y时平均误差的大小。
各观测数据越靠近回归直线,估计标准误就越小,回归直线对各观测数据的代表性就越好。 与R2不同的是,估计标准误是一个有单位的绝对数。
回归分析中的显着性检验
回归分析中的显着性检验包括两方面的内容:
(1)是对单个自变量回归系数的显着性检验( t检验);
(2)是对整个回归方程(所有自变量回归系数)显着性的整体检验( F检验)。
在一元线性回归模型中,由于只有一个解释变量X,因此,对β1=0的t检验与对整个方程的F检验是等价的。
单个回归系数显着性的t检验
第1步:提出假设。一般为H0:10,H1:10对于一些具体问题也可能需要进行单侧检验。 第2步:确定检验的统计量。可以证明在回归模型的基本假设成立时,如果零假设正确,则有
第3步:计算检验统计量的样本观测值或p值。 第4步:进行决策
根据显着性水平a和自由度df=n-2确定检验统计量的临界值,tt/2时拒绝H0; 或者p值< a时拒绝H0。
为什么要检验回归系数是否等于0?
如果总体中的回归系数等于零,说明相应的自变量对y缺乏解释能力,在这种情况下我们可能需要从回归方程中去掉这个自变量。
我们也可以对常数项进行t检验,但大部分情况下我们并不关心常数项的检验结果。
通常情况下即使常数项在模型中不显着,我们也会在模型中保留常数项,去掉常数项可能会对模型带来不利影响。
方程整体显着性的F检验
第1步:提出假设。在一元回归为
H0:10(两个变量之间的线性关系不显着)
H1:10(两个变量之间的线性关系显着)
第2步:确定检验统计量:
MSR称为均方回归,MSE称为均方残差。
第3步:计算检验统计量的样本观测值或p值。 第4步:进行决策:
根据显着性水平α和自由度(1,n-2)确定检验统计量的临界值F,F>F时拒绝H0; 或者p值<α时拒绝H0,
如果不能拒绝零假设,则说明所有自变量作为一个整体对因变量都没有解释能力。 注意这里F检验是右侧检验!
例子:
根据表7-1的数据,建立北京市城镇居民消费模型,以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)为自变量,建立一元线性回归模型,并对回归方程进行显着性检验。假设2011年北京市人均年可支配收入为万元,请根据已建立的消费模型预测2011年人均消费支出。 将X201129带入代入回归方程,得到2011年人均消费支出的预测值。
多元线性回归模型
总体回归函数:
样本回归方程:
多元线性回归模型的基本假设
完全的多重共线性:一个自变量可以表示为其他自变量和常数项的线性函数,例如x1 = 2x2 +x3 +5。
例题
根据表7-1的数据,建立北京市城镇居民消费模型,要求以人均年消费性支出(变量Y)为因变量,以人均年可支配收入(变量X)和家庭恩格尔系数(变量Z)为自变量,建立二元线性回归模型。 二元线性回归方程为:
变量X的回归系数为,其统计含义:在居民家庭恩格尔系数不变的条件下,居民可支配收入每上升1个单位(千元),居民消费“平均”上升个单位(千元);变量Z的回归系数为,说明在居民可支配收入不变的条件下,居民恩格尔系数每降低1个单位(即降低1%),居民消费水平就会“平均”上升个单位(千元)。
多元回归方程的检验
R2的正的平方根称为复相关系数,它度量了因变量同p个自变量的相关程度。 修正的判定系数
2n-1和n-p-1实际分别是总离差平方和与残差 平方和的自由度。RaR2
Ra2小于1,但未必都大于0,在拟合极差的情况下, Ra2有可能为负值。
修正后的拟合优度R2可能为负值.
①可决系数为。这个指标可用于计算“复相关系数” (正的平方根)。 ②修正的可决系数为。
③回归标准误差为,其统计含义为,根据该回归方程对城镇居民消费水平进行拟合时,平均的估计误差为元。
多元回归中的t检验
非线性回归分析
(1)如果y 与 x 之间不是线性关系,通常可以通过变量代换使其转换成线性模型,然后再对线性模型进行估计。
(2)但并非所有的非线性模型都可以化为线性模型。
逐步回归的思想
(1)将变量逐一引入回归方程,先建立与y相关最密切的一元线性回归方程,然后再找出第二个变量,建立二元线性回归方程,…。
(2)在每一步中都要对引入变量的显着性作检验,仅当其显着时才引入,而每引入一个新变量后,对前面已引进的变量又要逐一检验,一旦发现某变量变得不显着了,就要将它剔除。 这些步骤反复进行,直到引入的变量都是显着的而没有引入的变量都是不显着的时,就结束挑选变量的工作。
(3)可以设定引入和删除变量的条件。
违背回归模型统计假设的常见情况
(1)异方差
ESS/(np1)2R1当回归模型随机误差项at的方差不为常数时,即为异方差现象:var(t)2
TSS/(n1)当异方差出现时,回归模型的估计量不再具有最小方差的性质,因此不再保持有效性;同时,n121(1R)我们此前介绍的t检验也失效,无法对回归系数的显着性进行检验。
np1(2)序列相关
序列相关的后果:
(1)尽管普通最小二乘估计量仍为无偏估计量,但不再具有最小方差的性质,即不是“最优线性无偏估计量”;
(2)回归系数的显着性检验失效。
(3)多重共线性
a完全多重共线性:一个自变量可以表示为其他自变量(包括常数项)的线性函数。 后果:违背基本假设,模型的参数无法估计。需要去掉一个自变量。 例如:在以下回归模型中,存在完全多重共线性: 因变量:消费
自变量:第一产业增加值;第二产业增加 值;第三产业增加值;GDP。
b.高度多重共线性:如果某两个或多个解释变量之间出现了高度的相关性,则称为高度多重共线性。
例如:在以下回归模型中,应该会有高度的多重共线性: 因变量:消费; 自变量:收入、 财富。
高度多重共线性的后果
(1)并不违背OLS的基本假设,存在高度多重共线性时,正规方程仍有唯一解。因此 OLS仍然是BLUE (Best Linear Unbiased Estimate)的。 (2)t检验值会减小、系数的显着性下降。
(3)对于一组存在高度多重共线性的自变量,很难对单个系数进行解释。 (4)有可能导致各回归系数的符号同我们的预期相反 。
第8章 时间序列分析
时间序列的构成成分
一个时间序列中可能包含以下四个(或者几个)组成成分:
长期趋势:现象在较长时期内持续发展变化的一种趋向或状态-----可以分为线性趋势和非线性趋势
季节变动:由于季节的变化引起的现象发展水平的规则变动。季节变动产生的原因主要有两个: 自然因素;人为因素: 法律、习俗、制度等
“季节变动”也用来指周期小于一年的规则变动,例如24小时内的交通流量。 循环波动 与长期趋势不同,它不是朝着单一方向的持续运动,而是涨落相间的波浪式起伏变化;
与季节变动不同,它的波动时间较长,变动的周期长短不一,变动的规则性和稳定性较差。 不规则波动
时间序列分解模型
时间序列的组成成分之间可能是乘法或加法的关系,因此,时间序列可用多种模型进行分解
加法模型 YtTtStCtIt
假设时间序列中每一个指标数值都是长期趋势、季节变动、循环变动和不规则变动四种成分的总和,在加法模型中,四种成分之间是相互独立的。某种成分的变动并不影响其他成分的变动。各个成分都用绝对量表示,并且具有相同的量纲。 乘法模型 YtTtStCtIt
加乘混合模型 YtTtStCtIt YtTtStCtIt如果季节变动(循环变动、不规则变动)依赖于长期趋势的变化,则宜选用乘法模型或加乘混合模型,否则可以考虑加法模型。
时间序列长期趋势分析
通过测定和分析过去一段时间之内现象的发展趋势,来认识和掌握现象发展变化的规律性; 通过分析现象的长期趋势,为统计预测提供必要的条件; 移动平均法
在原时间序列内依次求连续若干期的平均数作为其某一期的趋势值,如此逐项递移求得一系列的移动平均数,形成一个新的、派生的平均数时间序列。
把时间序列连续 N 期的平均数作为最近一期(第t期)的趋势值:
中心化移动平均
把时间序列连续 N 期的平均数作为 N 期的中间一期的趋势值。
(1)如果N为奇数,则把N期的移动平均值作为中间一期的趋势值。
(2)如果N为偶数,须将移动平均数再进行一次两项移动平均,以调整趋势值的位置,使趋势值能对准某一时期)。相当于对原序列进行一次N+1 项移动平均,首末两个数据的权重为,中间数据权重为1。 例子
作用:一般用来消除不规则变动的影响,把序列进行修匀(smoothing),以观察序列的其他成分
(1)如果移动平均的项数等于季节长度则可以消除季节成分的影响;
(2)如果移动平均的项数等于平均周期长度的倍数则可以消除循环变动的影响。
2、时间回归法(趋势方程法)
使用回归分析中的最小二乘法,以时间 t或 t 的函数为自变量拟合趋势方程。
习惯上t的取值为从1到n。也可以取其他值,不同取值方法不会影响到方程的拟合效果。 常用的趋势方程包括:
趋势方程可以使用回归分析中的最小二乘法进行估计。
测定季节变动,一般需要先从原时间序列中剔除可能存在的长期趋势,乘法模型中的季节
成分通过季节指数来反映。季节指数(季节比率):反映季节变动的相对数。 1、月(或季)的指数之和等于1200%(或400%) 。
2、季节指数离100%越远,季节变动程度越大,数据越远离其趋势值。 用移动平均趋势剔除法计算季节指数
1、计算移动平均值(TC),移动期数为4或12,注意需要进行移正操作。 2、从序列中剔除移动平均值(SI=Y/TC)。
4、如果季节系数之和不等于为400%或1200%,需要用调整系数调整。 季节调整
将原序列实际数值除以季节指数可以消除季节变动的影响。此数列通常被称为“季节调整后的序列”, 它便于较为准确地分析长期趋势和循环变动。
循环变动分析
剩余法------先从原时间序列中消除长期趋势、季节变动和不规则变动,求得循环变动指数。 计算步骤:
1、如果有季节成分,计算季节指数,得到季节调整后的数据(TCI); 2、根据趋势方程从季节调整后的数据中消除长期趋势得到序列CI;
3、对消去季节成分和趋势值的序列CI进行移动平均以消除不规则波动 ,得到循环变动成分C。
=
不规则变动
分解预测法就是依据时间序列的结构模型将序列中的各种非随机成分分离出来,分别进行预
测,最后将各部分预测值合成总的预测值。这种方法直观易懂并可以提供较多有用的信息,从不同的方面把握数据的变化特征。 例子
指数平滑是一种加权移动平均,用来描述时间序列的变化趋势,也可以实现时间序列的预
测。
指数平滑预测的基本原理是:用时间序列过去取值的加权平均作为未来的预测值,离当前
时刻越近的取值,其权重越大。
单参数(一次)指数平滑 适用场合
(1)单参数(一次)指数平滑适用于不包含长期趋势和季节成分的时间序列预测 (2)如果原序列有增长趋势,平滑序列将系统的低于实际值 (3)如果原序列有下降趋势,平滑序列将系统的高于实际值 平滑系数的确定
(1)选择合适的平滑系数是提高预测精度。
(2)如果序列波动较小,则平滑系数应取小一些 初始预测值的确定 (1)等于第一个观测值
(2)等于前k个值的算术平均
适用场合:单参数(一次)指数平滑适用于不包含长期趋势和季节成分的平稳时间序列预测
平滑序列低于真实值!单参数模型不合适
双参数指数平滑包含两个平滑参数
适用于包含长期趋势、不包含季节成分的时间序列预测。
其基本思想是:首先对序列选定其随时间变化的线性模型,再通过对序列水平和增长量分别进行平滑来估计模型中的参数。
三参数指数平滑
包含季节变动(和长期趋势)的时间序列进行预测常用温特(Winter)指数平滑法。
依据时间序列的乘法(或加法)结构模型,在每一步平滑中将原始时间序列分解成趋势成分和季节成分并对它们分别进行平滑。 从图形看拟合效果很好
ARIMA模型(Auto-regressive Integrated Moving Average)
随机过程理论角度考察时间序列
时间序列每一个时间点上的取值都具有随机性
时间序列可以看做一个离散随机过程的一次样本实现
随机时间序列分析方法可以更精确地刻画时间序列随时间变化的规律 平稳性是指时间序列没有明显的长期趋势、循环变动和季节变动。
ˆY(1)YˆYt1ttˆYt(1)Yt1(1)2Yt2(1)t1Y1(1)tY1 如果序列的一、二阶矩存在,而且对任意时刻满足:(1)均值为常数;(2)协方差仅与时间间隔有关,则称该序列为宽平稳时间序列,也叫广义平稳时间序列。
1 平稳时间序列模型
(1)ARMA模型的基本形式 P阶自回归模型-AR(p)
是互不相关的序列,且均值为零,方差为a2(即为白噪声序列),一般假定其服从正态分布。
为零均值平稳时间序列 滑动平均模型-MA(q)
自回归滑动平均模型 ARMA(p,q) ARMA=AR+MA
自相关函数(ACF)描述时间序列观测值与其过去的观测值之间的线性相关性。
偏自相关函数(PACF)描述在给定中间观测值的条件下时间序列观测值与其过去的观测值之间的线性相关性。
Box-Jenkins 的模型识别方法
Xt1Xt1pXtpat拖尾是指以指数率单调或振荡衰减,截尾是指从某个开始非常小(不显着非零)。
Xt1Xt1
pXtpat1at1qatq
一个零均值时间序列的ACF和PACF 模型阶数的确定
AIC信息准则和BIC信息准则(也称为Schwarz信息准则,记为SIC),使准则函数达到极小
的是最佳模型。
ARMA模型的适应性检验
主要是残差序列的独立性检验。残差序列可由估计出来的模型计算得到。如果残差序列的自相关函数不显着非零,可以认为是独立的。
Xt
由下图可以看出残差不存在显着的自相关性,可以认为是独立的,因而模型是适应的。
MA(2)模型
建立AR(1)模型的结果
差分(Difference)运算
用原序列的每一个观测值减去其前面一个观测值,就形成原序列的一阶差分序 对一阶差分后的序列再进行一次差分运算,称为二阶差分。 一阶差分可以消除原序列存在的线性趋势
大部分经济时间序列进行一阶或二阶差分后都可以变为平稳序列。对有季节性的时间序列,进行 季节差分(当年的可以消除季节成分:
12XtXtXt12ARIMA(1,1,0)模型
第9章 统计指数
统计指数简称指数,有广义和狭义两种定义。
广义:一切用来测定社会经济现象数量变动或差异程度的相对数。 狭义:用来表明复杂总体数量特征综合变动一种特殊相对数 。 简单总体:构成总体的各事物在数量上能够直接加总。如钢产量。
复杂总体:构成总体的各种事物具有不同的使用价值和/或计量单位,各事物在数量上不能直接加总。如家电、衣服、食品的数量直接相加就没有经济意义。
质量指数:表明总体在内涵上数量变动的指数,如价格指数、平均工资指数、产品单位成本
指数、劳动生产率指数等。其中使用最多的是价格指数(Price index) 。
总指数的计算方法
简单指数
综合指数法:先综合、后对比。
缺点:不同商品的数量和价格不能直接加总;指数大小受商品计量单位的影响。 平均指数法:先对比,后综合
缺点:没有适当考虑不同商品的重要程度。
加权综合指数
计算步骤:确定同度量因素;将同度量因素固定在同一时期;将两个总量指标进行对比。 1、同度量因素固定在基期 拉斯拜尔指数或拉氏指数
2.同度量因素固定在报告期 派许指数或帕氏指数:
选择公式时习惯的做法是:
计算数量指数时把同度量因素固定在基期(拉氏指数)。 计算质量指数时把同度量因素固定在报告期(帕氏指数)
加权平均指数
加权算术平均指数:用基期价值p0q0作为权数时一般用加权算术平均的公式计算: 这时算术平均指数与拉氏指数相一致,可以看成拉氏公式的变形。 加权算术平均指数主要用来计算数量指数。
销售量总体增长了%。因销售量的变动而使销售额增长 = 元。
加权调和平均指数
这时调和平均指数与帕氏指数相一致,可以看成帕氏公式的变形。 加权调和平均指数主要用来计算质量指数。 固定加权算术平均指数
加权综合指数与加权平均指数联系与区别
联系:都是计算总指数的方法,在一定的权数条件下具有变形关系。 区别:
出发点不同。加权综合指数是先综合后对比,而加权平均指数则是先对比后综合;
所用权数不同。加权综合指数所使用的权数是不同时期的数量或者价格,加权平均指数所使用的权数是不同时期的价值; 依据的资料不同。加权综合指数需要有总体的全面资料,而加权平均指数既适用于全面的资料,也适用于非全面的资料。
加权综合指数与加权平均指数联系与区别
联系:都是计算总指数的方法,在一定的权数条件下具有变形关系。 区别:
出发点不同。加权综合指数是先综合后对比,而加权平均指数则是先对比后综合;
所用权数不同。加权综合指数所使用的权数是不同时期的数量或者价格,加权平均指数所使用的权数是不同时期的价值; 依据的资料不同。加权综合指数需要有总体的全面资料,而加权平均指数既适用于全面的资料,也适用于非全面的资料。 消费者价格指数
第10章因子分析
因子分析是一种数据简化的技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。
原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
称f1,f2,f3是不可观测的潜在因子。24个变量共享这三个因子,但是每个变量又有自己的个性,不被包含的部分i ,称为特殊因子。
因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。 对变量进行研究称为R型因子分析,对样品进行研究称为Q型因子分析。
公共因子Fj的方差贡献
因子分析的步骤
主成分法:求解变量X的前m个主成分,进行简单后的数学变换就可以得到因子载荷矩阵 在因子分析中可以对因子载荷阵进行旋转,使每个变量仅在一个公共因子上有较大的载荷,而在其余的公共因子上的载荷比较小。通过旋转,因子可以有更加明确的含义。
把得到的因子作为自变量来做回归分析,对样本进行分类或评价,就需要计算每个个体在每个因子上的得分。
因子得分有多种计算方法,常用的一种是回归法。 如果对变量都进行了标准化,则模型中没有常数项。
因子分析的步骤
1.根据问题选取原始变量;
2.求其相关阵R,探讨其相关性;
3.从R求解初始公共因子F及因子载荷矩阵A(主成分法); 4.因子旋转,分析因子的含义; 5.计算因子得分函数;
6.根据因子得分值进行进一步分析(例如综合评价) 旋转后的系数矩阵中在一行中一般只有一个较大的值
标准化的简历格式分≈×第一个因子+×第二个因子+×第三个因子×第四个因子 标准化的外貌分≈×第一个因子+×第二个因子+×第三个因子+×第四个因子
第一个因子在 外貌志向抱负等变量上有较大的系数,可以抽象为应聘者主客观工作能力因子
第11章 聚类分析
对于一个数据集,人们既可以对观测值(个案,样品)来分类(称为Q型聚类),也可以对变量(指标)进行分类(称为R型聚类)。这两种聚类在数学上是对称的,没有什么不同。 距离,主要用于样品(观测)间相似性度量 相似系数,主要用于变量间相似性度量
常用的距离的计算方法
设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。
相似系数的计算方法
(1) 夹角余弦* 两变量Xi与Xj看作n维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算 (2) Pearson相关系数 Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为
系统聚类法(分层聚类)
开始时,有多少样本点就是多少类。
第一步先把最近的两类(点)合并成一类; 然后再把剩下的最近的两类合并成一类;
这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。 最短距离法 最长距离法 重心法 Ward法(离差平方和法)等 离差平方和法:合并离差平方和变动最小的两个类 红绿(1,2,7,9) 离差平方和增加-= 黄绿(4,5,7,9) 离差平方和增加-=
K-均值聚类
可以避免下述问题,适用于样本点很多的情况,但要求你先确定要分多少类。
计算出不同样品或变量的距离,还要在聚类的每一步都要计算“类间距离”,特别是当样本的容量很大时,需要占据非常大的计算机内存空间。
先确定k个点为“凝聚点”(SPSS软件自动确定);也就是说,把这k个点作为k类中每一类的凝聚点。
然后,根据和这k个点的距离远近,把所有点分成k类。再把这k类的中心(均值)作为新的凝聚点,再重新按照距离分类。
如此叠代下去,直到达到停止叠代的要求(比如,各类不变化)。
第十二章 列联表
二维列联表中的两个变量是否相互独立 : 2检验
22H0:婚姻状况和幸福状况这两个变量相互独立; (11.5)(21.5)0.5H1:婚姻状况和幸福状况不相互独立。
与单个变量的2检验类似
基本原理
行变量和列变量相互独立时,每个单元格频数的期望值为
如果期望频数和观测频数相差不大,则零假设可能是正确的;如果二者差别很大,则零假设可能不成立。 检验统计量
在零假设成立时,该统计量近似服从自由度为2的分布。当该统计量的值很大(或p值很小)时,就可以拒绝零假设,认为这两个变量不相互独立。
因篇幅问题不能全部显示,请点此查看更多更全内容