统计学重点部分归纳

2020-10-17 来源：一二三四网

第三章

全距也称极差，是一组数据的最大值与最小值之差。

R=最大值-最小值

组距分组数据可根据最高组上限 -最低组下限计算。

四分位数：数据按大小顺序排序后把分割成四等分的三个分割点上的数值。

SPSS中四分位数的位置为(n+1)/4， 2(n+1)/4， 3 (n+1)/4。

Excel中四分位数的位置分别为(n+3)/4， 2(n+1)/4，（3 n+1)/4。

如果四分位数的位置不是整数，则四分位数等于前后两个数的加权平均。

四分位距等于上四分位数与下四分位数之差IQR=Q3-Q1

反映了中间50%数据的离散程度，数值越小说明中间的数据越集中。不受极端值的影响。可以用于衡量中位数的代表性。

方差是一组数据中各数值与其算术平均数离差平方的平均数，标准差是方差正的平方根。是反映定量数据离散

程度的最常用的指标。

离散系数：标准差与其相应的均值之比，表示为百分数。

特点：（1）反映了相对于均值的相对离散程度；（2）可用于比较计量单位不同的数据的离散程度；（3）计量单位相同时，如果两组数据的均值相差悬殊，离散系数可能比标准差等绝对指标更有意义

数据分布的不对称性称作偏态。

偏态系数就是对数据分布的不对称性（即偏斜程度）的测度。

峰度：数据分布的扁平或尖峰程度。

峰度系数：数据分布峰度的度量值，对数据分布尖峰或扁平程度的测度，一般用K表示。箱线图

用于描述数据分布特征的一种图形。

最简单的箱线图可以根据数据的最大值、最小值和三个四分位数绘制的：先根据三个四分位数Q1、Q2、Q3画出中间的盒子，然后由盒子两端分别向最大、最小值连线。在SPSS中标准的箱线图一般是这样绘制的：先根据三个四分位数Q1、Q2、Q3画出中间的盒子；

由Q3至Q3+*IQR区间内的最大值向盒子的顶端连线，由Q1至*IQR区间内的最小值向盒子的底部连线；处于Q3+*IQR至Q3+3*IQR或者 *IQR至Q1-3*IQR范围内的数据用圆圈标出；大于Q3+3*IQR或者小于Q1-3*IQR的用星号标出。例子：

数据的 Z值也称标准化值，等于变量值与其平均数的离差除以标准差，用Z表示。 Z值的均值等于0，标准

差等于1。

xixzis是对某一个值在一组数据中相对位置的度量。

z>0说明观测值大于均值。 z<0说明观测值小于均值。 z=说明观测值比均值大倍的标准差

第四章

假设检验

推断统计：在搜集、整理观测样本数据的基础上，对有关总体作出推断

特点：随机性的观测样本数据以及问题的条件和假定，对未知事物作出以概率形式表述的推断

参数估计

（1）基本概念：

点估计：用估计量的数值作为总体参数的估计值。一个总体参数的估计量可以有多个。

例如，在估计总体方差时，点估计量常用的评价准则：

和都可作为估计量。

a无偏性：估计量的数学期望与总体待估参数的真值相等： b有效性：在两个无偏估计量中方差较小的估计量较为有效。

c一致性：指随着样本容量的增大，估计量越来越接近被估计的总体参数。

区间估计：根据事先确定的置信度1-α给出总体参数的一个估计范围。

置信度1-α的含义是：在同样的方法得到的所有置信区间中，有100(1-α)% 的区间包含总体参数。

抽样分布：区间估计的理论基础。

置信是什么？

从总体中抽取一个样本量为n的随机样本，我们可以计算出统计量的一个值。如果从总体中重复抽取样本量为n的样本，就可以得到统计量的多个值。统计量的抽样分布就是这一统计量所有可能值的概率分布。抽样分布的要点：

抽样分布是统计量的分布而不是总体或样本的分布。

在统计推断中总体的分布一般是未知的，不可观测的（常常被假设为正态分布）。

样本数据的统计分布是可以直接观测的，最直观的方式是直方图，可以用来对总体分布进行检验。抽样分布一般利用概率统计的理论推导得出，在应用中也是不能直接观测的。其形状和参数可能完全不同于总体或样本数据的分布。

. 样本均值的均值（数学期望）等于总体均值 . 样本均值的方差等于总体方差的1/n

样本均值抽样分布结论：一般的，当总体服从 N(μ,σ2 )时，来自该总体的容量为n的样本的均值x也服从正态分布，X 的期望为μ，方差为σ2/n。即x～N(μ,σ2/n)。 σ2=10/4=

中心极限定理：从均值为μ，方差为2的一个任意总体中抽取容量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为2/n的正态分布。

简单随机抽样、重复抽样时，样本均值抽样分布的标准差等于n，这个指标在统计上

称为标准误。统计软件在对变量进行描述统计时一般会输出这一结果。

简单随机抽样、不重复抽样时，样本均值抽样分布的方差略小于重复抽样的方差，等于

2n•Nn，称为有限总体校正系数，当抽样比（n/N）<时可以忽略有限总体校正系数。 N1总体均值和比例的区间估计总体比例的区间估计:当进行区间估计。（样本比例记为

时总体比例的置信区间可以使用正态分布来

，总体比例记为π）

置信区间的补充说明: P=1-α 置信度含义的说明:

必要样本容量的确定：

（1）实际抽样误差：总体参数估计值与真实值之间的绝对离差称为实际抽样误差，是一个随机变量。

（2）抽样平均误差：样本均值的标准差，也就是前面说的标准误。它反映样本均值（或比例）与总体均值（比例）的平均差异程度。

例如对简单随机抽样中的样本均值

有：

我们通常说“抽样调查中可以对抽样误差进行控制”，就是指的抽样平均误差。影响因素：1.总体内部的差异程度；2.样本容量的大小；3.抽样的方式方法

（3）最大允许误差：在确定置信区间时样本均值（或样本比例）加减的量，一般用E来表示，等于置信区间长度的一半。置信区间=

是人为确定的，是调查者在相应的置信度下可以

容忍的误差水平。

必要样本量受以下几个因素的影响；

（1）总体标准差。总体的变异程度越大，必要样本量也就越大。（2）最大允许误差。最大允许误差越大，需要的样本量越小。（3）置信度1-α。要求的置信度越高，需要的样本量越大。

（4）抽样方式。其它条件相同，在重复抽样、不重复抽样；简单随机抽样与分层抽样等不同抽样方式下要求的必要样本容量也不同。简单随机抽样时的必要样本量(计算题）：

估计总体比例时样本容量的确定：

上式中的总体比例π可以通过以下方式估计：根据历史资料确定通过试验性调查估计取为

估计总体均值时样本容量的确定：

上式中的总体方差σ可以通过以下方式估计：根据历史资料确定

通过试验性调查估计

不重复抽样时的必要样本量比重复抽样时的必要样本量要小。 n0是重复抽样时的必要样本容量。

例子需要多大规模的样本才能在 90% 的置信水平上保证均值的误差在 ± 5 之内? 前期研究表明总体标准差为 45.

95% 置信度时，Z22/2=，π未知时取为

假设检验：

事先作出关于总体参数、分布形式、相互关系等的命题（假设），然后通过样本信息来判断该命题是否成立（检验）。

利用假设检验进行推断的基本原理是：小概率事件在一次试验中几乎不会发生。假设检验的步骤：

（1）根据实际问题提出一对假设（零假设和备择假设）；

（2）构造某个适当的检验统计量，并确定其在零假设成立时的分布；（3）根据观测的样本计算检验统计量的值；

（4）根据犯第一类错误的损失规定显着性水平 a ；

（5）确定决策规则：根据确定检验统计量的临界值并进而给出拒绝域，或者计算p值等；下结论：根据决策规则得出拒绝或不能拒绝零假设的结论。注意“不能拒绝零假设”不同于“接受零假设”。

零假设和备择假设是互斥的，它们中仅有一个正确；等号必须出现在零假设中；单侧检验时零假设和备择假设的选择

（1）通常把研究者要证明的假设作为备择假设；（2）将所作出的声明作为原假设；（3）把现状作为原假设；

（4）把不能轻易否定的假设作为原假设；

检验统计量：用来决策（拒绝或不能拒绝零假设）时依据的样本统计量。不同的总体参数适用的检验统计量不同。

拒绝域：检验统计量取值的集合，当根据样本得到的检验统计量的值属于该集合时，拒绝零假设。

假设检验中的两类错误与显着性水平两类错误的概率

两类错误不可避免；要减小其中的一种错误，通常只能通过增加另一种错误的方法做到。假设检验中通常首先控制控制第一类错误的概率不超过某个小概率水平?，在满足该条件的要求下使犯第二类错误的概率尽量小。允许犯第一类错误的概率α称为

显着性水平。

通常α取为,,。

根据α可以确定检验统计量的临界值，并根据统计量的样本观测值和临界值得出检验结论。

单个总体的假设检验均值的双边检验

某厂生产的铁丝抗拉力服从正态分布，其平均抗拉力为570kg，标准差为8kg。由于更换原材料，标准差不会变，但不知其抗拉力是否不变，从中抽取10个样品，得平均抗拉力575kg，能否认为平均抗拉力无显着变化？（α=） 1、提出零假设和备择假设 2、选择检验统计量：根据题意 3、检验统计量的观测值 4、显着性水平等于。

确定了零假设和备择假设，就可以确定是什么检验了，σ是标准差，s是方差均值右侧检验问题

平均说来，一个有丈夫和两个孩子的家庭主妇每周用于与家庭有关活动的时间不超过55h。抽取8个家庭主妇的每周工作时间作为样本，得到数据：58，52，64，63，59，62，62，55。有妇联组织认为每周平均工作时间超过55小时，你的结论是什么？（假设总体为正态分布）解：

根据题意，

观测到的ｔ统计量的值等于值=>，不能拒绝方差相等的原假设。双侧检验时，对于tp分布，用表示t统计量的观测值，p值=P（ttobs），右侧时，p=P(ttobs)；

在方差相等时下面一行的输出结果无效。

在方差不相等时上面一行的输出结果无效。左侧p=P（ttobs）

描述统计结果

p值=>，拒绝均值相等的原假设。

p>α=,所以不能拒绝

两个总体均值的比较：检验统计量的选择

两个总体方差相等和不相等时，t统计量的计算公式不同。因此，检验两个总体的均值是否相等时，需要先检验两个总体的方差是否相等！

例：某农业研究所研制出一种新的化肥，现要研究施肥土地的小麦产量是否比不施肥土地的小

麦产量有显着提高，随机抽取几块土地进行试验。选10快试验田不施肥，结果最后的每亩产量数据为（单位：公斤）：172、158、186、214、224、228、196、190、202、170。另选8块试验田施肥，结果最后的每亩产量数据为：252、204、234、246、222、210、244、212。试检验施肥和不施肥的平均亩产量有无显着差异（α=）

两个总体均值差异的检验（匹配样本）

如果两个样本是非独立的匹配样本，即两个样本中的数据是一一对应的，这时对两个总体的均值的比较，就是对两个样本对应数据之差的检验。

第5章方差分析

方差分析：主要目的是通过对方差的比较来检验多个均值之间差异的显着性（可看作t检验的扩展，只比较两

个均值时与t检验等价），主要用于研究一个定量因变量与一个或多个定性自变量的关系。基本原理：

1.比较两类误差，以检验均值是否相等 2.比较的基础是方差比

3.如果系统(处理)误差显着地不同于随机误差，则均值就是不相等的；反之，均值就是相等的 4.误差是由各部分的误差占总误差的比例来测度的随机误差

因素的同一水平(总体)下，样本各观察值之间的差异。比如，同一专业下不同毕业生的起薪是不同的。这种差异可以看成是随机因素的影响，称为随机误差系统误差

因素的不同水平(不同总体)下，各观察值之间的差异。比如，不同专业之间的毕业生的起薪之间的差异这种差异可能是由于抽样的随机性所造成的，也可能是由于专业所造成的，后者所形成的误差是由系统性因素造成的，称为系统误差

组内方差(within groups)：因素的同一水平(同一个总体)下样本数据的方差；比如，专业一的毕业生的起薪的方差；组内方差只包含随机误差

组间方差(between groups)：因素的不同水平(不同总体)下各样本之间的方差；比如，四个专业的毕业生的起薪的方差；组间方差既包括随机误差，也包括系统误差

方差分析中的基本假设

（1）每个总体都应服从正态分布（2）各个总体的方差必须相同

（3）观察值是独立的。（比如，每个专业毕业生的起薪与其他专业毕业生的起薪相互独立）组间方差组内方差单因素方差分析：一个自变量（因素）和一个因变量。张三的起薪 SSE =专业1的平均起薪+随机因素带来的影响 MSE =总平均起薪+专业1的平均值与总平均值之差 nr + 随机因素带来的影响 SSAMSAr1

Xijiijiij

各离差平方和的大小与观察值的多少有关，为了消除观察值多少对离差平方和大小的影响，需将其平均，即均方。计算方法是用离差平方和除以相应的自由度

三个平方和的自由度分别是

SST 的自由度为n-1，n为全部观察值的个数 SSA的自由度为r-1，其中r为因素水平的个数 SSE 的自由度为n-r

若因素A的不同水平对结果没有影响，那么在组间方差中只包含有随机误差，两个方差的比值会接近1；反之，该比值就会大于1；当这个比值大到某种程度时，就可以说因素A对结果有显着影响。

~F（r-1,n-r)

F检验

当H0为真时，二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布，即上面公式

方差分析的步骤

1.检验数据是否符合方差分析的假设条件。 2.提出零假设和备择假设：

零假设：各总体的均值之间没有显着差异，即备择假设：至少有两个均值不相等，即 3.根据样本计算F统计量的值。

4.确定决策规则，根据p值与α的比较得出检验结论。

在零假设成立时组间方差与组内方差的比值服从服从自由度为(r-1, n-r) 的 F 分布。

p值0.0020.05拒绝原假设 0.7 0.60.5正态检验Qq图 F检验的临界值和拒绝域事后检验:在方差分析中，当零假设被拒绝时我们可以确定至少有两个总体的均值有显着差异。但要进一步检验哪些均值之间有显着差异还需要采用多重比较的方法进行分析。 0.40.30.20.10用LSD法进行多重比较的步骤（注意有木有“0”） p-值 α 拒绝域第六章非参数检验

实际值 44.555.56 临界值00.511.522.53 3.5也称与总体分布无关的检验特点：（1）非参数检验不需要严格假设条件，因而比参数检验适用范围广。

（2）非参数检验几乎可以处理包括定类数据和定序数据在内的所有类型的数据，而参数检验通常只能用于定量数据的分析。

（3）非参数检验的功效要低于参数检验方法（前提：参数检验和非参数检验都适用）

以下情况首选非参数方法：

（1）参数检验中的假设条件不满足，从而无法应用。例如总体分布为偏态或分布形式未知，且样本为小样本时。

（2）检验中涉及的数据为定类或定序数据。

（3）所涉及的问题中并不包含参数，如判断某样本是否为随机样本，判断某样本是否来自正态分布等。

（4）对各种资料的初步分析。

2拟合优度检验：在总体分布未知时，根据来自总体的样本，检验关于总体分布的假设

的一种检验方法。

df为自由度，为卡方

2特别说明：

（1）大样本、每个单元中的期望频数大于等于5时可以使用c2分布。（2）小样本时应该按照精确方法计算得到的 p 值得出结论。

（3）c2检验也可以按照同样的思想对正态分布或者任何其他分布进行检验，但主要用于对定性变量的检验。

（4）c2检验也可以用于对两个总体分布的比较。

单样本 K-S 检验Kolmogorov Smirnov

通过对两个分布差异的分析确定能否认为样本的观察值来自所设定的理论分布总体

定义：若对每一个x值来说，如果经验分布函数与特定分布函数的拟合程度很高，则有理由认为样本数据来自具有该理论分布的总体。

检验统计量：

根据检验统计量的精确分布或渐近分布，我们可以计算出假设检验的 p 值，从而得出检验的结论。

例子结果分析：

在 K-S 检验中如果使用的是小样本，则根据渐近分布计算 p 值的误差会增大。

单样本中位数的符号检验

在数据呈偏态分布的情况下，我们可能对总体的中位数更感兴趣，希望对总体的中位数作出推断，这时可以使用符号检验（sign test）的方法。在非正态总体小样本的情况下，如果要对总体分布的位置进行推断，由于 t 检验不适用，也可使用符号检验的方法。

例子：在某地区随机调查了60个家庭的月收入（数据文件：家庭月收入.sav）。根据样本数据能否认为总体中家庭月收入的中位数等于5000元（显着性水a=）？

步骤：每个数据都减去零假设中的中位数，记录其差值的符号。计算正、负符号的个数（差值为0的不计算在任何一个中），当原假设为真时二者应该很接近；若两者相差太远，就有理由拒绝原假设。当正号和负号个数之和大于25时，可以按照正态分布进行近似计算。

匹配样本的非参数检验

如果 t 检验的假设条件不满足，t 检验就不适用了。可以用符号检验或 Wilcoxon 符号秩检验替代。

匹配样本数据为

用对应的数据相减得到新的序列：

零假设：差值总体的中位数=0；备择假设：差值总体的中位数≠0。

对于差值序列中正数的个数和负数的个数，按照符号检验的方法进行假设检验。

Wilcoxon 符号秩检验

步骤：（1）计算差值绝对值的秩

（2）将差值绝对值从小到大排序，其位次就是的秩（rank），等于 0 值不参与排序秩就是该数据按照升序排列之后，每个观测值的位置。

数据中有相同的数值，称为结。结中数字的秩为它们所占位置的平均值（3）分别计算出差值序列中正数的秩和以及负数的秩和。

显然，如果零假设成立，W+与W-应该比较接近。如果二者过大或过小，则说明零假设不成立。

（4）将正数的秩和或者负数的秩作为检验统计量，根据其统计分布计算 p 值，从而得出检验的结论。

符号检验在匹配数据分析应用中只用到差值的符号，而对差值数值的大小未能考虑，因而失去了部分信息。Wilcoxon符号秩检验既考虑差值的符号，又考虑差值的大小，因此在所需的假设条件满足时其功效比符号检验高。

Wilcoxon符号秩检验也可以用于单样本中位数的非参数检验，这时只需要将第二个样本的值设为零假设中的数值即可。

这里看不懂？！

两个独立样本的 Wlicoxon 秩和检验

如果零假设成立，在样本量相同的情况下两个秩和应该比较接近；样本量不同的情况下平均秩和的平均秩应该比较接近。否则就说明两个总体的中位数是不相等的。例子：

已知某企业职工的收入调查中20名本科毕业生和15名研究生的月收入（元）（数据文件：本科研究生

收入.sav），试比较本科生和研究生的收入水平（显着性水平a =）。

由于收入一般是右偏分布，因此不适合用t检验进行分析。我们用Wilcoxon符号秩检验来比较两个总体的中位数。检验的零假设和备择假设如下： H0：本科和研究生月收入的中位数相等； H1：本科和研究生月收入的中位数不相等。

根据精确检验的p值，在显着性水平大于时我们应该拒绝原假设，结论是本科与研究生的收入的中位数不相等。

Kruskal-Wallis检验

也是根据秩和来构造检验统计量的。Kruskal-Wallis检验是Wlicoxon秩和检验的推广，用来对多个总体的中位数进行比较。将所有样本的数据合在一起，从小到大排序得到每个数值的秩，然后计算各样本的秩和以及平均秩。如果各组没有显着性差异，则各组的平均秩应该趋于相等；如果各组的平均秩相差较大，则各组中位数有显着性差异的可能性较大。

小结：

第七章相关与回归分析

函数关系：当一个变量取一定数值时，另一个变量有确定值与之相对应。

相关关系：当一个变量取一定数值时，与之相对应的另一变量的数值虽然不确定，但它仍按

某种规律在一定的范围内变化。

相关分析：研究变量之间相关的方向和相关的程度，但无法给出变量间相互关系的具体形式，

因而无法从一个变量推测另一个变量。

回归分析：可以确定变量之间相互关系的具体形式（回归方程），确定一个变量对另一个变

量的影响程度，并根据回归方程进行预测。（更具体）

散点图是观察两个变量之间的相关程度和类型最直观的方法。

是在直角坐标系中用相对应的两个变量值作为图中一个点的横坐标和纵坐标描点得到的图形。

在散点图中习惯上把因变量绘制在纵轴上。相关系数是用来衡量变量之间相关程度的指标，根据变量的多少和属性可以有多种不同的计算方法。

皮尔逊相关系数衡量两个定量变量之间线性相关程度的常用指标。通常以ρ表示总体的相关系数，以r表示样本的相关系数。

全部栏目

统计学重点部分归纳