白话统计学07—统计显著性与置信区间(学习分享)

引言:

从总体中选择样本,从样本中收集数据,用数据来推断总体。故需要一些方法来确定样本数据有多大意义,样本在何种程度可以正确推断总体。

一、 统计显著性详解

(一)样本和总体

理解统计显著性的第一步是理解样本(sample) 与总体( population)的差异。样本是从总体中收集数据的个体或群体。总体是样本理应代表的个体或群体。统计显著性指样本统计量代表抽样总体中某种真实现象的可能性或概率。

(二)概率

因为抽样分布具有稳定的数学性质,在具体总体参数已知或假定的条件下,我们能够利用标准误计算出从给定容量的样本中获得特定样本统计值的精确概率。

例,假设从制鞋业早前的研究中,我们了解到中国成年男性总体的平均鞋码是40,因为这是关于总体的已知均值,所以这一均值是参数不是统计量。现在假设随机抽取1 000人的一个样本,发现其平均鞋码是41,标准差是2。注意到样本均值(41) 来自样本,而不是总体,所以它是一个统计量。

比较两个均值,可以很容易的知道两个均值是不同的,但我们需要挖掘更深层次的信息——样本均值和总体均值之间的差异是否具有统计显著性。换言之,我们要去明确样本均值与总体均值之间的差异是否过大,以至于不可能碰巧发生。

如果总体均值是40,样本是随机选择获得的,那么我们只能以一定概率或机会最终得到一个平均鞋码是41的1000个男人的样本。在统计学中,这种机会称为随机抽样误差(random sampling error)或随机机会(random chance)。在该例子中,我们可以将标准差除以样本容量的平方根,从而计算出标准误(参见第6章的计算公式)。

在已知标准误是0. 06时,我们可以计算t值,以此确定总体均值果真为40的条件下随机抽样得到样本均值为41的大致概率(注意:样本容量大于120的话,t分布与正态分布几乎一样,故大样本的t值、z值及其相应概率都几乎一样)。

根据t值查阅t分布表,当自由度为无穷大(即大于120)时,所得t值大于等于16. 67的概率小于0.001。故我们可以得出结论:当总体均值为40时,得到样本均值是41的随机机会远小于0.001 (见图7—1)。根据小概率事件原理(即当p<0.05时,可以认为其代表的事情不发生),我们可以认为该假设不会发生,故可以认为抽样样本所代表总体与已知的总体并不一致。

(三)假设检验与第I类错误

  • 零假设(H0):计算统计量并决定结果是否统计显著之前,应该建立一种标准或基准。为此,需提出一种假设并确立一种准则用于决定保留或拒绝假设。原假设是零假设(null hypothesis,H0),意味着效应不存在。例如,前面例子中的零假设为样本均值与总体均值相同,这一假设用符号表示为:

  • 替代假设(HA或H1):零假设的一种替代就是对立假设。

 

①如果替代假设是两者不等,则构成双尾替代假设(two tailed alternative hypothesis),用符号表示为:

②如果替代假设是定向的(大于或者小于),则构成单尾替代假设(one tailed alternative hypothesis)。用符号表示为:

  •  检验水准α:如果零假设成立,单纯偶然因素使统计量与总体参数之间出现某种差异的可能性有多少?社会科学的惯例是取这一水平为0.05。换言之,我们一般可以认为:如果偶然得到样本均值与总体参数之间某一差异的概率小于5%,我们就能拒绝零假设,并做出结论,认为统计量和参数之间的差异不是偶然的(图7-2和图7- 3分别说明双尾和单尾的假设检验)

  •  I类错误:如果我们拒绝零假设,实质上相当于认为样本统计量与总体参数之间的差异不是随机抽样误差造成的。然而,单纯的随机抽样误差或者偶然因素也有可能导致非常大的差异。在鞋码的例子中,我随机选取1000名男人,可能纯属偶然,我选中了平均鞋码为44的1 000名男人。这种可能性极端地低,终归还是有可能的。但因为此时p值(p<0. 001)远小于a水平(a=0. 05),所以我拒绝零假设,并得出结论:认为样本均值实际上异于总体均值,这种情况并非单纯由随机抽样的偶然因素所致。我在得出这一结论时有可能犯错误。事实上,即使零假设为真,我也可能把它拒绝掉。此类错误(拒绝了正确的零假设)称为第I类错误。

    • 如何控制I类错误:为尽量避免犯此类错误,可能选择一个更保守的a水平来提高安全性,比如说除非p值小于0.01,否则将保留零假设。在鞋码的例子中,p值既远小于0.05,又远小于0.01,所以我们拒绝零假设,并做出结论:有理由认为由1 000名男人组成的现有样本比一般总体具有统计上显著的更大平均鞋码。由于我们的结论认为这一差异不是由随机抽样误差或者偶然因素所致,因此可以断定我们的样本代表了一个不同的总体。也许均值为40的样本代表了早些年代出生的男人总体,而均值为41的样本代表了更晚出生的男人总体。

二、 效应量详解

    1.样本容量效应

无论对于哪种统计量(z 分数、t值、F值、相关系数等)而言,确定其是否统计显著都有同样的通用程序,如下:

计算标准误使用的所有公式都意味着,样本容量越大,标准误越小。如果我们将标准误代人t值、F值和z值的计算公式,就会发现标准误越小,这些值就越大,进而被认为统计显著的可能性就越大。故由于样本容量的这种效应,当样本容量很大时,即使样本统计量与总体参数之间只有很小的差异也可以是统计显著的。图7- 4用图形描述了样本容量对统计显著性的影响。左侧图形表示样本均值与总体均值之间存在相当大的差异,但这一差异却不是统计显著的,原因是样本容量太小(n=4)。相反,右侧图形表示样本均值与总体均值之间较小的差异也能产生统计显著的结果。

    2.效应量——解决样本容量效应

意义:效应量代表以标准差为单位所度量的差异,大多数推断统计量(例如t值、F值、相关系数)代表着以标准误为单位的差异,从过程中消去了样本容量。

    3. 样本容量越大,从总体中抽取的样本就更可能代表总体。

近年来一些研究者倡导更多关注效应量而不是统计显著性,但《白话统计学》的作者建议我们在阅读和研究中应该同时考虑效应量和统计显著性。尽管样本不同的样本都能得到完全一样的效应量。但因为样本容量越大,从总体中抽取的样本就更可能代表总体,所以在其他条件(如抽样方式、研究方法等)相同情况下使用大样本容量的研究结果比使用小样本容量的结果更加可信。

三、置信区间详解

利用概率和置信区间(Confidence interval,CI)均可以对总体参数的近似值进行一种可靠的预测。大多数时候,研究者对置信区间包含总体参数的确信程度是95%或99%,对应的p值分别是0.05和0.01。表7-1提供了95%置信区间和99%置信区间的计算公式。

故95% CI 为(40.88,41.12),得出结论95%的把握确信总体均值包含在40. 88~41.12的区间之内。这一置信区间中没有包含我们假设的总体均值40. 00,这意味着我们的样本很可能不代表平均鞋码为40的总体。

若想构造一个区间以更大把握包含总体均值,则只需增加区间宽度即可。利用这些数据计算99%置信区间,先从附录B中查得df=∞,a=0. 01的双尾检验,对应t99=2. 576。代入置信区间公式:

CI99 = 41±(2.576)x (0.06) = 41±0.15

故99%CI(40.85,41.15),得出结论认为有99%的把握确信总体均值包含在40. 85~41.15的区间内。这一区间同样不包含40. 00。从中可知,样本均值10在p<0.01的水平上统计显著地异于假设的总体均值40.00。

四、总结

近几十年以来,统计显著性一直是社会科学家确定分析结果是否具有重要意义的衡量标准。但统计显著性检验严重依赖于样本容量,即大样本条件下,即使微小的效应往往也是统计显著的,而小样本条件下,相当大的效应也可能不具备统计显著性。正因为如此,实际显著性的测度近年来也日益受到重视并被要求。在后面的学习中,我们逐渐开始处理一些推断统计量的实例~~加油鸭

参考书籍:
1.中国人民大学出版社《白话统计学》第3版   蒂莫西.C.厄丹(Timothy C.Urdan)著,彭志文译
统计与绘图

白话统计学08—相关性分析(学习分享)

2019-11-30 18:01:11

统计与绘图

白话统计学06—标准误(学习分享)

2019-11-30 18:02:46

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索