白话统计学15—因子分析与信度分析

01

引言

在研究中,有些现象不能被直接测量,往往需要通过其他多个观测变量的指标来间接反映。例如,脑部疾病患者的意识清醒状态不能被直接测量,但可以通过患者的语言能力、辨识能力、记忆能力、理解能力和思维逻辑能力等可观测的指标进行构造。

研究者使用多种测量来反映一个结果(意识清醒状态)时,必须进行某些统计分析以检验同一概念内各观测之间的一致程度,以及代表一个概念的观测与代表另一个概念的观测之间的区分程度。在此分析中,因子分析(factor analysis)和信度分析(reliability analysis)可以实现这一目的。

本小节,我们主要了解这两类统计分析,尽管这些分析比较复杂且变种很多(特别是因子分析),但了解一些重要概念以帮助我们更好地理解某些类型的文献。

02

因子分析详解

1.何谓因子分析?

一种用来在众多变量中辨别、分析和归结出变量间的相互作用关系并用简单的变量(因子)来描述这种关系的数据分析方法。

2.何谓因子?

少数几个假象的变量表示众多观测变量基本的数据结构,这几个假想的变量能够反映原来众多变量的信息。原始的变量是可观测的显在变量,而假想的变量是不可观测的潜在变量,称为因子。

3.因子分析的应用前提?

  • 所有变量必须是连续测度( 即定距量表),而且服从正态分布。

  • 足够大的样本容量。一般的经验规则:因子分析中的第一个观测变量需要30个案例,每增加一个观测变量需要增加10个案例。如果分析9个观测变量,样本中至少应该包括30+80=110个案例。为了更好的展示因子分析的应用条件,表1展示不同类型潜变量和显性变量应该使用的分析模型:

4.因子分析应用场景示例


研究者观察5个生理指标:

X1:收缩压;

X2:舒张压;

X3:心跳间隔;

X4:呼吸间隔;

X5:舌下温度。


从生理学的知识可以知道,这5个指标主要受自主神经的交感神经和副交感神经支配,而交感神经和副交感神经的状态又不能直接测量。若用F1和F2分别表示交感神经和副交感神经这两个因子,则可以设想,可测指标Xi是不可测因子Fj的线性函数,即Fj与各Xi满足线性回归,在加上其他对Xi有影响的因子ei,则各观测指标Xi与各不可测因子Fj的关系可表示为:

X1=a11F1+a12F2+e1

X2=a21F1+a22F2+e2

X3=a31F1+a32F2+e3

X4=a41F1+a42F2+e4

X5=a51F1+a52F2+e5

通过上面的式子,我们可以看出:我们试图用F1和F2来解释5个指标Xi由于每个指标Xi均和F1和F2有关,故F1和F2为各Xi的公因子或共性因子(common factor),而ei仅有相应的Xi有关,用于解释独特的部分,故称eiXi的特殊因子(specific factor)。通过此模型,我们的目的就是从一组观测数据出发,找出起支配作用的较少个数的公因子。如在此处的案例中,我们可以尝试找出F1和F2

5.探索性因子分析

在大多数据分析的时候,我们并不知道众多数据背后潜在的主要因子,也许是2个,也有可能是3个、4个或者5个,这就是探索性因子分析的意义所在。

首先找出哪一些观测之间的相关性最强,然后将其归类为一个因子,然后再找出哪一些观测之间的相关性次强,然后将其归类为另一个因子。故因子分析首先创建的因子能够最多地解释全部观测的变异,创建的第二个因子能够解释第二多的变异,依此类推。最后,当新建的因子不再能够显著增加对变异的解释力时,探索性因子分析就告一段落,接下来就要对结果做出解释。

6.结果解释中的重要指标

  • 因子载荷(factor loading)        一个观测对一个因子的载荷越强,这一观测就越多地定义这一因子,其与相关系数的含义相近,通常取值范围为-1.0~1.0 (但存在因子载荷可能大于1. 0或小于-1.0)。

  • 公共度hi2与因子贡献gj2:

    • 由公式推导出:1= hi2+s2

      其中hi2反应全体公因子对原始指标Xi的影响,称为“公共度”或“共性方差(communality)”。当hi2=1时,s2=0,说明Xi只由公因子表示,而与特殊因子无关;当hi2→0时,表明原始指标Xi受公因子的影响不大,而主要由特殊因子来描述。故“公共度”hi2反应了原始指标Xi对全体公因子的依赖程度。

    • hi2相对应的gj2则表示的是一个公因子Fj对各原始指标的影响,gj2越大,则说明Fj对原始指标的影响越大。由于标准化后,全部原始指标的总方差和为原始指标的个数m,故gj2/m表示公因子Fj对原始指标方差的贡献率。

7.因子旋转(factor rotation)

因子分析创建因子的过程要求不同因子彼此区别,以区分不同因子所代表的实际意义。故需要使用因子旋转的方法对不同因子的载荷进行区分。

最常用的因子旋转法是正交法,因子分析对因子进行旋转以最大化各因子间的区别(每一个公因子上的因子负荷的平方向0或1两级分化,即扩大因子负荷在不同观测间的差别,使各公因子尽可能支配不同的原始指标)。此外,还有其他的正交旋转法,以及斜交旋转法,每种方法各有特色。

补充因子旋转方法有:

正交旋转:包括方差最大法、四次方最大旋转、均方最大旋转,类似于正交分解,旋转后得到的公因子保持互不相关。

斜交旋转:不能保证各公因子的互不相关性,允许创建相关的因子。实际研究中的因子之间都存在一定程度的相关,所以使用斜交因子旋转方法有其必要。

03

在实例中解释因子分析结果

利用某医院30例脑出血患者治疗前后5项指标的相对改变值的数据进行因子分析,部分数据如下(表2):

在SPSS中输入数据,进行降维→因子分析:

以上为主成分分析的结果,表中第一列为5个成分;第二列为对应的“特征值”,表示所解释的方差的大小;第三列为对应的成分所包含的方差占总方差的百分比;第四列为累计的百分比。后面3列展示抽取成分的特征。

可根据自己的研究情况,选择“特征值”大于1的成分作为主成分(SPSS的默认选择),也可根据累计百分比进行选择(一般以大于70%为宜),故小编在这里选择前2个主成分,他们合计能解释83.140%的方差。由于其余成分包含的信息较少,故舍去。

在输出的公因子方差表中:“提取”的值越大说明变量可以被公因子表达的越好,一般大于0.5即可以说是可以被表达,但是更好的是要求大于0.7才足以说明变量能被公因子表的很合理。在本例中可以看到,除平均动脉血压外,“提取”的值都是大于0.7。

下面展示的是碎石图:

碎石图来源于地质学的概念。在岩层斜坡下方往往有很多小的碎石,其地质学意义不大。

碎石图以特征值为纵轴,成分为横轴。前面陡峭的部分特征值大,包含的信息多,后面平坦的部分特征值小,包含的信息也小。由图直观的看出,成分1和2包含了大部分信息,从3开始就进入平台了。

接下来,输出提取的成分矩阵:

上表中的数值为公因子与原始变量之间的相关系数,绝对值越大,说明关系越密切。

  • 公因子1和脑灌注压、平均动脉血压、收缩压和舒张压的相对改变值有较大的载荷,且分布较为均匀。
  • 公因子2在颅内压的相对改变指标上有较大的载荷。
  • 基于以上探究,可初步认为因子1为反映脑动脉硬化的因子,因子2为反映颅内压改变的因子

虽然未旋转的因子分析已能较好的解释各因子代表的意义,但为了展示因子旋转的作用,令SPSS输出方差最大法因子旋转后的结果:

与未旋转的结果进行比较:发现在因子1上载荷最小的颅内压改变指标的载荷更小,而载荷最大的脑灌注压载荷更大;同理,在因子2上,载荷最大指标的载荷更大。简单来说,载荷大者更大,小者更小。

故我们可以看出,因子旋转后的结果是因子的解释更加清楚明了。因为该案例未旋转时,同样能得出较明显的结论,故此处因子旋转的作用并不是特别明显。但在其他研究中,因子旋转仍能对结果解释发挥重要的作用。

04

信度分析介绍

因子分析将题项分组,接下来就看同组的题项在多大程度上相互一致了,这便是信度分析的任务。

虽然有许多种不同的信度统计量,但最常用的是克龙巴赫系数(Cronbach’s alpha)。Cronbach’s α利用一组题项之间的关联来表征它们的一致程度。从概念上讲,对于理应测量同一个基础构造(如同一潜在变量:脑部疾病患者的意识清醒状态)的所有调查题项,应答者都应该以相似的方式作答。这种应答的相似性意味着所有题项都能够可靠地测量构造。反之则难以认定这些题项提供了一种可靠的构造测量。

在某种意义上,Cronbach’s α (经常简记作α)表示一组题项之间的平均关联。一般来说,信度分析涉及的题项越多,α值越大。如果两个题项的相关系数r=0.50,则姑且可以视作两个题项代表了同一个基础构造的证据。但如果8个或10个题项之间的相关系数全在0.5以上,则有充分理由认为这些题项测量了同一个基础构造。同样,如果仅有3个题项,其中一个与其余两个的相关性不强,那么整体平均相关性也会较弱。但如果有8个题项,只有一个与其他的相关性不强,那么整体平均相关性则不会大幅减弱。

综上,α的大小取决于题项的数量和题项间的相关强度。α值最大可以取1.0。经验表明,一组题项的α水平大于0.70,就可以认为其具有可接受的信度。

04

小结

因子分析和信度分析是社会科学研究者经常使用的强有力的统计技术,二者都有助于研究者将众多变量归并为更少的更有意义的组别。如果我们在阅读或研究中需要用到因子分析和信度分析,应该你进一步阅读有关该主题的更多文献,以便深入了解这些技术的意义。

白话统计学就在这里告一段落了,谢谢大家的坚持与陪伴。通过这段时间的努力,小编学到了很多相关的知识,不知大家学的怎样呢?如果以后还有机会,小编还想继续和大家分享学习的收获与喜悦,拜拜啦~~

统计与绘图

白话统计学14—卡方检验

2019-12-17 22:03:59

统计与绘图

白话统计学系列—汇总贴

2019-12-17 22:06:51

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索