机器学习数学基础:38.统计学变量与相关系数
统计学变量与相关系数
在之前的统计学基础概念学习中,我们对潜变量、观察变量、因子载荷系数和多元平方相关有了初步认识。现在,咱们进一步深入,填补一些重要的知识空白,让大家对这些概念的理解更加系统和全面。
一、潜变量:深入挖掘背后的秘密
(一)潜变量的不同类型
- 反映型潜变量(Reflective)
- 想象一下,潜变量就像一个“幕后大佬”,而观察变量是它在外界的“代言人”。反映型潜变量就是这样,观察变量是潜变量的外在表现。比如我们之前说的智力,智力这个潜变量影响着一个人在算术、逻辑、词汇、图片排列等测验中的成绩 ,这些测验成绩作为观察变量,反映出了智力的水平。也就是说,因为有不同水平的智力,才导致了在这些测验中会有不同的表现。
- 在这种情况下,因子载荷的解释方向是从潜变量指向观察变量,表示潜变量对观察变量的作用。
- 形成型潜变量(Formative)
- 与反映型潜变量不同,形成型潜变量是由观察变量共同定义的。以社会经济地位为例,它不是像智力那样“影响”收入、教育、职业这些方面,而是由收入、教育、职业等观察变量共同组合形成的 。可以理解为,这些观察变量就像是一块块拼图,拼在一起才构成了社会经济地位这个潜变量。
- 所以,形成型潜变量的因子载荷解释方向与反映型相反,是从观察变量指向潜变量。
二 因子载荷系数:
这张图展示了潜变量F1与其观测变量F11、F12、F13之间的标准化因子载荷系数。F1到F11的标准化因子载荷系数是0.694,到F12是0.783,到F13是0.780 。这些系数表示潜变量F1对观测变量的影响程度,数值越大,说明观测变量对潜变量的反映程度越高,也意味着该观测变量在测量潜变量时的重要性和有效性越强。
三、多元平方相关(SMC):
在结构方程模型中,测量多元相关平方(SMC)具有以下重要意义:
- 评估潜变量解释力:SMC是因素负荷量(因子载荷)的平方,代表潜变量对特定观察变量的解释能力。比如图中潜变量F1对观察变量F11、F12、F13变异的解释比例分别为42.25%、79.21%、64.00% ,数值越高说明潜变量能解释观察变量变化的程度越高,即该观察变量能较好地反映潜变量。
- 衡量测量变量信度:SMC可视为测量变量(题目)的信度。信度表示测量结果的一致性和稳定性,较高的SMC意味着测量变量在反映潜变量时比较可靠、稳定,受随机误差影响较小;若SMC值较低,则需考虑观察变量是否适合用来测量对应的潜变量,或是否存在测量误差较大等问题 。
- 优化测量模型:通过查看各个观察变量的SMC值,研究者可以判断哪些观察变量与潜变量之间的关系较弱,进而对测量模型进行调整和优化,如考虑删除某些解释比例过低的观察变量,或者重新选择更合适的观察变量来测量潜变量,以提升整个测量模型的质量 。