机器学习数学基础:36.φ相关系数分析
用φ相关系数分析性别与心理测验态度关系的教程
一、学习目标
学会使用φ相关系数分析两个二分变量(如性别男/女、对心理测验态度肯定/否定)之间的关系,并通过卡方检验判断结果是否具有统计学意义。
二、数据准备
假设我们想研究青年大学生的性别和对心理测验的态度之间的关系,收集到如下 2 × 2 2×2 2×2列联表数据(调查了 170 170 170人):
肯定 | 否定 | 合计 | |
---|---|---|---|
男生 | 22 22 22 | 88 88 88 | 110 110 110 |
女生 | 18 18 18 | 42 42 42 | 60 60 60 |
合计 | 40 40 40 | 130 130 130 | 170 170 170 |
三、涉及公式及含义
(一)卡方统计量( χ 2 \chi^{2} χ2)公式
χ
2
=
N
(
a
d
−
b
c
)
2
(
a
+
b
)
(
c
+
d
)
(
a
+
c
)
(
b
+
d
)
\chi^{2}\ =\frac{N(ad - bc)^{2}}{(a + b)(c + d)(a + c)(b + d)}
χ2 =(a+b)(c+d)(a+c)(b+d)N(ad−bc)2
-
N
N
N:表示总样本数量,这里
N
=
170
N \ = 170
N =170。
-
a
a
a:男生且对测验态度为肯定的人数,
a
=
22
a \ = 22
a =22。
-
b
b
b:男生且对测验态度为否定的人数,
b
=
88
b \ = 88
b =88。
-
c
c
c:女生且对测验态度为肯定的人数,
c
=
18
c \ = 18
c =18。
-
d
d
d:女生且对测验态度为否定的人数,
d
=
42
d \ = 42
d =42。
-
a
+
b
a + b
a+b:男生的总人数,
a
+
b
=
110
a + b \ = 110
a+b =110。
-
c
+
d
c + d
c+d:女生的总人数,
c
+
d
=
60
c + d \ = 60
c+d =60。
-
a
+
c
a + c
a+c:对测验态度为肯定的总人数,
a
+
c
=
40
a + c \ = 40
a+c =40。
-
b
+
d
b + d
b+d:对测验态度为否定的总人数,
b
+
d
=
130
b + d \ = 130
b+d =130。
(二)φ相关系数( r φ r_{\varphi} rφ)公式
r φ = χ 2 N r_{\varphi}\ =\sqrt{\frac{\chi^{2}}{N}} rφ =Nχ2,它反映两个二分变量之间的相关程度,取值在 − 1 -1 −1到 1 1 1之间。接近 1 1 1表示强正相关,接近 − 1 -1 −1表示强负相关,接近 0 0 0表示相关性弱。
四、计算步骤
(一)计算卡方统计量( χ 2 \chi^{2} χ2)
将数据代入
χ
2
\chi^{2}
χ2公式:
χ
2
=
170
×
(
22
×
42
−
88
×
18
)
2
40
×
130
×
110
×
60
=
170
×
(
924
−
1584
)
2
40
×
130
×
110
×
60
=
170
×
(
−
660
)
2
40
×
130
×
110
×
60
=
170
×
435600
34320000
=
2.1577
\begin{align*} \chi^{2}&\ =170\times\frac{(22\times42 - 88\times18)^{2}}{40\times130\times110\times60}\\ &\ =170\times\frac{(924 - 1584)^{2}}{40\times130\times110\times60}\\ &\ =170\times\frac{(-660)^{2}}{40\times130\times110\times60}\\ &\ =170\times\frac{435600}{34320000}\\ &\ = 2.1577 \end{align*}
χ2 =170×40×130×110×60(22×42−88×18)2 =170×40×130×110×60(924−1584)2 =170×40×130×110×60(−660)2 =170×34320000435600 =2.1577
(二)计算φ相关系数( r φ r_{\varphi} rφ)
把
χ
2
=
2.1577
\chi^{2}\ =2.1577
χ2 =2.1577,
N
=
170
N \ = 170
N =170代入
r
φ
r_{\varphi}
rφ公式:
r
φ
=
2.1577
170
≈
0.0127
≈
0.1127
\begin{align*} r_{\varphi}&\ =\sqrt{\frac{2.1577}{170}}\\ &\approx\sqrt{0.0127}\\ &\approx 0.1127 \end{align*}
rφ =1702.1577≈0.0127≈0.1127
(三)确定临界值并判断
- 计算自由度:对于 2 × 2 2×2 2×2列联表,自由度 d f = ( 2 − 1 ) × ( 2 − 1 ) = 1 df\ =(2 - 1)\times(2 - 1)\ =1 df =(2−1)×(2−1) =1。
- 查 χ 2 \chi^{2} χ2分布表:找到自由度为 1 1 1,显著性水平为 0.05 0.05 0.05时的临界值 χ 0.05 2 ( 1 ) = 3.84 \chi_{0.05}^{2}(1)\ =3.84 χ0.052(1) =3.84。
- 判断:因为计算得到的 χ 2 = 2.1577 < 3.84 \chi^{2}\ =2.1577<3.84 χ2 =2.1577<3.84,所以在当前显著性水平下,没有足够证据拒绝原假设(原假设是性别与对心理测验的态度相互独立)。同时, r φ = 0.1127 r_{\varphi}\ =0.1127 rφ =0.1127数值较小且不具有统计显著意义,这表明青年男女大学生的性别与对心理测验的态度之间是独立无关的。
五、总结
通过以上步骤,我们利用 χ 2 \chi^{2} χ2统计量和 φ \varphi φ相关系数分析了性别和对心理测验态度的关系。在实际应用中,大家可以根据研究问题收集相应的 2 × 2 2×2 2×2列联表数据,按照这些步骤来分析两个二分变量之间的关系哦。