机器学习数学基础:37.偏相关分析
偏相关分析教程
一、偏相关分析是什么
在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧密程度的数值,叫做偏相关系数。
举个简单例子,在研究一个地区的房价时,房价会受到很多因素影响,像地段、房屋面积、周边配套设施等。如果我们想知道单纯的房屋面积和房价之间的关系,就可以用偏相关分析,把地段、周边配套设施等其他因素的影响先排除掉。
二、适用场景
偏相关分析适用于各种多因素影响的场景,不仅是地理领域,在经济领域分析商品销量和价格关系时,可控制消费者喜好、广告投入等因素;在教育领域研究学生成绩和学习方法的关系时,可控制学生的基础水平、家庭环境等因素。只要存在多个因素相互关联,且你想明确其中两个因素的纯粹关系,都能用到它。
三、相关符号含义
(一)偏相关系数公式符号
在分析变量 x 1 x_1 x1和 x 2 x_2 x2之间的净相关(也就是排除其他因素后的相关关系),并且控制了变量 x 3 x_3 x3的影响时,会用到一阶偏相关系数公式 r 12.3 = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1−r132)(1−r232)r12−r13r23,公式里各符号含义如下:
- r 12 r_{12} r12:变量 x 1 x_1 x1和 x 2 x_2 x2的简单相关系数,就是不考虑其他因素时,这两个变量之间的相关程度。比如在研究身高( x 1 x_1 x1)和体重( x 2 x_2 x2)关系时,不考虑年龄、饮食习惯等因素算出来的相关系数。
- r 13 r_{13} r13:变量 x 1 x_1 x1和 x 3 x_3 x3的简单相关系数。比如身高( x 1 x_1 x1)和年龄( x 3 x_3 x3)的相关系数。
- r 23 r_{23} r23:变量 x 2 x_2 x2和 x 3 x_3 x3的简单相关系数。比如体重( x 2 x_2 x2)和年龄( x 3 x_3 x3)的相关系数。
- r 12.3 r_{12.3} r12.3:控制变量 x 3 x_3 x3后,变量 x 1 x_1 x1和 x 2 x_2 x2之间的一阶偏相关系数。它反映了排除 x 3 x_3 x3的影响后, x 1 x_1 x1和 x 2 x_2 x2的相关程度。
(二)显著性检验公式符号
公式 t = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1−r2rn−k−2,服从 t ( n − k − 2 ) t(n - k - 2) t(n−k−2)分布,用于偏相关系数的显著性检验,其中各符号含义为:
- t t t:计算得出的统计量,用于和临界值比较,以此判断偏相关系数是否显著。
- r r r:代表偏相关系数,即通过偏相关分析公式计算得到的,体现两个变量在控制其他变量影响后的相关程度的数值,范围在 − 1 -1 −1到 1 1 1之间。
- n n n:表示样本容量,也就是参与分析的数据的数量。
- k k k:是控制变量的个数。
四、计算步骤
(一)计算偏相关系数(以研究农作物产量、施肥量和降水量关系为例)
假设我们要研究农作物产量( x 1 x_1 x1)和施肥量( x 2 x_2 x2)之间的关系,同时知道降水量( x 3 x_3 x3)也会影响它们,现在来计算控制降水量后,产量和施肥量的偏相关系数。
- 收集数据并计算简单相关系数:
收集多年的农作物产量、施肥量、降水量数据。通过统计分析计算得到:- 农作物产量与施肥量的简单相关系数 r 12 = 0.6 r_{12}\ =0.6 r12 =0.6。
- 农作物产量与降水量的简单相关系数 r 13 = 0.4 r_{13}\ =0.4 r13 =0.4。
- 施肥量与降水量的简单相关系数 r 23 = 0.3 r_{23}\ =0.3 r23 =0.3。
- 计算一阶偏相关系数
r
12.3
r_{12.3}
r12.3:
把上面得到的数值代入公式 r 12.3 = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1−r132)(1−r232)r12−r13r23:
r 12.3 = 0.6 − 0.4 × 0.3 ( 1 − 0. 4 2 ) ( 1 − 0. 3 2 ) = 0.6 − 0.12 ( 1 − 0.16 ) ( 1 − 0.09 ) = 0.48 0.84 × 0.91 = 0.48 0.7644 ≈ 0.55 \begin{align*} r_{12.3}&\ =\frac{0.6 - 0.4×0.3}{\sqrt{(1 - 0.4^{2})(1 - 0.3^{2})}}\\ &\ =\frac{0.6 - 0.12}{\sqrt{(1 - 0.16)(1 - 0.09)}}\\ &\ =\frac{0.48}{\sqrt{0.84×0.91}}\\ &\ =\frac{0.48}{\sqrt{0.7644}}\\ &\approx0.55 \end{align*} r12.3 =(1−0.42)(1−0.32)0.6−0.4×0.3 =(1−0.16)(1−0.09)0.6−0.12 =0.84×0.910.48 =0.76440.48≈0.55 - 结果分析:
得到的一阶偏相关系数 r 12.3 ≈ 0.55 r_{12.3}\approx0.55 r12.3≈0.55,说明在排除降水量的影响后,农作物产量和施肥量之间存在比较明显的正相关关系,即不考虑降水量因素,施肥量增加,农作物产量也倾向于增加。
(二)偏相关系数的显著性检验(接着上述例子)
- 计算
t
t
t统计量:
假设样本数量 n = 30 n \ = 30 n =30(即收集了30组农作物产量、施肥量和降水量的数据),这里控制变量只有降水量,即 k = 1 k \ = 1 k =1,偏相关系数 r = 0.55 r \ = 0.55 r =0.55,将这些值代入公式 t = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1−r2rn−k−2:
t = 0.55 × 30 − 1 − 2 1 − 0.5 5 2 = 0.55 × 27 1 − 0.3025 = 0.55 × 5.2 0.6975 = 2.86 0.6975 ≈ 3.43 \begin{align*} t&\ =\frac{0.55\times\sqrt{30 - 1 - 2}}{\sqrt{1 - 0.55^{2}}}\\ &\ =\frac{0.55\times\sqrt{27}}{\sqrt{1 - 0.3025}}\\ &\ =\frac{0.55\times5.2}{\sqrt{0.6975}}\\ &\ =\frac{2.86}{\sqrt{0.6975}}\\ &\approx3.43 \end{align*} t =1−0.5520.55×30−1−2 =1−0.30250.55×27 =0.69750.55×5.2 =0.69752.86≈3.43 - 确定临界值并判断:
设定显著性水平 α = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f = n − k − 2 = 30 − 1 − 2 = 27 df\ =n - k - 2 \ = 30 - 1 - 2 \ = 27 df =n−k−2 =30−1−2 =27。查 t t t分布表,找到自由度为 27 27 27,双侧 α = 0.05 \alpha \ = 0.05 α =0.05时的临界值约为 2.052 2.052 2.052。
由于计算得到的 ∣ t ∣ = 3.43 > 2.052 \vert t\vert \ = 3.43> 2.052 ∣t∣ =3.43>2.052,所以拒绝原假设(原假设为总体中控制降水量后,农作物产量和施肥量无相关关系) 。这表明在总体中,控制降水量后,农作物产量和施肥量之间存在显著的相关关系。
五、注意事项
- 偏相关分析依赖的数据必须准确可靠,数据质量不好会影响结果准确性。
- 确定控制变量很关键,如果选择了不恰当的控制变量,可能得不到想要的纯粹的两个变量之间的关系。
- 偏相关系数只能说明两个变量在排除其他因素后的关联程度,不能直接说明存在因果关系。
- 在进行显著性检验时,要正确确定样本容量和控制变量个数,以保证自由度计算准确,从而得出可靠的检验结果。