当前位置: 首页 > article >正文

机器学习数学基础:37.偏相关分析

偏相关分析教程

一、偏相关分析是什么

在很多复杂的系统中,比如地理系统,会有多个要素相互影响。偏相关分析就是在这样多要素构成的系统里,不考虑其他要素的干扰,专门去研究两个要素之间关系紧密程度的一种方法。用来衡量这种紧密程度的数值,叫做偏相关系数。

举个简单例子,在研究一个地区的房价时,房价会受到很多因素影响,像地段、房屋面积、周边配套设施等。如果我们想知道单纯的房屋面积和房价之间的关系,就可以用偏相关分析,把地段、周边配套设施等其他因素的影响先排除掉。

二、适用场景

偏相关分析适用于各种多因素影响的场景,不仅是地理领域,在经济领域分析商品销量和价格关系时,可控制消费者喜好、广告投入等因素;在教育领域研究学生成绩和学习方法的关系时,可控制学生的基础水平、家庭环境等因素。只要存在多个因素相互关联,且你想明确其中两个因素的纯粹关系,都能用到它。

三、相关符号含义

(一)偏相关系数公式符号

在分析变量 x 1 x_1 x1 x 2 x_2 x2之间的净相关(也就是排除其他因素后的相关关系),并且控制了变量 x 3 x_3 x3的影响时,会用到一阶偏相关系数公式 r 12.3   = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23,公式里各符号含义如下:

  • r 12 r_{12} r12:变量 x 1 x_1 x1 x 2 x_2 x2的简单相关系数,就是不考虑其他因素时,这两个变量之间的相关程度。比如在研究身高( x 1 x_1 x1)和体重( x 2 x_2 x2)关系时,不考虑年龄、饮食习惯等因素算出来的相关系数。
  • r 13 r_{13} r13:变量 x 1 x_1 x1 x 3 x_3 x3的简单相关系数。比如身高( x 1 x_1 x1)和年龄( x 3 x_3 x3)的相关系数。
  • r 23 r_{23} r23:变量 x 2 x_2 x2 x 3 x_3 x3的简单相关系数。比如体重( x 2 x_2 x2)和年龄( x 3 x_3 x3)的相关系数。
  • r 12.3 r_{12.3} r12.3:控制变量 x 3 x_3 x3后,变量 x 1 x_1 x1 x 2 x_2 x2之间的一阶偏相关系数。它反映了排除 x 3 x_3 x3的影响后, x 1 x_1 x1 x 2 x_2 x2的相关程度。

(二)显著性检验公式符号

公式 t   = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2 ,服从 t ( n − k − 2 ) t(n - k - 2) t(nk2)分布,用于偏相关系数的显著性检验,其中各符号含义为:

  • t t t:计算得出的统计量,用于和临界值比较,以此判断偏相关系数是否显著。
  • r r r:代表偏相关系数,即通过偏相关分析公式计算得到的,体现两个变量在控制其他变量影响后的相关程度的数值,范围在 − 1 -1 1 1 1 1之间。
  • n n n:表示样本容量,也就是参与分析的数据的数量。
  • k k k:是控制变量的个数。

四、计算步骤

(一)计算偏相关系数(以研究农作物产量、施肥量和降水量关系为例)

假设我们要研究农作物产量( x 1 x_1 x1)和施肥量( x 2 x_2 x2)之间的关系,同时知道降水量( x 3 x_3 x3)也会影响它们,现在来计算控制降水量后,产量和施肥量的偏相关系数。

  1. 收集数据并计算简单相关系数
    收集多年的农作物产量、施肥量、降水量数据。通过统计分析计算得到:
    • 农作物产量与施肥量的简单相关系数 r 12   = 0.6 r_{12}\ =0.6 r12 =0.6
    • 农作物产量与降水量的简单相关系数 r 13   = 0.4 r_{13}\ =0.4 r13 =0.4
    • 施肥量与降水量的简单相关系数 r 23   = 0.3 r_{23}\ =0.3 r23 =0.3
  2. 计算一阶偏相关系数 r 12.3 r_{12.3} r12.3
    把上面得到的数值代入公式 r 12.3   = r 12 − r 13 r 23 ( 1 − r 13 2 ) ( 1 − r 23 2 ) r_{12.3} \ = \frac{r_{12}-r_{13}r_{23}}{\sqrt{(1 - r_{13}^{2})(1 - r_{23}^{2})}} r12.3 =(1r132)(1r232) r12r13r23
    r 12.3   = 0.6 − 0.4 × 0.3 ( 1 − 0. 4 2 ) ( 1 − 0. 3 2 )   = 0.6 − 0.12 ( 1 − 0.16 ) ( 1 − 0.09 )   = 0.48 0.84 × 0.91   = 0.48 0.7644 ≈ 0.55 \begin{align*} r_{12.3}&\ =\frac{0.6 - 0.4×0.3}{\sqrt{(1 - 0.4^{2})(1 - 0.3^{2})}}\\ &\ =\frac{0.6 - 0.12}{\sqrt{(1 - 0.16)(1 - 0.09)}}\\ &\ =\frac{0.48}{\sqrt{0.84×0.91}}\\ &\ =\frac{0.48}{\sqrt{0.7644}}\\ &\approx0.55 \end{align*} r12.3 =(10.42)(10.32) 0.60.4×0.3 =(10.16)(10.09) 0.60.12 =0.84×0.91 0.48 =0.7644 0.480.55
  3. 结果分析
    得到的一阶偏相关系数 r 12.3 ≈ 0.55 r_{12.3}\approx0.55 r12.30.55,说明在排除降水量的影响后,农作物产量和施肥量之间存在比较明显的正相关关系,即不考虑降水量因素,施肥量增加,农作物产量也倾向于增加。

(二)偏相关系数的显著性检验(接着上述例子)

  1. 计算 t t t统计量
    假设样本数量 n   = 30 n \ = 30 n =30(即收集了30组农作物产量、施肥量和降水量的数据),这里控制变量只有降水量,即 k   = 1 k \ = 1 k =1,偏相关系数 r   = 0.55 r \ = 0.55 r =0.55,将这些值代入公式 t   = r n − k − 2 1 − r 2 t \ = \frac{r\sqrt{n - k - 2}}{\sqrt{1 - r^{2}}} t =1r2 rnk2
    t   = 0.55 × 30 − 1 − 2 1 − 0.5 5 2   = 0.55 × 27 1 − 0.3025   = 0.55 × 5.2 0.6975   = 2.86 0.6975 ≈ 3.43 \begin{align*} t&\ =\frac{0.55\times\sqrt{30 - 1 - 2}}{\sqrt{1 - 0.55^{2}}}\\ &\ =\frac{0.55\times\sqrt{27}}{\sqrt{1 - 0.3025}}\\ &\ =\frac{0.55\times5.2}{\sqrt{0.6975}}\\ &\ =\frac{2.86}{\sqrt{0.6975}}\\ &\approx3.43 \end{align*} t =10.552 0.55×3012  =10.3025 0.55×27  =0.6975 0.55×5.2 =0.6975 2.863.43
  2. 确定临界值并判断
    设定显著性水平 α   = 0.05 \alpha \ = 0.05 α =0.05,自由度 d f   = n − k − 2   = 30 − 1 − 2   = 27 df\ =n - k - 2 \ = 30 - 1 - 2 \ = 27 df =nk2 =3012 =27。查 t t t分布表,找到自由度为 27 27 27,双侧 α   = 0.05 \alpha \ = 0.05 α =0.05时的临界值约为 2.052 2.052 2.052
    由于计算得到的 ∣ t ∣   = 3.43 > 2.052 \vert t\vert \ = 3.43> 2.052 t =3.43>2.052,所以拒绝原假设(原假设为总体中控制降水量后,农作物产量和施肥量无相关关系) 。这表明在总体中,控制降水量后,农作物产量和施肥量之间存在显著的相关关系。

五、注意事项

  1. 偏相关分析依赖的数据必须准确可靠,数据质量不好会影响结果准确性。
  2. 确定控制变量很关键,如果选择了不恰当的控制变量,可能得不到想要的纯粹的两个变量之间的关系。
  3. 偏相关系数只能说明两个变量在排除其他因素后的关联程度,不能直接说明存在因果关系。
  4. 在进行显著性检验时,要正确确定样本容量和控制变量个数,以保证自由度计算准确,从而得出可靠的检验结果。

http://www.kler.cn/a/561205.html

相关文章:

  • 基于C#+SQL Server设计与实现的教学管理信息系统
  • 机器学习数学基础:32.斯皮尔曼等级相关
  • 火语言RPA--Excel添加Sheet页
  • 快速入门——Vue组件化开发
  • Lineageos 22.1(Android 15)Launcer打开Taskbar
  • Redission可重试、超时续约的实现原理(源码分析)
  • 多旋翼+航模+直升机:多型号无人机飞行表演技术详解
  • LeetCode 贪心算法经典题目 (C++实现)
  • 网络空间安全(2)应用程序安全
  • 机器人“战场”:创新、落地与未来
  • PyCharm Professional 2025 安装配置全流程指南(Windows平台)
  • Vue使用Three.js加载glb (gltf) 文件模型及实现简单的选中高亮、测距、测面积
  • 使用Kafka进行实时数据流处理的场景
  • Sky Hackathon 清水湾的水 AI美食助手
  • 数据结构:Map set - 习题(三)
  • 智能物联赋能城市照明升级——塔能科技的创新实践与城市转型
  • Reactor和Paroactor模型
  • [特殊字符]清华大学:DeepSeek从入门到精通.pdf(清华领航,驾驭DeepSeek,开启AI新境界)
  • 【Python爬虫(69)】解锁游戏数据宝藏:Python爬虫实战攻略
  • 基于TensorFlow.js与Web Worker的智能证件照生成方案