当前位置: 首页 > article >正文

机器学习之方差与标准差

在机器学习中,方差(Variance)和标准差(Standard Deviation)是用于描述数据分布特性的两个重要统计量,广泛应用于数据分析、模型评价和优化等多个方面。


1. 方差(Variance)

方差衡量的是数据点与均值之间的离散程度。具体来说,它是数据集中每个数据点与其均值的差值的平方的平均值。

公式:

  • N:数据点的总数量。
  • xi:第 i 个数据点。
  • μ:数据的均值。
  • \sigma^2:方差。

意义

  • 方差越大,说明数据的分布越分散。
  • 方差为零时,所有数据点都与均值相同。

应用

  • 特征选择:通过方差判断某些特征是否具有足够的信息量,若某特征方差接近零,可能表明该特征没有区分能力。
  • 正则化:模型过拟合时,可能导致训练数据预测误差的方差变大;正则化方法(如 L2 正则化)有助于控制方差。

2. 标准差(Standard Deviation)

标准差是方差的平方根,用于衡量数据的离散程度。它与方差的关系为:

意义

  • 标准差和方差本质相同,但标准差与原始数据的单位一致,便于直观理解。
  • 标准差越大,说明数据波动越大;标准差小,数据更加集中。

3. 方差与标准差的应用场景

(1)评估模型性能
  • Bias-Variance Tradeoff:机器学习模型需要在偏差(Bias)方差(Variance)之间权衡。
    • 偏差:模型预测值与真实值的系统性误差,通常与欠拟合相关。
    • 方差:模型对训练数据的敏感程度,通常与过拟合相关。
(2)正态分布中的应用

在正态分布中,数据的标准差具有以下意义:

  • μ±σ:包含约 68% 的数据。
  • μ±2σ:包含约 95% 的数据。
  • μ±3σ:包含约 99.7% 的数据。
(3)特征缩放

标准差用于标准化(Standardization)数据:

这种处理使得数据具有零均值和单位标准差,帮助模型更快收敛。


4. 方差与标准差的区别

指标定义单位易用性
方差(\sigma^2)数据点与均值的离散程度的平方数据平方单位计算中常用
标准差(\sigma)数据离散程度的平方根,与数据单位一致与数据相同更直观、更易解释

5. 示例

假设一组数据:2,4,6,8,10

  1. 计算均值:

  2. 计算方差:

  3. 计算标准差:


6. 总结

  • 方差和标准差是评估数据分布特性的重要指标。
  • 它们在数据预处理、模型训练与评估中具有广泛的应用。
  • 在实际应用中,标准差因其单位一致性更直观,而方差在理论分析中更常使用。


http://www.kler.cn/a/442455.html

相关文章:

  • python接口自动化的csv文件怎么创建和读取
  • SQL Prompt 插件
  • 当父级元素设置了flex 布局 ,两个子元素都设置了flex :1, 但是当子元素放不下的时候会溢出父元素怎么解决 (css 样式问题)
  • word-break控制的几种容器换行行为详解
  • 迅为RK3568开发板篇OpenHarmony配置HDF驱动控制LED-新增 topeet子系统-编写 bundle.json文件
  • 【Vue3 入门到实战】1. 创建Vue3工程
  • 【ETCD】【Linearizable Read OR Serializable Read】ETCD 数据读取:强一致性 vs 高性能,选择最适合的读取模式
  • linux tomcat安装
  • ORB-SLAM3源码学习:G2oTypes.cc: void EdgeInertial::linearizeOplus计算残差对状态增量的雅克比矩阵
  • POSTGRESQL版本测试
  • 【AI日记】24.12.18 kaggle 比赛 2-7
  • windows服务器Oracle TNS 远程监听器中毒
  • 如何在谷歌浏览器中开启安全浏览
  • thinkphp8+layui分页
  • 详细解读BSCI验厂
  • Halcon中histo_2dim(Operator)算子原理及应用详解
  • jmeter怎么调用python
  • 【CSS】实现tag选中对钩样式
  • 数字经济下的 AR 眼镜
  • 聚观早报 | 小米汽车加速出海;越南关闭2G服务
  • 车辆 CSMS 网络安全解析
  • CSS 进阶教程:从定位到动画与布局
  • sql 批量修改字段 的默认值
  • 算法-字典树
  • 配置 wsl 2 网络代理时的认知误区
  • ubuntu 下的sqlite3