当前位置: 首页 > article >正文

什么是方差

方差(Variance) 是统计学中的一个重要概念,用来度量一组数据的离散程度或分散程度。具体来说,方差反映了数据点与其均值之间的偏离程度。方差越大,说明数据点越分散,方差越小,说明数据点越集中。

方差的定义

对于一组数据 x 1 , x 2 , … , x n x_1, x_2, \dots, x_n x1,x2,,xn,方差的数学定义如下:

1. 总体方差(Variance for a population):

假设我们有一个总体的数据集,包含 N N N 个数据点,那么总体方差 σ 2 \sigma^2 σ2 的定义为:
σ 2 = 1 N ∑ i = 1 N ( x i − μ ) 2 \sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 σ2=N1i=1N(xiμ)2

其中:

  • σ 2 \sigma^2 σ2 是总体方差。
  • N N N 是数据集中的数据点总数。
  • x i x_i xi 是第 i i i 个数据点。
  • μ \mu μ 是数据集的均值,即 μ = 1 N ∑ i = 1 N x i \mu = \frac{1}{N} \sum_{i=1}^{N} x_i μ=N1i=1Nxi
2. 样本方差(Variance for a sample):

在实践中,我们通常只对总体中的一部分数据(即样本)进行观察。样本方差用来估计总体方差,定义如下:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2 s2=n11i=1n(xixˉ)2

其中:

  • s 2 s^2 s2 是样本方差。
  • n n n 是样本的数量。
  • x i x_i xi 是第 i i i 个样本点。
  • x ˉ \bar{x} xˉ 是样本的均值,即 x ˉ = 1 n ∑ i = 1 n x i \bar{x} = \frac{1}{n} \sum_{i=1}^{n} x_i xˉ=n1i=1nxi
  • n − 1 n-1 n1 是自由度,用来校正样本方差对总体方差的估计。

区别:样本方差和总体方差的主要区别在于分母。样本方差使用 n − 1 n-1 n1 而不是 n n n,这样做的原因是为了得到更为无偏的方差估计,因为样本均值 x ˉ \bar{x} xˉ 通常是一个对总体均值 μ \mu μ 的估计。

方差的直观解释

方差描述了数据点是如何围绕均值分布的。通过计算每个数据点与均值之间的差,然后将这些差值平方,再求取平均值,方差提供了一种量化的方式来衡量数据的分散性。平方的目的在于避免正负差值相互抵消,使得方差始终是一个非负值。

  • 方差较小:如果数据点都集中在均值附近,方差值会比较小,说明数据的波动性较小。
  • 方差较大:如果数据点分布得较分散,远离均值,方差值会比较大,说明数据的波动性较大。

方差的意义

  1. 度量数据的离散程度:方差反映了数据的分散程度,方差越大,数据的波动性就越大。
  2. 模型评估中的应用:在机器学习中,方差用于评估模型的拟合程度。例如,在回归问题中,模型的误差可以通过方差来衡量,误差的方差越小,模型的拟合效果就越好。
  3. 特征选择中的应用:在特征选择中,特征的方差可以作为选择标准。高方差的特征可能包含更多的区分信息,而方差过小的特征可能对模型影响不大。
  4. 偏差-方差权衡(Bias-Variance Tradeoff):在机器学习中,方差和偏差的权衡是评估模型的一项重要指标。模型的方差过大可能意味着模型过拟合,而方差过小可能意味着模型欠拟合。

举例说明

假设我们有一组数据: [ 2 , 4 , 4 , 4 , 5 , 5 , 7 , 9 ] [2, 4, 4, 4, 5, 5, 7, 9] [2,4,4,4,5,5,7,9]

  1. 计算均值
    μ = 2 + 4 + 4 + 4 + 5 + 5 + 7 + 9 8 = 5 \mu = \frac{2 + 4 + 4 + 4 + 5 + 5 + 7 + 9}{8} = 5 μ=82+4+4+4+5+5+7+9=5

  2. 计算方差
    σ 2 = 1 8 ( ( 2 − 5 ) 2 + ( 4 − 5 ) 2 + ( 4 − 5 ) 2 + ( 4 − 5 ) 2 + ( 5 − 5 ) 2 + ( 5 − 5 ) 2 + ( 7 − 5 ) 2 + ( 9 − 5 ) 2 ) \sigma^2 = \frac{1}{8} \left( (2-5)^2 + (4-5)^2 + (4-5)^2 + (4-5)^2 + (5-5)^2 + (5-5)^2 + (7-5)^2 + (9-5)^2 \right) σ2=81((25)2+(45)2+(45)2+(45)2+(55)2+(55)2+(75)2+(95)2)

σ 2 = 1 8 ( 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 ) \sigma^2 = \frac{1}{8} \left( 9 + 1 + 1 + 1 + 0 + 0 + 4 + 16 \right) σ2=81(9+1+1+1+0+0+4+16)

σ 2 = 1 8 × 32 = 4 \sigma^2 = \frac{1}{8} \times 32 = 4 σ2=81×32=4

因此,这组数据的总体方差是 4。

方差和标准差的关系

标准差(Standard Deviation) 是方差的平方根。标准差和方差都用来度量数据的离散程度,但标准差的单位与原数据相同,因此在解释数据的分散性时,标准差比方差更直观。公式如下:
σ = σ 2 \sigma = \sqrt{\sigma^2} σ=σ2

对于上面的例子,方差是 4,那么标准差为:
σ = 4 = 2 \sigma = \sqrt{4} = 2 σ=4 =2

总结

  • 方差 是用于度量数据集离散程度的统计量,反映了数据与均值之间的偏离程度。
  • 方差越大,数据越分散;方差越小,数据越集中。
  • 方差在机器学习、数据分析、金融等多个领域中有着广泛的应用,特别是在模型评估、特征选择等方面。
  • 方差的平方根是 标准差,它更加直观,常用于描述数据的波动性。

http://www.kler.cn/news/337471.html

相关文章:

  • 神经网络激活函数之前的加权求和 | 矩阵相乘运算法则(清晰版)
  • LeetCode讲解篇之70. 爬楼梯
  • 【英特尔IA-32架构软件开发者开发手册第3卷:系统编程指南】2001年版翻译,1-2
  • 【Canvas与标牌】盾形银底红带Best Quality Premium标牌
  • Ubuntu24.04远程开机
  • C++基础(12)——初识list
  • 【数据结构】【栈】算法汇总
  • 基于SpringBoot+Vue+MySQL的民宿预订平台
  • MySQL 实验 10:数据查询(3)—— 聚合函数与分组查询
  • S7---基本介绍
  • SpringBoot框架下的教育系统开发全解析
  • Android OpenGLES2.0开发(四):矩阵变换和相机投影
  • 软件工程-模块化
  • vue2 + View design 使用inputNumber设置默认值为undefined但展示数据为1且表单校验不通过的原因
  • 【Git原理与使用】远程操作标签管理
  • 【计算机网络】详谈TCP协议确认应答机制捎带应答机制超市重传机制连接管理机制流量管理机制滑动窗口拥塞控制延迟应答
  • [uni-app]小兔鲜-08云开发
  • 深入理解 MATLAB 中的图形对象和句柄:控制与定制可视化数据
  • 如何高效预警和定位玩家端的性能问题|UWA GPM 2.0 新品发布
  • 【机器学习】探索机器学习在医疗影像分析中的应用