数学基础 -- 概率统计之高斯分布
高斯分布
高斯分布(Gaussian Distribution),也称为正态分布(Normal Distribution),是概率统计中最常用的一种连续型概率分布,常用于描述自然界许多现象的概率分布,例如身高、体重、测量误差等。高斯分布的概率密度函数呈现钟形曲线,因此也叫做“钟形曲线”或“贝尔曲线”。
高斯分布的定义
高斯分布的概率密度函数(PDF)定义如下:
f ( x ∣ μ , σ 2 ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) f(x|\mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) f(x∣μ,σ2)=2πσ21exp(−2σ2(x−μ)2)
其中:
- μ \mu μ 是均值,表示分布的中心,也就是数据的期望值。
- σ 2 \sigma^2 σ2 是方差,表示数据的离散程度。标准差 σ \sigma σ 是方差的平方根。
- x x x 是随机变量。
高斯分布的特性
-
对称性:高斯分布是以均值 μ \mu μ 为中心对称的,也就是说,数据点出现在均值左边和右边的概率是相等的。
-
均值与标准差:
- 均值 μ \mu μ:决定了分布的中心位置。所有的随机变量 x x x 在平均值附近的概率最大。
- 标准差 σ \sigma σ:控制分布的宽度。标准差越大,分布越平坦、越宽;标准差越小,分布越陡峭、越集中。
-
68-95-99.7 规则:在高斯分布中,数据在均值附近的分布有一个固定的比例:
- 约68%的数据点位于均值 μ \mu μ 加减1个标准差 σ \sigma σ 的范围内( μ ± σ \mu \pm \sigma μ±σ)。
- 约95%的数据点位于 μ ± 2 σ \mu \pm 2\sigma μ±2σ 的范围内。
- 约99.7%的数据点位于 μ ± 3 σ \mu \pm 3\sigma μ±3σ 的范围内。
标准正态分布
当高斯分布的均值 μ = 0 \mu = 0 μ=0 且标准差 σ = 1 \sigma = 1 σ=1 时,这种高斯分布称为标准正态分布。它的概率密度函数为:
f ( x ) = 1 2 π exp ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2\pi}} \exp\left( -\frac{x^2}{2} \right) f(x)=2π1exp(−2x2)
标准正态分布常用于统计学中的标准化处理,即将数据通过以下公式进行标准化:
z = x − μ σ z = \frac{x - \mu}{\sigma} z=σx−μ
标准化后的数据就服从标准正态分布,方便进行计算和分析。
高斯分布的应用
高斯分布广泛应用于各个领域,特别是:
- 测量误差:测量数据往往会由于各种误差而呈现正态分布,偏离真实值的误差可能是随机的且具有对称性。
- 信号处理:噪声通常假设为高斯噪声,在滤波算法中(如卡尔曼滤波),通常假设系统过程噪声和观测噪声服从高斯分布。
- 金融分析:很多金融数据也经常假设符合正态分布,用来预测风险和收益。
高斯分布的相关参数
-
均值 μ \mu μ:
- 定义:均值是所有数据点的平均值,表示分布的中心位置。
- 含义:均值表示数据集中趋势,分布曲线的峰值出现在均值的位置。
-
方差 σ 2 \sigma^2 σ2:
- 定义:方差衡量数据的离散程度,即数据点偏离均值的平均距离。
- 含义:方差越大,数据分布得越分散,曲线越平坦;方差越小,数据分布越集中,曲线越陡峭。
-
标准差 σ \sigma σ:
- 定义:标准差是方差的平方根,也是数据的离散程度的衡量指标。
- 含义:标准差在实际应用中比方差更直观。较小的标准差表示数据集中在均值附近,较大的标准差表示数据分布较广。
高斯分布的性质
-
线性组合的正态性:
- 若 X 1 , X 2 , … , X n X_1, X_2, \dots, X_n X1,X2,…,Xn 是相互独立且服从正态分布的随机变量,那么它们的线性组合也是正态分布。
-
最大熵原理:
- 在所有具有相同均值和方差的分布中,正态分布是最大熵分布。这意味着在未知信息最少的情况下,正态分布是最合理的假设。
-
中心极限定理:
- 该定理指出,无论个体随机变量的分布形状如何,只要样本足够大,样本均值的分布都会趋近于正态分布。因此,正态分布在统计学中有着重要的地位。
高斯分布的常见应用场景
-
机器学习:
- 在机器学习中,许多模型(如高斯朴素贝叶斯分类器、线性回归模型)假设数据服从高斯分布。
- 高斯混合模型(GMM)是一种常用的聚类算法,它假设数据点是从若干个高斯分布中生成的。
-
物理与工程:
- 测量误差通常假设是服从高斯分布的,因为测量噪声往往是独立随机变量的总和,满足中心极限定理。
- 在信号处理领域,高斯分布用于建模随机噪声信号。
-
金融建模:
- 股票价格和收益率经常被假设为服从正态分布,尽管实际上金融市场中的波动性较高,偏离正态分布的现象也较常见。
-
统计推断:
- 在许多统计检验中,假设样本数据服从正态分布。很多统计方法(如t检验、回归分析)都是基于这一假设的。
-
生物学与社会学:
- 人类的身高、智商等自然现象常常被认为服从正态分布。
高斯分布与其他分布的关系
-
与指数分布:
- 若 X ∼ N ( 0 , σ 2 ) X \sim \text{N}(0, \sigma^2) X∼N(0,σ2),则 X 2 X^2 X2 服从卡方分布(Chi-Square Distribution)。
- 服从标准正态分布的变量的绝对值服从拉普拉斯分布(双指数分布)。
-
与卡方分布:
- 卡方分布是多个独立标准正态分布随机变量的平方和。
- 在统计推断中,卡方分布广泛用于假设检验和方差分析中。
-
与t分布:
- t分布是一类对正态分布的推广,尤其适用于样本量较小的情况。当样本量增加时,t分布逐渐逼近正态分布。
-
与贝塔分布、伽马分布:
- 这些分布与高斯分布广泛应用于贝叶斯统计中,用于描述不同的先验和后验分布。
高斯分布的数学推导
高斯分布的推导过程
高斯分布的概率密度函数之所以具有其特定的形式,可以通过以下几种方式进行推导,下面介绍其中一种常见的推导方法。
最大熵原理推导高斯分布
在信息论中,最大熵原理表明,若只知道概率分布的均值和方差,且没有其他的先验信息,则最合理的概率分布是熵最大的分布,而正态分布就是在给定均值和方差的情况下熵最大的分布。
-
熵的定义:
熵是用来度量随机变量不确定性的一个指标。对于一个连续型随机变量 X X X,其熵定义为:
H ( X ) = − ∫ − ∞ ∞ f ( x ) log f ( x ) d x H(X) = -\int_{-\infty}^{\infty} f(x) \log f(x) dx H(X)=−∫−∞∞f(x)logf(x)dx
其中, f ( x ) f(x) f(x) 是随机变量 X X X 的概率密度函数。 -
约束条件:
为了找到使熵 H ( X ) H(X) H(X) 最大的分布,我们需要添加两个约束条件:- 概率密度函数
f
(
x
)
f(x)
f(x) 必须满足归一化条件:
∫ − ∞ ∞ f ( x ) d x = 1 \int_{-\infty}^{\infty} f(x) dx = 1 ∫−∞∞f(x)dx=1 - 均值
μ
\mu
μ 和方差
σ
2
\sigma^2
σ2 是已知的,即:
∫ − ∞ ∞ x f ( x ) d x = μ \int_{-\infty}^{\infty} x f(x) dx = \mu ∫−∞∞xf(x)dx=μ
∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x = σ 2 \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx = \sigma^2 ∫−∞∞(x−μ)2f(x)dx=σ2
- 概率密度函数
f
(
x
)
f(x)
f(x) 必须满足归一化条件:
-
拉格朗日乘子法:
为了在这些约束条件下最大化熵,我们可以使用拉格朗日乘子法。定义拉格朗日函数 L L L:
L = − ∫ − ∞ ∞ f ( x ) log f ( x ) d x + λ 1 ( ∫ − ∞ ∞ f ( x ) d x − 1 ) + λ 2 ( ∫ − ∞ ∞ x f ( x ) d x − μ ) + λ 3 ( ∫ − ∞ ∞ ( x − μ ) 2 f ( x ) d x − σ 2 ) L = -\int_{-\infty}^{\infty} f(x) \log f(x) dx + \lambda_1 \left( \int_{-\infty}^{\infty} f(x) dx - 1 \right) + \lambda_2 \left( \int_{-\infty}^{\infty} x f(x) dx - \mu \right) + \lambda_3 \left( \int_{-\infty}^{\infty} (x - \mu)^2 f(x) dx - \sigma^2 \right) L=−∫−∞∞f(x)logf(x)dx+λ1(∫−∞∞f(x)dx−1)+λ2(∫−∞∞xf(x)dx−μ)+λ3(∫−∞∞(x−μ)2f(x)dx−σ2) -
求解:
对 L L L 对 f ( x ) f(x) f(x) 求偏导,并令其等于 0,最终得到 f ( x ) f(x) f(x) 的解为:
f ( x ) = 1 2 π σ 2 exp ( − ( x − μ ) 2 2 σ 2 ) f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left( -\frac{(x - \mu)^2}{2\sigma^2} \right) f(x)=2πσ21exp(−2σ2(x−μ)2)
这就是高斯分布的概率密度函数。
高斯分布的矩
矩是描述概率分布形态的重要工具。对于高斯分布,矩的计算非常简单和常用。
-
均值(第一矩):
E [ X ] = μ \mathbb{E}[X] = \mu E[X]=μ
高斯分布的均值就是参数中的 μ \mu μ。 -
方差(第二矩中心化):
Var ( X ) = E [ ( X − μ ) 2 ] = σ 2 \text{Var}(X) = \mathbb{E}[(X - \mu)^2] = \sigma^2 Var(X)=E[(X−μ)2]=σ2
方差是描述分布离散程度的指标,高斯分布的方差为 σ 2 \sigma^2 σ2。 -
高阶矩:
高斯分布的第三矩为 0,表示其对称性。第四矩(超额峰度)为 3,表明高斯分布的尖峰程度。
高斯分布的生成
在许多编程语言中,高斯分布的随机数生成是常用功能。常见的生成方式有以下几种:
-
Box-Muller变换:
Box-Muller变换是一种经典的将均匀分布的随机数转换为正态分布随机数的方法。具体公式为:
z 1 = − 2 ln U 1 cos ( 2 π U 2 ) z_1 = \sqrt{-2\ln U_1} \cos(2\pi U_2) z1=−2lnU1cos(2πU2)
z 2 = − 2 ln U 1 sin ( 2 π U 2 ) z_2 = \sqrt{-2\ln U_1} \sin(2\pi U_2) z2=−2lnU1sin(2πU2)
其中, U 1 U_1 U1 和 U 2 U_2 U2 是在区间 [ 0 , 1 ] [0, 1] [0,1] 上均匀分布的随机数。生成的 z 1 z_1 z1 和 z 2 z_2 z2 服从标准正态分布。 -
逆变换法:
通过逆变换法,可以利用正态分布的累积分布函数的反函数,将均匀分布的随机数转换为正态分布的随机数。 -
现成的库函数:
在大多数编程语言中都有生成高斯分布随机数的库函数,比如 Python 的numpy.random.normal
,可以直接生成符合指定均值和标准差的正态分布随机数。
import numpy as np
# 生成10个均值为0,标准差为1的正态分布随机数
data = np.random.normal(0, 1, 10)
print(data)
高斯分布的极限行为
-
中心极限定理: 该定理指出,无论初始随机变量的分布是什么,当样本量增大时,样本均值的分布都会趋近于正态分布。这解释了为什么正态分布在统计学中如此重要。
-
大数定律: 大数定律是中心极限定理的特例,它表明随着样本量增加,样本均值会收敛于总体均值。
-
切比雪夫不等式: 虽然切比雪夫不等式对任何分布都成立,但对于高斯分布,切比雪夫不等式提供了更精确的概率界限,这也是高斯分布能描述实际问题的重要原因。
总结与展望
高斯分布在概率统计、信号处理、金融分析等领域有着广泛的应用。正态分布的理论基础(如最大熵原理和中心极限定理)为其在实际应用中的广泛性提供了有力支持。通过高斯分布,我们可以对自然界和人类社会中的随机现象做出更加精确的描述和预测。
未来的研究可能会在高维数据、非线性模型和非高斯噪声条件下进一步发展高斯分布的扩展应用,如卡尔曼滤波的非线性推广(如扩展卡尔曼滤波和无迹卡尔曼滤波)等。