我谈正态分布——正态偏态
目录
- pdf和cdf
- 参数
- 标准正态分布
- 期望和方差
- 分布形态
- 正态和偏态
- 正态
- 偏态
- 瑞利分布
- 偏度 (Skewness)
- 峰度 (Kurtosis)
- 比较
正态分布的英文是Normal Distribution,normal是“正常”或“标准”的意思,中文翻译是正态,多完美的翻译,正态对应偏态,正态是指分布曲线左右对称,偏度为零。正态分布的峰度也为0。
话说现在的翻译真让人受不了,比如那个multi-head attention。head还有body是按身体的部位命名的,那可能是语言习惯,就像描述像素邻域,他们用north, south, southeast这样描述,但是我们用上、下,右下描述,如果中文用北、南、东南这样描述是不是很奇怪,语言习惯不一样。
不会翻译还不如不翻了,那些翻译为头的人到底有脑子吗?很烦那种不说人话的翻译。
言归正传
正态分布(Normal Distribution),也被称为高斯分布(Gaussian Distribution),是一种重要的连续型概率分布。它在自然和社会科学的许多领域中都有广泛的应用。
pdf和cdf
正态分布的概率密度函数可以表示为:
f
(
x
)
=
1
σ
2
π
e
−
1
2
(
x
−
μ
σ
)
2
f(x) = \frac{1}{\sigma\sqrt{2\pi}} e^{-\frac{1}{2}\left(\frac{x-\mu}{\sigma}\right)^2}
f(x)=σ2π1e−21(σx−μ)2
其中,
x
x
x是随机变量的取值,
μ
\mu
μ是均值,
σ
\sigma
σ是标准差。记为
X
∼
N
(
μ
,
σ
2
)
X\sim N(\mu, \sigma^2)
X∼N(μ,σ2)。
正态分布的图形是对称的,其形状像一个钟形曲线,均值(mean)、中位数(median)和众数(mode)都位于分布的中心点。数据集中在均值附近,随着离均值距离的增加,数据出现的概率迅速减少。
正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的分布函数为
F ( x ) = 1 2 π σ ∫ − ∞ x e − ( t − μ ) 2 2 σ 2 d t F(x) = \frac{1}{\sqrt{2\pi}\sigma} \int_{-\infty}^{x} e^{-\frac{(t-\mu)^2}{2\sigma^2}} dt F(x)=2πσ1∫−∞xe−2σ2(t−μ)2dt
它是一条光滑上升的 S 形曲线。
参数
正态分布中的两个参数——均值 μ μ μ和标准差 σ σ σ如何影响正态分布图形的形状和位置。
-
如果固定 σ σ σ,改变 μ μ μ的值,则曲线沿 x 轴平移,而不改变其形状。也就是说正态密度函数的位置由参数 μ μ μ所确定,因此称 μ μ μ为位置参数。
-
如果固定 μ μ μ,改变 σ σ σ的值,则分布的位置不变,但 σ σ σ愈小,曲线呈高且窄,数据更加集中于均值周围; σ σ σ愈大,曲线呈低且宽,数据较为分散。也就是说正态密度函数的尺度由参数 σ σ σ所确定,因此称 σ σ σ为尺度参数。
总结,均值 μ μ μ决定分布的位置,而标准差 σ σ σ则决定了分布的宽度和数据的集中程度。
标准正态分布
设定随机变量 X X X服从正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2),并将其标准化为 U = X − μ σ U = \frac{X - \mu}{\sigma} U=σX−μ,使得 U U U服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)。
对于标准正态分布(均值为0,标准差为1),概率密度函数为:
p
(
z
)
=
1
2
π
e
−
z
2
2
p(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}
p(z)=2π1e−2z2
标准正态分布的累积分布函数:
Φ
(
z
)
=
∫
−
∞
z
1
2
π
e
−
t
2
2
d
t
\Phi(z) = \int_{-\infty}^{z} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt
Φ(z)=∫−∞z2π1e−2t2dt
期望和方差
好巧不巧,正态分布的两个参数正好是均值和标准差。正态分布就是那么完美。
假设 U U U服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1)
-
均值的计算:
- 计算
U
U
U的期望值
E
(
U
)
E(U)
E(U):
E ( U ) = 1 2 π ∫ − ∞ ∞ u e − u 2 2 d u E(U) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u e^{-\frac{u^2}{2}} du E(U)=2π1∫−∞∞ue−2u2du
由于被积函数是一个奇函数,其积分结果为零,即 E ( U ) = 0 E(U) = 0 E(U)=0。 - 因此,根据
X
=
μ
+
σ
U
X = \mu + \sigma U
X=μ+σU,可以得出
X
X
X的期望值
E
(
X
)
E(X)
E(X):
E ( X ) = μ + σ × 0 = μ E(X) = \mu + \sigma \times 0 = \mu E(X)=μ+σ×0=μ - 结论:正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的均值为 μ \mu μ。
- 计算
U
U
U的期望值
E
(
U
)
E(U)
E(U):
-
方差的计算:
- 首先计算
U
U
U的方差
V
a
r
(
U
)
Var(U)
Var(U)或者说是
U
2
U^2
U2的期望值
E
(
U
2
)
E(U^2)
E(U2):
E ( U 2 ) = 1 2 π ∫ − ∞ ∞ u 2 e − u 2 2 d u E(U^2) = \frac{1}{\sqrt{2\pi}} \int_{-\infty}^{\infty} u^2 e^{-\frac{u^2}{2}} du E(U2)=2π1∫−∞∞u2e−2u2du
利用分部积分法,最终得到 E ( U 2 ) = 1 E(U^2) = 1 E(U2)=1。 - 根据
X
=
μ
+
σ
U
X = \mu + \sigma U
X=μ+σU,可以得出
X
X
X的方差
V
a
r
(
X
)
Var(X)
Var(X):
V a r ( X ) = V a r ( μ + σ U ) = σ 2 V a r ( U ) = σ 2 × 1 = σ 2 Var(X) = Var(\mu + \sigma U) = \sigma^2 Var(U) = \sigma^2 \times 1 = \sigma^2 Var(X)=Var(μ+σU)=σ2Var(U)=σ2×1=σ2 - 结论:正态分布 N ( μ , σ 2 ) N(\mu, \sigma^2) N(μ,σ2)的方差为 σ 2 \sigma^2 σ2。
- 首先计算
U
U
U的方差
V
a
r
(
U
)
Var(U)
Var(U)或者说是
U
2
U^2
U2的期望值
E
(
U
2
)
E(U^2)
E(U2):
注意:
E
(
X
)
=
μ
E(X) = \mu
E(X)=μ、
V
a
r
(
X
)
=
σ
2
Var(X) = \sigma^2
Var(X)=σ2,均值
μ
\mu
μ和方差
σ
2
\sigma^2
σ2是正态分布的参数,只是在正态分布中正好等于期望和方差,而
E
(
X
)
E(X)
E(X)和
V
a
r
(
X
)
Var(X)
Var(X)是统计量,注意分区概念。有些刊物真是离谱了。
例如,Rafael Gonzalez的《数字图像处理》,此外这个
a
a
a也真多余。
和这个
分布形态
对于一个连续随机变量 X X X,其概率密度函数 f ( x ) f(x) f(x)描述了 X X X在某个特定值 x x x处的概率密度。需要注意的是, f ( x ) f(x) f(x)不直接表示概率,而是表示概率的密度。
对于任意区间
[
a
,
b
]
[a, b]
[a,b],随机变量
X
X
X落在这个区间内的概率可以通过计算该区间上的曲线下面积来得到。数学上,这可以通过积分来表示:
P
(
a
≤
X
≤
b
)
=
∫
a
b
f
(
x
)
d
x
P(a \leq X \leq b) = \int_{a}^{b} f(x) \, dx
P(a≤X≤b)=∫abf(x)dx
要计算
X
X
X落在某个区间
[
a
,
b
]
[a, b]
[a,b]内的概率,可以使用正态分布的累积分布函数(CDF):
P
(
a
≤
X
≤
b
)
=
Φ
(
b
)
−
Φ
(
a
)
P(a \leq X \leq b) = \Phi(b) - \Phi(a)
P(a≤X≤b)=Φ(b)−Φ(a)
其中,
Φ
(
x
)
\Phi(x)
Φ(x)是正态分布的累积分布函数。
假设要计算标准正态分布中 Z Z Z落在 [ − 1 , 1 ] [-1, 1] [−1,1]区间内的概率。
-
计算 Φ ( 1 ) \Phi(1) Φ(1):
Φ ( 1 ) = ∫ − ∞ 1 1 2 π e − t 2 2 d t ≈ 0.8413 \Phi(1) = \int_{-\infty}^{1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.8413 Φ(1)=∫−∞12π1e−2t2dt≈0.8413 -
计算 Φ ( − 1 ) \Phi(-1) Φ(−1):
Φ ( − 1 ) = ∫ − ∞ − 1 1 2 π e − t 2 2 d t ≈ 0.1587 \Phi(-1) = \int_{-\infty}^{-1} \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} \, dt \approx 0.1587 Φ(−1)=∫−∞−12π1e−2t2dt≈0.1587 -
计算概率:
P ( − 1 ≤ Z ≤ 1 ) = Φ ( 1 ) − Φ ( − 1 ) = 0.8413 − 0.1587 = 0.6826 P(-1 \leq Z \leq 1) = \Phi(1) - \Phi(-1) = 0.8413 - 0.1587 = 0.6826 P(−1≤Z≤1)=Φ(1)−Φ(−1)=0.8413−0.1587=0.6826
因此,标准正态分布中 Z Z Z落在 [ − 1 , 1 ] [-1, 1] [−1,1]区间内的概率约为0.6826,即68.26%。
3 σ 3\sigma 3σ原则
-
1
σ
1σ
1σ区间:大约68.27%的数据点位于平均值
μ
μ
μ的一个标准差
σ
σ
σ的范围内,即在
(
μ
−
σ
,
μ
+
σ
)
(μ - σ, μ + σ)
(μ−σ,μ+σ)之间。
P ( μ − σ < X < μ + σ ) ≈ 0.6827 P(μ - σ < X < μ + σ) ≈ 0.6827 P(μ−σ<X<μ+σ)≈0.6827 -
2
σ
2σ
2σ区间:大约95.45%的数据点位于平均值
μ
μ
μ的两个标准差
2
σ
2σ
2σ的范围内,即在
(
μ
−
2
σ
,
μ
+
2
σ
)
(μ - 2σ, μ + 2σ)
(μ−2σ,μ+2σ)之间。
P ( μ − 2 σ < X < μ + 2 σ ) ≈ 0.9545 P(μ - 2σ < X < μ + 2σ) ≈ 0.9545 P(μ−2σ<X<μ+2σ)≈0.9545 -
3
σ
3σ
3σ区间:大约99.73%的数据点位于平均值
μ
μ
μ的三个标准差
3
σ
3σ
3σ的范围内,即在
(
μ
−
3
σ
,
μ
+
3
σ
)
(μ - 3σ, μ + 3σ)
(μ−3σ,μ+3σ)之间。
P ( μ − 3 σ < X < μ + 3 σ ) ≈ 0.9973 P(μ - 3σ < X < μ + 3σ) ≈ 0.9973 P(μ−3σ<X<μ+3σ)≈0.9973
正态分布的3σ原则指出,正态分布随机变量取值落在三倍标准差之外的概率非常小,大约是0.27%(即100% - 99.73%)。
- 落在 μ ± 3 σ μ±3σ μ±3σ之外的概率为 1 − 0.9973 = 0.0027 1 - 0.9973 = 0.0027 1−0.9973=0.0027或者说约为0.27%。
在实际应用中,由于这个概率非常小,通常认为这样的事件几乎不会发生。因此,在很多情况下,可以将区间 ( μ − 3 σ , μ + 3 σ ) (μ - 3σ, μ + 3σ) (μ−3σ,μ+3σ)视为正态分布随机变量的实际可能取值区间。这意味着在这个区间之外的值可以被视为异常值或者极端值。
这种处理方式简化了数据分析和决策制定的过程,尤其是在质量控制、过程改进等实际问题中, 3 σ 3σ 3σ原则提供了一种有效的方法来识别和处理异常数据点。这也就是所谓的正态分布的 3 σ 3σ 3σ原则。
normcdf(1)-normcdf(-1)
normcdf(2)-normcdf(-2)
normcdf(3)-normcdf(-3)
正态和偏态
正态
正态分布的曲线是左右对称的,其形状像一个钟形曲线,均值(mean)、中位数(median)和众数(mode)都位于分布的中心点。
偏态
偏态分布是指数据分布不是对称的,而是偏向一侧。偏态可以是正偏(右偏)或负偏(左偏)。
- 当分布曲线的尾巴向右延伸时,称为正偏态;在正偏态分布中,大多数数据值集中在左侧,而右侧有较长的拖尾。
- 当分布曲线的尾巴向左延伸时,称为负偏态。而在负偏态分布中,大多数数据值集中在右侧,左侧有较长的拖尾。
瑞利分布
看瑞利分布,我喜欢这个分布,并不知道什么用,就是喜欢它的流线型。
对于参数为
σ
\sigma
σ的瑞利分布,其概率密度函数 (PDF) 可以表示为:
f
(
x
;
σ
)
=
x
σ
2
e
−
x
2
/
(
2
σ
2
)
,
x
≥
0
f(x;\sigma) = \frac{x}{\sigma^2} e^{-x^2/(2\sigma^2)}, \quad x \geq 0
f(x;σ)=σ2xe−x2/(2σ2),x≥0
其中, σ > 0 \sigma > 0 σ>0是尺度参数。
-
均值(期望):
E ( X ) = σ π 2 E(X) = \sigma \sqrt{\frac{\pi}{2}} E(X)=σ2π -
方差:
V a r ( X ) = ( 4 − π ) σ 2 2 Var(X) = \left( 4 - \pi \right) \frac{\sigma^2}{2} Var(X)=(4−π)2σ2
瑞利分布的均值和方差如何随着形状参数 σ \sigma σ的变化而变化。具体来说,当 σ \sigma σ增大时,均值和方差都会相应地增加。
偏度 (Skewness)
瑞利分布的偏度是正的,表明分布是右偏的。具体来说,偏度
γ
1
\gamma_1
γ1可以通过以下公式计算:
γ
1
=
2
π
(
4
−
π
2
)
−
3
/
2
≈
0.6311
\gamma_1 = \sqrt{\frac{2}{\pi}} \left( \frac{4 - \pi}{2} \right)^{-3/2} \approx 0.6311
γ1=π2(24−π)−3/2≈0.6311
峰度 (Kurtosis)
峰度描述了分布的尖峭程度,对于瑞利分布,其峰度
β
2
\beta_2
β2可以表示为:
β
2
=
(
4
−
π
2
)
−
2
⋅
(
3
−
6
π
4
−
π
+
π
2
2
)
≈
3.245
\beta_2 = \left( \frac{4 - \pi}{2} \right)^{-2} \cdot \left( 3 - \frac{6\pi}{4 - \pi} + \frac{\pi^2}{2} \right) \approx 3.245
β2=(24−π)−2⋅(3−4−π6π+2π2)≈3.245
这里,峰度是指四阶标准化矩,而超峰度(excess kurtosis)则是指峰度减去3,因此瑞利分布的超量峰度为:
Excess Kurtosis
=
β
2
−
3
≈
0.245
\text{Excess Kurtosis} = \beta_2 - 3 \approx 0.245
Excess Kurtosis=β2−3≈0.245
正态分布的偏度为0,峰度为3(超峰度为0),而瑞利分布的偏度为正值,峰度略大于3,这反映了它的分布形态特点。
比较
- 对称性:正态分布是对称的,而偏态分布是非对称的。
- 中心位置:在正态分布中,均值、中位数和众数都是相同的;而在偏态分布中,这三个统计量通常不同,且它们之间的关系可以用来判断偏态的方向。