随机变量的变量替换——归一化流和直方图规定化的数学基础
变量替换是一种在统计学和数学中广泛应用的技术,它通过定义新的变量来简化问题,使得原本复杂的随机变量变得更加容易分析。
变量替换的公式,用于将一个随机变量 X X X 的概率密度函数 f X f_X fX 转换为其经过函数 g g g 变换后的随机变量 Y = g ( X ) Y=g(X) Y=g(X) 的概率密度函数 f Y f_Y fY。
定理(变量替换公式)
设 X X X 是一个概率密度函数为 f X f_X fX 的连续型随机变量,并设存在一个区间 I ⊂ R I \subset \mathbb{R} I⊂R 使得当 x ∉ I x \not\in I x∈I 时, f X ( x ) = 0 f_X(x)=0 fX(x)=0 (换句话说, X X X 只有在 I I I 中取值时,其概率密度函数才可能不为零,其中 I I I 可以是整个实直线)。设 g : I → R g: I \rightarrow \mathbb{R} g:I→R 是一个可微函数,其反函数是 h h h。除了在有限个点处的导数值可能为零外, g g g 的导数在 I I I 中始终为正或者始终为负。如果令 Y = g ( X ) Y=g(X) Y=g(X),那么通过函数 g g g 我们由随机变量 X X X 的概率密度函数得到随机变量 Y Y Y 的概率密度函数:
f Y ( y ) = f X ( h ( y ) ) ⋅ ∣ h ′ ( y ) ∣ f_Y(y) = f_X(h(y)) \cdot |h'(y)| fY(y)=fX(h(y))⋅∣h′(y)∣
这意味着,如果我们有一个连续型随机变量 X X X,并且我们知道它的概率密度函数 f X ( x ) f_X(x) fX(x),然后我们将 X X X 经过一个可微函数 g g g 变换得到新的随机变量 Y = g ( X ) Y=g(X) Y=g(X),那么 Y Y Y 的概率密度函数 f Y ( y ) f_Y(y) fY(y) 可以通过以下方式计算:
- 找到 g g g 的反函数 h h h,即 h ( y ) h(y) h(y) 满足 g ( h ( y ) ) = y g(h(y))=y g(h(y))=y;
- 计算 h ( y ) h(y) h(y) 的导数 h ′ ( y ) h'(y) h′(y);
- 将 f X ( x ) f_X(x) fX(x) 替换为 f X ( h ( y ) ) f_X(h(y)) fX(h(y)) 并乘以 ∣ h ′ ( y ) ∣ |h'(y)| ∣h′(y)∣ 得到 f Y ( y ) f_Y(y) fY(y)。
这个定理告诉我们如何通过一个“合适”的函数 g g g 将一个连续型随机变量 X X X 的概率密度函数 f X f_X fX 转换成另一个随机变量 Y = g ( X ) Y=g(X) Y=g(X) 的概率密度函数 f Y f_Y fY。
这个定理表明,当我们有一个连续型随机变量 X X X,并知道其概率密度函数 f X f_X fX,如果 g g g 是一个“合适的”函数,那么我们肯定能够求出 Y = g ( X ) Y=g(X) Y=g(X) 的概率密度函数 f Y f_Y fY。这里的“合适”指的是 g g g 必须满足以下条件:
- g g g 是可微的。
- g g g 的反函数 h h h 存在。
- g g g 的导数在 I I I 内部除有限个点外始终为正或始终为负。
这样,我们就可以使用变量替换公式将 X X X 的概率密度函数 f X f_X fX 转换为 Y Y Y 的概率密度函数 f Y f_Y fY,结果包含了 f X f_X fX 和 g g g 的组合式。这个公式告诉了我们这种转换的关系,并指出了哪些 g g g 是“合适的”。
注意,这里提到的 g g g 函数必须是可微的,并且其导数在给定区间内要么始终为正,要么始终为负,这是保证 h h h 存在且唯一的一个必要条件。此外, g g g 的导数在有限个点处可以为零,但在其他地方不能为零,否则 h h h 不会是一个单射函数,也就无法定义反函数。
简而言之,变量替换公式提供了一种方法,让我们能够通过一个可微的映射函数 g g g 把一个随机变量 X X X 的概率密度函数转换为另一个随机变量 Y = g ( X ) Y=g(X) Y=g(X) 的概率密度函数。
这个公式在概率论和统计学中非常重要,因为它允许我们通过简单的函数关系将复杂随机变量的概率密度函数转换成易于分析的形式。例如,在实际问题中,我们可能会遇到难以直接分析的概率密度函数,但是通过变量替换,我们可以将其转换为已知的概率密度函数,从而简化问题。
应用场景
-
概率分布的变换:
- 例如,如果有一个随机变量 X X X 服从某种分布(如正态分布),我们可以通过定义一个新的变量 Y = g ( X ) Y = g(X) Y=g(X) 来得到 Y Y Y 的分布。这在计算某些复杂分布的概率密度函数(PDF)或累积分布函数(CDF)时非常有用。直方图规定化的数学基础。
-
参数估计:
- 在进行参数估计时,有时直接对原始变量进行估计比较困难。通过变量替换,可以将问题转化为更简单的形式,从而更容易地找到合适的估计方法。归一化流的数学基础。
-
最优化问题:
- 在最优化问题中,变量替换可以帮助将非线性问题转化为线性问题,或者将约束条件简化,从而更容易求解。
图中展示的是直方图规定化关于变量替换公式的说明。
禹晶、肖创柏、廖庆敏《数字图像处理(面向新工科的电工电子信息基础课程系列教材)》
具体步骤
-
定义新变量:
- 假设原始变量为 X X X,定义一个新的变量 Y = g ( X ) Y = g(X) Y=g(X),其中 g g g 是一个适当的函数。
-
确定新变量的分布:
- 如果
X
X
X 的分布已知,可以通过变换公式推导出
Y
Y
Y 的分布。例如,如果
X
X
X 的概率密度函数为
f
X
(
x
)
f_X(x)
fX(x),则
Y
Y
Y 的概率密度函数
f
Y
(
y
)
f_Y(y)
fY(y) 可以通过以下公式计算:
f Y ( y ) = f X ( g − 1 ( y ) ) ∣ d d y g − 1 ( y ) ∣ f_Y(y) = f_X(g^{-1}(y)) \left| \frac{d}{dy} g^{-1}(y) \right| fY(y)=fX(g−1(y)) dydg−1(y) - 这里 g − 1 g^{-1} g−1 是 g g g 的逆函数, ∣ d d y g − 1 ( y ) ∣ \left| \frac{d}{dy} g^{-1}(y) \right| dydg−1(y) 是雅可比行列式的绝对值。
- 如果
X
X
X 的分布已知,可以通过变换公式推导出
Y
Y
Y 的分布。例如,如果
X
X
X 的概率密度函数为
f
X
(
x
)
f_X(x)
fX(x),则
Y
Y
Y 的概率密度函数
f
Y
(
y
)
f_Y(y)
fY(y) 可以通过以下公式计算:
-
分析新变量:
- 使用新变量 Y Y Y 进行进一步的分析,如计算期望值、方差、概率等。
示例
假设 X X X 服从标准正态分布 N ( 0 , 1 ) N(0, 1) N(0,1),我们定义一个新的变量 Y = X 2 Y = X^2 Y=X2。那么 Y Y Y 的分布可以通过以下步骤推导:
-
定义新变量:
- Y = X 2 Y = X^2 Y=X2
-
确定新变量的分布:
- X X X 的概率密度函数为 f X ( x ) = 1 2 π e − x 2 2 f_X(x) = \frac{1}{\sqrt{2\pi}} e^{-\frac{x^2}{2}} fX(x)=2π1e−2x2
- 由于 Y = X 2 Y = X^2 Y=X2,所以 X = ± Y X = \pm \sqrt{Y} X=±Y
- 雅可比行列式 ∣ d d y y ∣ = 1 2 y \left| \frac{d}{dy} \sqrt{y} \right| = \frac{1}{2\sqrt{y}} dydy =2y1
- 因此,
Y
Y
Y 的概率密度函数为:
f Y ( y ) = f X ( y ) ∣ 1 2 y ∣ + f X ( − y ) ∣ 1 2 y ∣ f_Y(y) = f_X(\sqrt{y}) \left| \frac{1}{2\sqrt{y}} \right| + f_X(-\sqrt{y}) \left| \frac{1}{2\sqrt{y}} \right| fY(y)=fX(y) 2y1 +fX(−y) 2y1
f Y ( y ) = 1 2 π e − y 2 ⋅ 1 2 y + 1 2 π e − y 2 ⋅ 1 2 y f_Y(y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{y}{2}} \cdot \frac{1}{2\sqrt{y}} + \frac{1}{\sqrt{2\pi}} e^{-\frac{y}{2}} \cdot \frac{1}{2\sqrt{y}} fY(y)=2π1e−2y⋅2y1+2π1e−2y⋅2y1
f Y ( y ) = 1 2 π e − y 2 ⋅ 1 y f_Y(y) = \frac{1}{\sqrt{2\pi}} e^{-\frac{y}{2}} \cdot \frac{1}{\sqrt{y}} fY(y)=2π1e−2y⋅y1
f Y ( y ) = 1 2 π y e − y 2 f_Y(y) = \frac{1}{\sqrt{2\pi y}} e^{-\frac{y}{2}} fY(y)=2πy1e−2y
-
分析新变量:
- 通过上述推导,我们可以看到 Y Y Y 服从卡方分布 χ 2 ( 1 ) \chi^2(1) χ2(1)。