当前位置：首页 > article >正文

测度论原创(三)

article 2025/2/28 0:06:45

Morden Prob

文章目录

Morden Prob
- Week3
- - 多维扩展和随机向量
  - 定理3.1
  - 推论：random variable的变换
  - 定理3.2 连续函数的可测性
  - 定理3.3 可测函数的线性组合
  - 关于拓展实数集的延伸
  - 定理3.4 可测函数的极限依旧为可测性
  - 随机变量的概率律（Law of $X$ ）
  - 分布函数 $F_X$ 的定义
  - 分布函数的性质
  - 随机变量的密度函数
  - 由随机变量生成的 $\sigma$ -代数
  - 定理3.5 $\sigma(Y)$ -可测性
  - 由随机变量生成的 $\sigma$ -代数

Week3

我们用Ⓜ来表示是可测的(measurable)

多维扩展和随机向量

当我们把可测函数 $\Omega \to \mathbb{R}$ 的定义扩展到更高维空间 $\mathbb{R}^n$ 时，这个函数被称为“随机向量”。这意味着，如果我们把一个随机变量（原本是一维的数）推广到多维空间，那么我们就可以描述更丰富的现象，比如位置、速度、温度等多个维度一起变化的情况。

数学上，把这个多维的情况用符号表示就是：
$\Omega \to \mathbb{R}^n$
这意味着， $X$ 是一个从事件空间 $\Omega$ 到 $n$ 维实数空间 $\mathbb{R}^n$ 的映射。

在实际应用中，比如在金融、物理等领域，这种“随机向量”概念非常常见，它允许我们在一个随机变量的框架内处理多维数据。

定理3.1

如果两个函数都是可测的，那么它们的复合函数也是可测的。用符号表示就是：

给定可测空间 $(\Omega, \mathcal{F})$ 、 $\mathcal{B})$ 和 $\mathcal{C})$
假设 $\Omega \to S$ 和 $\to T$ 都是可测函数（标记为Ⓜ ）

那么复合函数 $\circ f : \Omega \to T$ 也是可测的。

证明中的关键是要检查 $\circ f$ 的逆像是否属于 $\mathcal{F}$ 。具体步骤如下：

$\circ f)^{-1}(\mathcal{C}) = f^{-1}(g^{-1}(\mathcal{C})) \subseteq f^{-1}(\mathcal{B}) \subseteq \mathcal{F}$

首先，因为 $g$ 是可测的，意味着 $g^{-1}(\mathcal{C}) \subseteq \mathcal{B}$ ，即任何集合 $\in \mathcal{C}$ 的逆像 $g^{-1}(C)$ 属于 $\mathcal{B}$ 。
接着，因为 $f$ 也是可测的，所以 $f^{-1}(B) \subseteq \mathcal{F}$ ，即对于任何 $\in \mathcal{B}$ ，其逆像 $f^{-1}(B)$ 属于 $\mathcal{F}$ 。
因此，由 $\circ f)^{-1}(\mathcal{C}) = f^{-1}(g^{-1}(\mathcal{C}))$ 可以推出 $\circ f)^{-1}(\mathcal{C}) \subseteq \mathcal{F}$ ，从而说明复合函数 $\circ f$ 也是可测的。

你可以把它想象成层层传递的可测性，就像一支接力棒，从 $g$ 到 $f$ ，最终确保复合函数 $\circ f$ 也能传递“可测”这个特性。

推论：random variable的变换

如果 $X$ 是一个随机变量，且 $f$ 是一个 Borel 函数，那么 $\circ X$ 也是一个随机变量。这实际上是一种非常常见的操作：我们经常会对随机变量进行各种变换，而我们希望变换之后仍然保持它的“随机性”，也就是说，变换后的变量仍然是随机变量。

根据 定理3.1，因为 $X$ 是随机变量，意味着 $X$ 是可测的，而 $f$ 作为 Borel 函数也是可测的。于是由定理3.1，我们知道 $\circ X$ 是可测的，因此 $\circ X$ 是随机变量。

比如对一个正态分布的随机变量 $X$ ，我们可以定义 $\sin(X)$ ， $Y$ 也是一个随机变量

定理3.2 连续函数的可测性

如果一个函数 $\mathbb{R} \to \mathbb{R}$ 是连续的，那么它就是可测的（标记为 Ⓜ ）。

证明思路

首先，我们回顾一下 $\mathcal{B}(\mathbb{R})$ ，它表示 $\mathbb{R}$ 上的 Borel $\sigma$ -代数。这就是所有在 $\mathbb{R}$ 上的 Borel 集构成的集合。它是通过开集生成的，所以我们可以写成：
$\mathcal{B}(\mathbb{R}) = \sigma(\mathcal{O})$
其中 $\mathcal{O}$ 是所有开集的集合。

接下来，我们看一下 $f^{-1}(\mathcal{B}(\mathbb{R}))$ 。因为 $f$ 是连续的，所以它的逆像也保留了“开集”的特性。
$f^{-1}(\mathcal{B}(\mathbb{R})) = f^{-1}(\sigma(\mathcal{O})) = \sigma(f^{-1}(\mathcal{O})) \subset \sigma(\mathcal{O}) = \mathcal{B}(\mathbb{R})$
这条式子说明了， $f$ 的逆像仍然在 Borel $\sigma$ -代数 $\mathcal{B}(\mathbb{R})$ 内，因此 $f$ 是可测的。

定理3.3 可测函数的线性组合

如果我们有两个可测函数 $\Omega \to \mathbb{R}$ 和 $\Omega \to \mathbb{R}$ ，那么它们的线性组合 $\alpha f + \beta g$ 也是可测的，其中 $\alpha$ 和 $\beta$ 是实数。

背后的逻辑

假设 $f$ 和 $g$ 都是可测的，这意味着它们的逆像属于测度空间 $(\Omega, \mathcal{F})$ 。线性组合的逆像可以用 $f$ 和 $g$ 的逆像表示，而测度空间的结构允许我们对这些逆像进行加法和数乘运算，这就是为什么 $\alpha f + \beta g$ 仍然保持可测性的原因。

关于拓展实数集的延伸

我们可以把实数集 $\mathbb{R}$ 拓展到包含正负无穷的扩展实数集 $\overline{\mathbb{R}} = \mathbb{R} \cup \{-\infty, +\infty\}$ 。在这种拓展下，之前关于可测函数的定义和结论仍然成立

定理3.4 可测函数的极限依旧为可测性

如果我们有一列可测函数 ${f_n\}$ ，那么这列函数的几个极限也都是可测的。

具体包括以下五种操作：

上确界 $\sup_{n \geq 1} f_n$ ：即函数序列的“最大上界”。
下确界 $\inf_{n \geq 1} f_n$ ：即函数序列的“最小下界”。
上极限 $\limsup_{n \to \infty} f_n$ ：这是在取极限时“最远达到”的上界值。
下极限 $\liminf_{n \to \infty} f_n$ ：这是在取极限时“最远达到”的下界值。
极限 $\lim_{n \to \infty} f_n$ （当极限存在时）：也就是序列最终收敛到的值。

这些极限结果也同样是随机变量

随机变量的概率律（Law of $X$ ）

设 $X$ 是定义在概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 上的随机变量，那么 $X$ 的概率律就是一个从 $\mathcal{B}(\mathbb{R})$ 到 $[0, 1]$ 的概率测度，记作 $\mathbb{P}_X$ 。它表示为：

$\mathbb{P}_X(B) = \mathbb{P}(X^{-1}(B)) = \mathbb{P}(X \in B)$

其中， $\in \mathcal{B}(\mathbb{R})$ 是 $\mathbb{R}$ 上的 Borel 集。

解释

可以把 $\mathbb{P}_X(B)$ 理解为“ $X$ 落在集合 $B$ 中的概率”。也就是说， $\mathbb{P}_X$ 表示随机变量 $X$ 的分布，它告诉我们 $X$ 的取值在实数线上的分布情况。

在直观上，这个分布 $\mathbb{P}_X$ 告诉我们，随机变量 $X$ 的可能取值在哪里出现的概率最高、哪里出现的概率最低。例如，若 $X$ 是一个服从正态分布的随机变量，那么 $\mathbb{P}_X$ 就是一个高斯分布，它反映了 $X$ 的概率分布特性。

分布函数 $F_X$ 的定义

分布函数 $F_X: \mathbb{R} \to [0, 1]$ 定义为
$F_X(x) = \mathbb{P}(X \leq x)$
对于任意 $\in \mathbb{R}$ 。也就是说， $F_X(x)$ 表示随机变量 $X$ 取值小于或等于 $x$ 的概率。
$F_X(x) = \mathbb{P}(X^{-1}((-\infty, x])) = \mathbb{P}(X \leq x)$

分布函数的性质

$F_X$ 具有以下四个重要性质：

单调性： $F_X$ 是递增的，也就是说，当 $x$ 增大时， $F_X(x)$ 也不会减小。因为对于任意 $x_1 < x_2$ ，事件 $\{X \leq x_1\}$ 包含于事件 $\{X \leq x_2\}$ ，所以有 $F_X(x_1) \leq F_X(x_2)$ 。
右连续性： $F_X$ 是右连续的。也就是说， $\lim_{x \to x_0^+} F_X(x) = F_X(x_0)$ 。这保证了在 $x$ 向右逼近的过程中， $F_X$ 不会出现突变。右连续性在概率论中很重要，因为很多关于分布的操作依赖于这种平稳的行为。
边界条件：当 $\to -\infty$ 时， $F_X(x) \to 0$ 。这是因为 $X$ 取值小于极小值的概率趋于零；而当 $\to +\infty$ 时， $F_X(x) \to 1$ ，因为 $X$ 取值小于极大值的概率趋于 1。
唯一性： $F_X$ 唯一地确定了 $X$ 的概率分布。因为分布函数 $F_X$ 满足以上性质，它可以用来唯一地描述 $X$ 的分布。这一点可以通过 $\pi$ -系统的结果来证明。

在图片中， $F_X(x)$ 的图像是一条递增的曲线，右端逼近 1，左端逼近 0。中间可能会出现跳跃点，但这些跳跃都是向上跳跃的，并且 $F_X$ 在每一个点都保持右连续。

随机变量的密度函数

如果分布函数 $F_X$ 是绝对连续的，我们可以将它表示为一个积分：
$F_X(x) = \int_{-\infty}^x f_X(y) \, dy$
其中 $f_X: \mathbb{R} \to [0, \infty)$ 是一个 Borel 可测函数，这个函数就是 概率密度函数（Probability Density Function, PDF）。我们可以通过 $f_X$ 的积分来找到任意区间的概率。例如，对于 $\in \mathcal{B}(\mathbb{R})$ ，有
$\mathbb{P}_X(B) = \int_B f_X(x) \, dx$

解释

需要注意的是，密度函数 $f_X$ 是在Lebesgue测度意义下唯一的，这也就是说它唯一地描述了随机变量 $X$ 的分布（除了一个Lebesgue测度为零的集合）。

Example ：常见分布的例子

(I) 离散型随机变量

Bernoulli 分布： $\sim \text{Be}(p)$ ，其中 $\in [0, 1]$ 。这个分布表示一个只有两个可能取值的随机变量：
$\mathbb{P}(X = 1) = p, \quad \mathbb{P}(X = 0) = 1 - p$
Binomial 分布： $\sim \text{Bi}(n, p)$ ，其中 $\geq 1$ 且 $\in [0, 1]$ 。这是 $n$ 次独立的伯努利试验成功的次数：
$\mathbb{P}(X = k) = \binom{n}{k} p^k (1 - p)^{n - k}, \quad 0 \leq k \leq n$
Geometric 分布： $\sim \text{Ge}(p)$ ，其中 $\in [0, 1]$ 。表示直到第一次成功之前失败的次数：
$\mathbb{P}(X = n) = p (1 - p)^{n - 1}, \quad n \geq 1$

(II) 连续型随机变量

Uniform 分布： $\sim \text{U}(a, b)$ ，其中 $a < b$ 。这是在区间 $[a, b]$ 上均匀分布的随机变量，密度函数为
$f_X(x) = \begin{cases} \frac{1}{b - a} & \text{if } x \in [a, b] \\ 0 & \text{otherwise} \end{cases}$
Exponential 分布： $\sim \text{Exp}(\lambda)$ ，其中 $\lambda > 0$ 。这是一个用于描述事件时间的分布，密度函数为
$f_X(x) = \begin{cases} \lambda e^{-\lambda x} & \text{if } x > 0 \\ 0 & \text{otherwise} \end{cases}$
Normal/Gaussian 分布： $\sim \mathcal{N}(\mu, \sigma^2)$ ，其中 $\mu \in \mathbb{R}, \sigma > 0$ 。这是非常常见的正态分布，密度函数为
$f_X(x) = \frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x - \mu)^2}{2 \sigma^2}}, \quad x \in \mathbb{R}$

由随机变量生成的 $\sigma$ -代数

给定一个随机变量 $X$ ，定义在概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 上，我们可以找到一个最小的 $\sigma$ -代数使得 $X$ 是可测的。这个 $\sigma$ -代数被称为由 $X$ 生成的 $\sigma$ -代数，记作 $\sigma(X)$ 。它定义为：
$\sigma(X) := X^{-1}(\mathcal{B}(\mathbb{R})) = \{X^{-1}(B) | B \in \mathcal{B}(\mathbb{R})\}.$

解释

$\sigma(X)$ 包含了所有可以通过 $X$ 来描述的事件。换句话说，如果我们知道 $\sigma(X)$ 中的信息，那么我们就能“完全”地知道 $X$ 的行为。例如，假设 $X$ 是一个连续随机变量，那么 $\sigma(X)$ 就包含了所有关于 $X$ 的事件，比如 $\leq x$ 的事件集合。。

定理3.5 $\sigma(Y)$ -可测性

假设我们有两个随机变量 $X$ 和 $Y$ ，定义在同一个概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 上。如果 $X$ 是 $\sigma(Y)$ -可测的，这意味着 $X$ 可以“通过 $Y$ 来表示”。

$X$ 是 $\sigma(Y)$ -可测当且仅当存在一个可测函数 $\mathbb{R} \to \mathbb{R}$ 使得 $X = f (Y)$ 。

证明思路

假设 $X = f (Y)$ ，其中 $f$ 是可测的。要证明 $X$ 是 $\sigma(Y)$ -可测，我们可以使用逆像的概念：

$X^{-1}(\mathcal{B}(\mathbb{R})) = Y^{-1}(f^{-1}(\mathcal{B}(\mathbb{R}))) \subseteq Y^{-1}(\mathcal{B}(\mathbb{R})) = \sigma(Y).$

因为 $f$ 是可测的， $f^{-1}(\mathcal{B}(\mathbb{R})) \subseteq \mathcal{B}(\mathbb{R})$ ，所以 $X^{-1}(\mathcal{B}(\mathbb{R})) \subseteq \sigma(Y)$ 。这说明 $X$ 是 $\sigma(Y)$ -可测的。

可以把 $\sigma(Y)$ -可测性理解为： $X$ 的行为可以通过 $Y$ 来表示。比如，如果 $X$ 和 $Y$ 表示相关的物理量（比如温度和气压），并且 $X$ 可以写成 $Y$ 的某种函数形式，那么我们说 $X$ 是 $\sigma(Y)$ -可测的，这就意味着所有关于 $X$ 的事件可以通过 $Y$ 的事件来描述。

由随机变量生成的 $\sigma$ -代数

假设我们有一组随机变量 $\{X_i\}_{i \in I}$ ，定义在同一概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ 上。由这些随机变量生成的 $\sigma$ -代数，记作 $\sigma(X_i \mid i \in I)$ ，是能够使得所有 $X_i$ 可测的最小 $\sigma$ -代数。

具体来说，这个 $\sigma$ -代数可以表示为：
$\sigma(X_i \mid i \in I) := \sigma\left(\bigcup_{i \in I} X_i^{-1}(\mathcal{B}(\mathbb{R}))\right) = \sigma\left(\{X_i^{-1}(B) \mid B \in \mathcal{B}(\mathbb{R}), i \in I\}\right).$

解释

这就是说， $\sigma(X_i \mid i \in I)$ 包含了所有可以通过任意一个 $X_i$ 来描述的事件。它是所有这些 $X_i$ 的信息的集合，可以理解为我们能够通过观测这组随机变量 ${X_i\}$ 得到全部的信息。

需要注意的是，在构建 $\sigma(X_i \mid i \in I)$ 时，我们不能仅仅取各个 $\sigma(X_i)$ 的并集，因为并集不一定是 $\sigma$ -代数。为确保构成 $\sigma$ -代数，我们需要再取一个 $\sigma$ 运算，这就像是在并集上“封闭”一次，使其满足 $\sigma$ -代数的性质。

假设场景

假设我们有一个概率空间 $(\Omega, \mathcal{F}, \mathbb{P})$ ，其中样本空间 $\Omega = \{1, 2, 3, 4\}$ 。定义两个随机变量 $X$ 和 $Y$ ，它们的取值如下：

$X$ 只取值 $1$ 和 $2$ ：
- $X (1) = 1$
- $X (2) = 1$
- $X (3) = 2$
- $X (4) = 2$
$Y$ 只取值 $1$ 和 $2$ ：
- $Y (1) = 1$
- $Y (2) = 2$
- $Y (3) = 1$
- $Y (4) = 2$

生成的 $\sigma$ -代数

由 $X$ 生成的 $\sigma$ -代数 $\sigma(X)$ ：

随机变量 $X$ 的取值可以将 $\Omega$ 划分为两个集合：
- ${1, 2\}$ ，对应 $X = 1$
- ${3, 4\}$ ，对应 $X = 2$
因此， $\sigma(X)$ 是由 $\Omega$ 、 ${1, 2\}$ 、 ${3, 4\}$ 和空集 $\emptyset$ 构成的集合系统，即
$\sigma(X) = \{\emptyset, \{1, 2\}, \{3, 4\}, \Omega\}.$
由 $Y$ 生成的 $\sigma$ -代数 $\sigma(Y)$ ：

随机变量 $Y$ 的取值将 $\Omega$ 划分为另外两个集合：
- ${1, 3\}$ ，对应 $Y = 1$
- ${2, 4\}$ ，对应 $Y = 2$
因此， $\sigma(Y)$ 是由 $\Omega$ 、 ${1, 3\}$ 、 ${2, 4\}$ 和空集 $\emptyset$ 构成的集合系统，即
$\sigma(Y) = \{\emptyset, \{1, 3\}, \{2, 4\}, \Omega\}.$

直接取并集的问题

如果我们直接取 $\sigma(X)$ 和 $\sigma(Y)$ 的并集，会得到如下集合：
$\sigma(X) \cup \sigma(Y) = \{\emptyset, \{1, 2\}, \{3, 4\}, \{1, 3\}, \{2, 4\}, \Omega\}.$

但这个集合系统不是一个 $\sigma$ -代数。为什么呢？因为它不满足 $\sigma$ -代数的闭合性条件。例如：

${1, 2\}$ 和 ${1, 3\}$ 都在 $\sigma(X) \cup \sigma(Y)$ 中，但它们的交集 ${1\}$ 不在这个集合里。
${1, 2\}$ 的补集 ${3, 4\}$ 是在 $\sigma(X)$ 中的，但这只是一个特殊情况。一般情况下，我们需要确保任意集合的补集也在集合系统内，而这里无法保证。