基于“蘑菇书”的强化学习知识点(五):条件期望
条件期望
- 摘要
- 一、条件期望的定义
- 二、条件期望的关键性质
- 三、条件期望的直观理解
- 四、条件期望的应用场景
- 五、简单例子
- 离散情况
- 连续情况
摘要
本系列知识点讲解基于蘑菇书EasyRL中的内容进行详细的疑难点分析!具体内容请阅读蘑菇书EasyRL!
对应蘑菇书EasyRL——2.2.2 贝尔曼方程
条件期望 是概率论中的一个核心概念,表示在给定某个条件的情况下,随机变量的期望值。条件期望不仅是一个数值,还可能是另一个随机变量。下面是条件期望的定义和具体解释。
一、条件期望的定义
对于两个随机变量 X X X 和 Y Y Y:
-
离散情况:
如果 X X X 和 Y Y Y 是离散随机变量,则 X X X 在给定 Y = y Y=y Y=y 的条件下的条件期望定义为:
E [ X ∣ Y = y ] = ∑ x x ⋅ P ( X = x ∣ Y = y ) . \mathbb{E}[X \mid Y=y] = \sum_x x \cdot P(X=x \mid Y=y). E[X∣Y=y]=x∑x⋅P(X=x∣Y=y).- P ( X = x ∣ Y = y ) P(X=x \mid Y=y) P(X=x∣Y=y) 是条件概率,表示在 Y = y Y=y Y=y 的情况下, X = x X=x X=x 的概率。
- E [ X ∣ Y = y ] \mathbb{E}[X \mid Y=y] E[X∣Y=y] 是一个数,表示在 Y = y Y=y Y=y 时,随机变量 X X X 的期望值。
-
连续情况:
如果 X X X 和 Y Y Y 是连续随机变量,则 X X X 在给定 Y = y Y=y Y=y 的条件下的条件期望定义为:
E [ X ∣ Y = y ] = ∫ − ∞ + ∞ x ⋅ f X ∣ Y ( x ∣ y ) d x , \mathbb{E}[X \mid Y=y] = \int_{-\infty}^{+\infty} x \cdot f_{X \mid Y}(x \mid y) \, dx, E[X∣Y=y]=∫−∞+∞x⋅fX∣Y(x∣y)dx,- f X ∣ Y ( x ∣ y ) f_{X \mid Y}(x \mid y) fX∣Y(x∣y) 是条件概率密度函数。
- 该积分表示在 Y = y Y=y Y=y 的条件下,随机变量 X X X 的加权平均值。
-
随机变量形式:
当 Y Y Y 不是固定值,而是一个随机变量时,条件期望 E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[X∣Y] 被看作是一个关于 Y Y Y 的新随机变量,其值依赖于 Y Y Y。直观来说, E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[X∣Y] 表示在已知 Y Y Y 的情况下, X X X 的期望值。它是一个函数:
E [ X ∣ Y ] = g ( Y ) , \mathbb{E}[X \mid Y] = g(Y), E[X∣Y]=g(Y),
其中 (g(Y)) 是某个由 (Y) 确定的函数。
二、条件期望的关键性质
-
期望的分解(全期望公式):
E [ X ] = E [ E [ X ∣ Y ] ] . \mathbb{E}[X] = \mathbb{E}[\mathbb{E}[X \mid Y]]. E[X]=E[E[X∣Y]].
这是条件期望最重要的性质,表明我们可以通过先计算条件期望,再对条件变量 Y Y Y 求期望,得到整体期望。 -
线性性:
条件期望是线性的:
E [ a X + b Y ∣ Z ] = a E [ X ∣ Z ] + b E [ Y ∣ Z ] , \mathbb{E}[aX + bY \mid Z] = a \mathbb{E}[X \mid Z] + b \mathbb{E}[Y \mid Z], E[aX+bY∣Z]=aE[X∣Z]+bE[Y∣Z],
其中 a a a 和 b b b 是常数。 -
塔式性质(Law of Iterated Expectations):
如果 X X X、 Y Y Y、 Z Z Z 是随机变量,且 Z Z Z 包含的条件比 Y Y Y 多,那么:
E [ E [ X ∣ Y ] ∣ Z ] = E [ X ∣ Z ] . \mathbb{E}[\mathbb{E}[X \mid Y] \mid Z] = \mathbb{E}[X \mid Z]. E[E[X∣Y]∣Z]=E[X∣Z]. -
条件期望约简:
如果 X X X 与 Y Y Y 条件独立于 Z Z Z,则:
E [ X ∣ Y , Z ] = E [ X ∣ Y ] . \mathbb{E}[X \mid Y, Z] = \mathbb{E}[X \mid Y]. E[X∣Y,Z]=E[X∣Y].
三、条件期望的直观理解
条件期望可以理解为在给定条件(如随机变量 Y = y Y=y Y=y)下,随机变量 X X X 的“平均值”。
-
假设你有一个测量身高 X X X 和年龄 Y Y Y 的数据集。你想知道“给定某个年龄 Y = y Y=y Y=y,对应的平均身高是多少”。这个问题的答案就是条件期望 E [ X ∣ Y = y ] \mathbb{E}[X \mid Y=y] E[X∣Y=y]。
-
如果 Y Y Y 是随机变量而不是固定值,比如不同年龄的分布未知,那么条件期望 E [ X ∣ Y ] \mathbb{E}[X \mid Y] E[X∣Y] 是一个关于 Y Y Y 的函数,用于描述不同年龄对应的平均身高。
四、条件期望的应用场景
-
强化学习:
在强化学习中,条件期望用于计算值函数(Value Function)和 Q 函数。例如,状态值函数 V ( s ) V(s) V(s) 是一个条件期望:
V ( s ) = E [ R t + γ V ( S t + 1 ) ∣ S t = s ] . V(s) = \mathbb{E}[R_t + \gamma V(S_{t+1}) \mid S_t=s]. V(s)=E[Rt+γV(St+1)∣St=s]. -
保险精算:
条件期望被用于计算在给定信息下的风险和保费。例如,给定过去的索赔记录,计算未来可能的平均赔偿额。 -
金融:
在期权定价和投资组合分析中,条件期望用于分析在给定市场条件下资产的期望收益。
五、简单例子
离散情况
假设 X X X 表示某人某天吃的苹果数, Y Y Y 表示当天的天气。我们有以下概率分布:
- P ( Y = 晴天 ) = 0.6 P(Y=\text{晴天}) = 0.6 P(Y=晴天)=0.6, P ( Y = 雨天 ) = 0.4 P(Y=\text{雨天}) = 0.4 P(Y=雨天)=0.4。
- 如果是晴天, P ( X = 1 ∣ Y = 晴天 ) = 0.3 P(X=1 \mid Y=\text{晴天}) = 0.3 P(X=1∣Y=晴天)=0.3, P ( X = 2 ∣ Y = 晴天 ) = 0.7 P(X=2 \mid Y=\text{晴天}) = 0.7 P(X=2∣Y=晴天)=0.7。
- 如果是雨天, P ( X = 1 ∣ Y = 雨天 ) = 0.8 P(X=1 \mid Y=\text{雨天}) = 0.8 P(X=1∣Y=雨天)=0.8, P ( X = 2 ∣ Y = 雨天 ) = 0.2 P(X=2 \mid Y=\text{雨天}) = 0.2 P(X=2∣Y=雨天)=0.2。
求条件期望 E [ X ∣ Y = 晴天 ] \mathbb{E}[X \mid Y=\text{晴天}] E[X∣Y=晴天] 和 E [ X ∣ Y = 雨天 ] \mathbb{E}[X \mid Y=\text{雨天}] E[X∣Y=雨天]。
解:
E
[
X
∣
Y
=
晴天
]
=
1
⋅
0.3
+
2
⋅
0.7
=
0.3
+
1.4
=
1.7.
\mathbb{E}[X \mid Y=\text{晴天}] = 1 \cdot 0.3 + 2 \cdot 0.7 = 0.3 + 1.4 = 1.7.
E[X∣Y=晴天]=1⋅0.3+2⋅0.7=0.3+1.4=1.7.
E
[
X
∣
Y
=
雨天
]
=
1
⋅
0.8
+
2
⋅
0.2
=
0.8
+
0.4
=
1.2.
\mathbb{E}[X \mid Y=\text{雨天}] = 1 \cdot 0.8 + 2 \cdot 0.2 = 0.8 + 0.4 = 1.2.
E[X∣Y=雨天]=1⋅0.8+2⋅0.2=0.8+0.4=1.2.
连续情况
假设 X X X 表示一个股票的价格变化, Y Y Y 表示市场波动程度。已知:
- f X ∣ Y ( x ∣ y ) = y ⋅ e − y x f_{X \mid Y}(x \mid y) = y \cdot e^{-yx} fX∣Y(x∣y)=y⋅e−yx(指数分布, x ≥ 0 x \geq 0 x≥0)。
- 给定
Y
=
y
Y=y
Y=y,随机变量
X
X
X 的条件期望为:
E [ X ∣ Y = y ] = ∫ 0 ∞ x ⋅ y ⋅ e − y x d x . \mathbb{E}[X \mid Y=y] = \int_0^\infty x \cdot y \cdot e^{-yx} \, dx. E[X∣Y=y]=∫0∞x⋅y⋅e−yxdx.
计算:
使用分部积分:
E
[
X
∣
Y
=
y
]
=
1
y
.
\mathbb{E}[X \mid Y=y] = \frac{1}{y}.
E[X∣Y=y]=y1.
这表明 X X X 的条件期望依赖于市场波动 Y Y Y 的大小。