当前位置: 首页 > article >正文

【论文_1992】 REINFORCE » P2 附录

Williams, R. J. Simple statistical gradient-following algorithms for connectionist reinforcement learning. Mach. Learn., 8:229–256, 1992. PDF 下载链接

前面部分:【论文_1992】 REINFORCE » P1

文章目录

  • 附录 A
    • A.1. REINFORCE 算法的一些结论
    • A.2. 回合式 REINFORCE 算法 的结论
  • 附录 B

附录 A

本附录分别包含定理 1 和定理 2 关于 REINFORCE 和回合式 REINFORCE 算法的证明。除了文中介绍的符号外,我们还将一些感兴趣的集合符号化,
Y i Y_i Yi 表示第 i i i 个单元可能的输出值 y i y_i yi 的集合;
其中 X i X_i Xi 表示该单元的输入向量 x i {\bf x}^i xi 的可能值的集合。
虽然它不是一个关键的假设,我们让 Y i Y_i Yi X i X_i Xi 自始至终都是离散集。
同样,我们让 I I I 表示 W \bf W W 的元素的索引集,使得 ( i , j ) ∈ I (i, j) \in I (i,j)I 当且仅当 w i j w_{ij} wij 是系统中的一个参数。

这里应当指出,为了简洁起见,本附录中所证明的所有断言都使用了一种约定,在这种约定中,每个未绑定的变量都被隐式地假定为在一组适当的值上被普遍量化。
例如,无论何时出现 i i i j j j,它们都被认为是任意的(仅受 ( i , j ) ∈ I (i, j) \in I (i,j)I 的约束)

A.1. REINFORCE 算法的一些结论

事实 1:

∂ E { r ∣ W , x i } ∂ w i j = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) \frac{\partial E\{r|{\bf W},{\bf x}^i\} }{\partial w_{ij}}=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i) wijE{rW,xi}=ξYiE{rW,xi,yi=ξ}wijgi(ξ,wi,xi)

证明:
根据可能的输出值 y i y_i yi ,我们可以写

E { r ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) \begin{aligned}E\{r|{\bf W},{\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\{r|{\bf W},{\bf x}^i,y_i=\xi\}\textcolor{blue}{g_i}(\xi,\textcolor{blue}{{\bf w}^i}, {\bf x}^i)\end{aligned} E{rW,xi}=ξYiE{rW,xi,yi=ξ}Pr{yi=ξW,xi}=ξYiE{rW,xi,yi=ξ}gi(ξ,wi,xi)

注意 y i y_i yi 的值的指定使得 w i j w_{ij} wij r r r 的最终值没有影响,即 E { r ∣ W , x i , y i = ξ } E\{r|{\bf W},{\bf x}^i,y_i=\xi\} E{rW,xi,yi=ξ} 不依赖于 w i j w_{ij} wij
通过对最后一个方程两边对 w i j w_{ij} wij 求导得到结果


事实 2:

∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) = 0 \sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)=0 ξYiwijgi(ξ,wi,xi)=0

证明:

∑ ξ ∈ Y i g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i Pr ( x = ξ , w i , x i ) = 1 \sum\limits_{\xi\in Y_i} g_i(\xi,{\bf w}^i, {\bf x}^i)=\sum\limits_{\xi\in Y_i} \text{Pr}( \textcolor{red}{x} =\xi,{\bf w}^i, {\bf x}^i)=1 ξYigi(ξ,wi,xi)=ξYiPr(x=ξ,wi,xi)=1

  • 应该为 y ???

结果是对 w i j w_{ij} wij 求导。


引理 1: 对任意 REINFORCE 算法, 有:

E { Δ w i j ∣ W , x i } = α i j ∂ E { r ∣ W , x i } ∂ w i j E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}=\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i\}}{\partial w_{ij}} E{ΔwijW,xi}=αijwijE{rW,xi}

证明: 首先注意,特征资格 characteristic eligibility 可以写为:
  ~  
e i j = ∂ ln ⁡ g i ∂ w i j = 1 g i ∂ g i ∂ w i j e_{ij}=\frac{\partial \ln g_i}{\partial w_{ij}}=\frac{1}{g_i}\frac{\partial g_i}{\partial w_{ij}} eij=wijlngi=gi1wijgi
  ~  
尽管在 g i = 0 g_i=0 gi=0 时无法定义,但只要 Y i Y_i Yi 是离散的,对于任何强化算法, Δ w i j \Delta w_{ij} Δwij 仍然是定义良好的。
这是因为 g i ( ξ , w i , x i ) = 0 g_i(\xi,{\bf w}^i, {\bf x}^i) = 0 gi(ξ,wi,xi)=0 意味着该值作为输出 y i y_i yi 的值出现的概率为零。

E { Δ w i j ∣ W , x i } = ∑ ξ ∈ Y i E { Δ w i j ∣ W , x i , y i = ξ } Pr { y i = ξ ∣ W , x i } = ∑ ξ ∈ Y i E { α i j ( r − b i j ) g i ( ξ , w i , x i ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } g i ( ξ , w i , x i ) = ∑ ξ ∈ Y i E { α i j ( r − b i j ) ∂ g i ∂ w i j ( ξ , w i , x i ) ∣ W , x i , y i = ξ } = α i j ∑ ξ ∈ Y i E { r ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ α i j ∂ E { r ∣ W , x i } ∂ w i j        − α i j ∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ =   0 \begin{aligned}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i\}&=\sum\limits_{\xi\in Y_i}E\{\Delta w_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\text{Pr}\{y_i=\xi|{\bf W}, {\bf x}^i\}\\ &=\sum\limits_{\xi\in Y_i}E\Big\{\frac{\alpha_{ij}(r-b_{ij})}{g_i(\xi, {\bf w}^i, {\bf x}^i)}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\Big\}g_i(\xi,{\bf w}^i, {\bf x}^i)\\ &=\sum\limits_{\xi\in Y_i}E\{\alpha_{ij}(r-b_{ij})\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)|{\bf W}, {\bf x}^i, y_i=\xi\}\\ &=\underbrace{\alpha_{ij}\sum\limits_{\xi\in Y_i}E\{r|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{\alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}}}\\ &~~~~~~-\alpha_{ij}\underbrace{\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\end{aligned} E{ΔwijW,xi}=ξYiE{ΔwijW,xi,yi=ξ}Pr{yi=ξW,xi}=ξYiE{gi(ξ,wi,xi)αij(rbij)wijgi(ξ,wi,xi)W,xi,yi=ξ}gi(ξ,wi,xi)=ξYiE{αij(rbij)wijgi(ξ,wi,xi)W,xi,yi=ξ}=αijwijE{rW,xi} αijξYiE{rW,xi,yi=ξ}wijgi(ξ,wi,xi)      αij= 0 ξYiE{bijW,xi,yi=ξ}wijgi(ξ,wi,xi)

利用 α i j \alpha_{ij} αij 不依赖于输出 y i y_i yi 的特定值这一事实;
根据事实 1,最后一个表达式的第一项是 α i j ∂ E { r ∣ W , x i } ∂ w i j \alpha_{ij}\frac{\partial E\{r|{\bf W}, {\bf x}^i\}}{\partial w_{ij}} αijwijE{rW,xi}
考虑剩下的项。

因为 E { b i j ∣ W , x i , y i = ξ } = E { b i j ∣ W , x i } E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}=E\{b_{ij}|{\bf W}, {\bf x}^i\} E{bijW,xi,yi=ξ}=E{bijW,xi},根据假设,我们有

∑ ξ ∈ Y i E { b i j ∣ W , x i , y i = ξ } ∂ g i ∂ w i j ( ξ , w i , x i ) = E { b i j ∣ W , x i } ∑ ξ ∈ Y i ∂ g i ∂ w i j ( ξ , w i , x i ) ⏟ =   0 = 0 \begin{aligned}&\sum\limits_{\xi\in Y_i}E\{b_{ij}|{\bf W}, {\bf x}^i, y_i=\xi\}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)\\ &=E\{b_{ij}|{\bf W}, {\bf x}^i\}\underbrace{\sum\limits_{\xi\in Y_i}\frac{\partial g_i}{\partial w_{ij}}(\xi,{\bf w}^i, {\bf x}^i)}_{=~0}\\ &=0\end{aligned} ξYiE{bijW,xi,yi=ξ}wijgi(ξ,wi,xi)=E{bijW,xi}= 0 ξYiwijgi(ξ,wi,xi)=0

由事实 2, 证毕。


事实 3:

∂ E { r ∣ W } ∂ w i j = ∑ x ∈ X i E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{{\bf x}\in {\bf X}_i}\frac{E\{r|{\bf W}, {\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} wijE{rW}=xXiwijE{rW,xi=x}Pr{xi=xW}

证明: 对于可能的输入模式 x i {\bf x}^i xi,我们可以这样写

E { r ∣ W } = ∑ x ∈ X i E { r ∣ W , x i = x } Pr { x i = x ∣ W } E\{r|{\bf W}\}=\sum\limits_{{\bf x}\in {\bf X}_i}E\{r|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} E{rW}=xXiE{rW,xi=x}Pr{xi=xW}

注意,权重 w i j w_{ij} wij 位于为确定 x i {\bf x}^i xi 而执行的所有计算的下游。
这意味着 Pr { x i = x ∣ W } \text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} Pr{xi=xW} 不依赖于 w i j w_{ij} wij ,因此结果是最后一个方程的两边同时除以 w i j w_{ij} wij

引理 2: 对于 任意的 REINFORCE 算法

E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{ΔwijW}=αijwijE{rW}

证明:

E { Δ w i j ∣ W } = ∑ x ∈ X i E { Δ w i j ∣ W , x i = x } Pr { x i = x ∣ W } = ∑ x ∈ X i α i j ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W } = α i j ∑ x ∈ X i ∂ E { r ∣ W , x i = x } ∂ w i j Pr { x i = x ∣ W }        α i j  不依赖单元输入 = α i j ∑ x ∈ X i ∂ E { r ∣ W } ∂ w i j     事实  3   从右往左 \begin{aligned}E\{\Delta w_{ij}|{\bf W}\} &=\sum\limits_{{\bf x}\in {\bf X}_i}E\{\Delta w_{ij}|{\bf W},{\bf x}^i={\bf x}\}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\sum\limits_{{\bf x}\in {\bf X}_i}\alpha_{ij}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W},{\bf x}^i={\bf x}\}}{\partial w_{ij}}\text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\}~~~~~~\textcolor{blue}{\alpha_{ij}~不依赖单元输入}\\ &=\alpha_{ij}\sum\limits_{{\bf x}\in {\bf X}_i}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}~~~\textcolor{blue}{事实~ 3 ~~从右往左 }\end{aligned} E{ΔwijW}=xXiE{ΔwijW,xi=x}Pr{xi=xW}=xXiαijwijE{rW,xi=x}Pr{xi=xW}=αijxXiwijE{rW,xi=x}Pr{xi=xW}      αij 不依赖单元输入=αijxXiwijE{rW}   事实 3  从右往左

其中第一个等式是通过对单元的可能输入模式计算条件概率得到的,
第二个等式是根据引理 1 得出的,
第三个等式是根据 α i j \alpha_{ij} αij 不依赖于单元输入的假设得出的,
最后一个等式是根据事实 3 得出的。

建立最后一个结果是关键的一步,它就像引理 1 一样,除了对单元 i i i 的输入的条件概率已经从方程的两边去掉了。
它涉及到两个量,不像引理 1,一般来说计算起来会很麻烦因为 Pr { x i = x ∣ W } \text{Pr}\{{\bf x}^i={\bf x}|{\bf W}\} Pr{xi=xW} 会很复杂。
从这个引理可以很容易地得出我们的主要结论。

定理 1: 对于任何 REINFORCE 算法, E { Δ W ∣ W } E\{\Delta {\bf W}|{\bf W}\} E{ΔWW} ∇ w E { r ∣ W } \nabla _{\bf w}E\{r|{\bf W}\} wE{rW} 的内积是非负的。即 E { Δ W ∣ W } T ∇ w E { r ∣ W } ≥ 0 E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\} ≥ 0 E{ΔWW}TwE{rW}0
更进一步,如果对所有 i i i j j j, 都有 α i j \alpha_{ij} αij > 0,那么只有当 ∇ w E { r ∣ W } = 0 \nabla _{\bf w}E\{r|{\bf W}\}=0 wE{rW}=0 时,这个内积才为 0。

E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}&E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}\\ &=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔWW}TwE{rW}=(i,j)IE{ΔwijW}wijE{rW}=(i,j)Iαij(wijE{rW})2

根据引理 2,即得结果。

A.2. 回合式 REINFORCE 算法 的结论

对回合式 REINFORCE 算法 的分析是基于 unfolds -in-time 映射,它将原始网络 N N N 与其 unfolds -in-time无环网络 N ∗ N^* N 相关联。
关键的观察是,让 N N N 面对它的学习问题相当于让 N ∗ N^* N 面对一个相应的联想学习问题。
W ∗ {\bf W}^* W 表示 N ∗ N^* N 的权重矩阵,其单个组件的权量表示为 w i j t w_{ij}^t wijt
N ∗ N^* N 中的权重 w i j t w_{ij}^t wijt 对应于 N N N 中 在 第 t t t 个时间步的权重 w i j w_{ij} wij,因此对所有 i , j , t i,j,t i,j,t, 有 w i j t = w i j w_{ij}^t=w_{ij} wijt=wij
因为这些网络之间的通信,需要注意的是,指定 W \bf W W 相当于指定 W ∗ {\bf W}^* W,
同时,学习问题之间的对应关系,我们可以考虑强化 r r r 对于这两个问题是一样的。

事实 4:

∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} wijE{rW}=t=1kwijtE{rW}

证明: 根据链式法则

∂ E { r ∣ W } ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t ∂ w i j t ∂ w i j = ∑ t = 1 k ∂ E { r ∣ W } ∂ w i j t = ∑ t = 1 k ∂ E { r ∣ W ∗ } ∂ w i j t \begin{aligned}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}&=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\frac{\partial w_{ij}^t}{\partial w_{ij}}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}^t}\\ &=\sum\limits_{t=1}^k\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\end{aligned} wijE{rW}=t=1kwijtE{rW}wijwijt=t=1kwijtE{rW}=t=1kwijtE{rW}

因为 对于所有的 t t t, 都有 w i j t = w i j w_{ij}^t=w_{ij} wijt=wij


引理 3. 对任意 回合式 REINFORCE 算法

E { Δ w i j ∣ W } = α i j ∂ E { r ∣ W } ∂ w i j E\{\Delta w_{ij}|{\bf W}\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}} E{ΔwijW}=αijwijE{rW}

证明:
Δ w = α i j ( r − b i j ) e i j t \Delta w= \alpha_{ij}(r-b_{ij})e_{ij}^t Δw=αij(rbij)eijt,使 Δ w i j = ∑ t = 1 k Δ w i j t \Delta w_{ij}= \sum\limits_{t=1}^k\Delta w_{ij}^t Δwij=t=1kΔwijt
注意,这表示的是 N ∗ N^* N 中的 REINFORCE 算法,因此根据引理 2

E { Δ w i j t ∣ W ∗ } = α i j ∂ E { r ∣ W ∗ } ∂ w i j t E\{\Delta w_{ij}^t|{\bf W}^*\}=\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t} E{ΔwijtW}=αijwijtE{rW}

E { Δ w i j ∣ W } = E { ∑ t = 1 k Δ w i j t ∣ W ∗ } = ∑ t = 1 k E { Δ w i j t ∣ W ∗ } = ∑ t = 1 k α i j ∂ E { r ∣ W ∗ } ∂ w i j t = α i j ∂ E { r ∣ W } ∂ w i j \begin{aligned}E\{\Delta w_{ij}|{\bf W}\}&=E\Big\{\sum\limits_{t=1}^k\Delta w_{ij}^t|{\bf W}^*\Big\}\\ &=\sum\limits_{t=1}^kE\{\Delta w_{ij}^t|{\bf W}^*\}\\ &=\sum\limits_{t=1}^k\alpha_{ij}\frac{\partial E\{r|{\bf W}^*\}}{\partial w_{ij}^t}\\ &=\alpha_{ij}\frac{\partial E\{r|{\bf W}\}}{\partial w_{ij}}\end{aligned} E{ΔwijW}=E{t=1kΔwijtW}=t=1kE{ΔwijtW}=t=1kαijwijtE{rW}=αijwijE{rW}

最后一个等式来自事实 4。右 ——> 左

定理 2: 和 定理 1 完全一样
对于任何 回合式 REINFORCE 算法, E { Δ W ∣ W } E\{\Delta {\bf W}|{\bf W}\} E{ΔWW} ∇ w E { r ∣ W } \nabla _{\bf w}E\{r|{\bf W}\} wE{rW} 的内积是非负的。
更进一步,如果对所有 i i i j j j, 都有 α i j \alpha_{ij} αij > 0,那么只有当 ∇ w E { r ∣ W } = 0 \nabla _{\bf w}E\{r|{\bf W}\}=0 wE{rW}=0 时,这个内积才为 0。

证明:

E { Δ W ∣ W } T ∇ w E { r ∣ W } = ∑ ( i , j ) ∈ I E { Δ w i j ∣ W } E { r ∣ W } ∂ w i j = ∑ ( i , j ) ∈ I α i j ( E { r ∣ W } ∂ w i j ) 2 \begin{aligned}E\{\Delta {\bf W}|{\bf W}\}^T\nabla _{\bf w}E\{r|{\bf W}\}&=\sum\limits_{(i,j)\in I}E\{\Delta w_{ij}|{\bf W}\}\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\\ &=\sum\limits_{(i,j)\in I}\alpha_{ij}\Big(\frac{E\{r|{\bf W}\}}{\partial w_{ij}}\Big)^2\end{aligned} E{ΔWW}TwE{rW}=(i,j)IE{ΔwijW}wijE{rW}=(i,j)Iαij(wijE{rW})2

根据引理 3,即得结果。

注意定理 2 的证明和定理 1 的证明是一样的。
这是因为定理 1 使用引理 2 ,定理 2 使用引理 3,两个引理都有相同的结论。

附录 B

本附录专门用于证明以下结果:

命题 1 假设概率质量或密度函数 g g g 有这样的形式:
g ( y , μ , θ 2 , ⋯   , θ k ) = exp ⁡ [ Q ( μ , θ 2 , ⋯   , θ k ) ] y + D ( μ , θ 2 , ⋯   , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,,θk)=exp[Q(μ,θ2,,θk)]y+D(μ,θ2,,θk)+S(y)
Q , D , S Q,D,S Q,D,S 为函数, μ , θ 2 , ⋯   , θ k \mu,\theta_2,\cdots,\theta_k μ,θ2,,θk 为参数。 μ \mu μ 是分布的均值。
∂ ln ⁡ g ∂ μ = y − μ σ 2 \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} μlng=σ2yμ
其中 σ 2 \sigma^2 σ2 是分布的方差

————————————
整理的 :
目标: 证明 μ \mu μ 的 characteristic eligibility ∂ ln ⁡ g ∂ μ = y − μ σ 2 \frac{\partial \ln g}{\partial \mu}=\frac{y-\mu}{\sigma^2} μlng=σ2yμ

其中 g ( y , μ , θ 2 , ⋯   , θ k ) = exp ⁡ [ Q ( μ , θ 2 , ⋯   , θ k ) ] y + D ( μ , θ 2 , ⋯   , θ k ) + S ( y ) g(y, \mu, \theta_2, \cdots, \theta_k)=\exp[Q(\mu,\theta_2,\cdots,\theta_k)]y+D(\mu,\theta_2,\cdots,\theta_k)+S(y) g(y,μ,θ2,,θk)=exp[Q(μ,θ2,,θk)]y+D(μ,θ2,,θk)+S(y)

输出 y y y 是由密度函数 g g g 确定的

α = ∂ Q ∂ μ \alpha=\frac{\partial Q}{\partial \mu} α=μQ β = ∂ D ∂ μ β= \frac{\partial D}{\partial \mu} β=μD
  ~  
∂ ln ⁡ g ∂ μ = ∂ Q ∂ μ y + ∂ D ∂ μ = α y + β \frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta μlng=μQy+μD=αy+β
  ~  

————————————
原文:
证明:这里我们只考虑概率质量函数的情况,但密度函数可以给出相应的参数。

设 Y 是 g 确定的分布。
  ~  
∑ y ∈ Y g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y ∂ g ∂ μ = ∂ ∂ μ ∑ y ∈ Y g = 0            ( 15 ) \sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}\frac{\partial g}{\partial \mu}=\frac{\partial }{\partial \mu}\sum\limits_{y\in Y}g=0~~~~~~~~~~(15) yYgμlng=yYμg=μyYg=0          (15)
  ~  
由于 ∑ y ∈ Y g = 1 \sum\limits_{y\in Y}g=1 yYg=1, 结合 μ = ∑ y ∈ Y y g \mu=\sum\limits_{y\in Y}yg μ=yYyg
∑ y ∈ Y ( y − μ ) g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y y g ∂ ln ⁡ g ∂ μ − μ ∑ y ∈ Y g ∂ ln ⁡ g ∂ μ ⏟ 由式  ( 15 ) , 为  0 = ∑ y ∈ Y y ∂ g ∂ μ = ∂ ∂ μ ∑ y ∈ Y y g ⏟ =   μ = 1            ( 16 ) \begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}yg\frac{\partial \ln g}{\partial \mu}-\mu\underbrace{\sum\limits_{y\in Y} g\frac{\partial \ln g}{\partial \mu}}_{由 式 ~(15), 为~ 0}\\ &=\sum\limits_{y\in Y}y\frac{\partial g}{\partial \mu}\\ &=\frac{\partial }{\partial \mu}\underbrace{\sum\limits_{y\in Y}yg}_{=~\mu}\\ &=1\end{aligned}~~~~~~~~~~(16) yY(yμ)gμlng=yYygμlngμ由式 (15), 0 yYgμlng=yYyμg=μ= μ yYyg=1          (16)
  ~  
现在引入简写符号 α = ∂ Q ∂ μ \alpha=\frac{\partial Q}{\partial \mu} α=μQ β = ∂ D ∂ μ β= \frac{\partial D}{\partial \mu} β=μD。从命题的假设, 我们有
  ~  
∂ ln ⁡ g ∂ μ = ∂ Q ∂ μ y + ∂ D ∂ μ = α y + β \frac{\partial \ln g}{\partial \mu}=\frac{\partial Q}{\partial \mu}y+\frac{\partial D}{\partial \mu}=\alpha y+\beta μlng=μQy+μD=αy+β
  ~  

  ~  
∑ y ∈ Y g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y ( α y + β ) g = α ∑ y ∈ Y y g + β ∑ y ∈ Y g = α μ + β ⏟ 根据式  ( 15 ) , =   0            ( 17 ) \sum\limits_{y\in Y}\textcolor{blue}{g}\frac{\partial \ln g}{\partial \mu}=\sum\limits_{y\in Y}(\alpha y+\beta)g=\alpha \sum\limits_{y\in Y}yg+\beta\sum\limits_{y\in Y}g=\underbrace{\alpha \mu +\beta}_{根据 式 ~(15) ,=~0}~~~~~~~~~~(17) yYgμlng=yY(αy+β)g=αyYyg+βyYg=根据式 (15)= 0 αμ+β          (17)
  ~  

  ~  
∑ y ∈ Y ( y − μ ) g ∂ ln ⁡ g ∂ μ = ∑ y ∈ Y ( y − μ ) ( α y + β ) g = ∑ y ∈ Y ( y − μ ) [ α ( y − μ ) + α μ + β ] g = α ∑ y ∈ Y ( y − μ ) 2 g + ( α μ + β ) ∑ y ∈ Y ( y − μ ) g ⏟ =   0 = α σ 2 ⏟ 根据式  ( 16 ) , =   1            ( 18 ) \begin{aligned}\sum\limits_{y\in Y}\textcolor{blue}{(y-\mu)g}\frac{\partial \ln g}{\partial \mu}&=\sum\limits_{y\in Y}(y-\mu)(\alpha y+\beta)g\\ &=\sum\limits_{y\in Y}(y-\mu)[\alpha(y-\mu)+\alpha \mu+\beta]g\\ &=\alpha\sum\limits_{y\in Y}(y-\mu)^2g+(\alpha \mu +\beta)\underbrace{\sum\limits_{y\in Y}(y-\mu)g}_{=~0}\\ &=\underbrace{\alpha \sigma^2}_{根据 式 ~(16) ,=~1}\end{aligned}~~~~~~~~~~(18) yY(yμ)gμlng=yY(yμ)(αy+β)g=yY(yμ)[α(yμ)+αμ+β]g=αyY(yμ)2g+(αμ+β)= 0 yY(yμ)g=根据式 (16)= 1 ασ2          (18)
  ~  
联合 式 (15)-(18),有
  ~  
α μ + β = 0 \alpha\mu+\beta=0 αμ+β=0
  ~  
α σ 2 = 1 \alpha\sigma^2=1 ασ2=1
  ~  
则有 α = 1 σ 2 ,     β = − α μ = − μ σ 2 \alpha=\frac{1}{\sigma^2}, ~~~\beta=-\alpha\mu=-\frac{\mu}{\sigma^2} α=σ21,   β=αμ=σ2μ
  ~  
∂ ln ⁡ g ( y , μ , θ 2 , ⋯   , θ k ) ∂ μ = 1 σ 2 y − μ σ 2 = y − μ σ 2 \frac{\partial \ln g(y,\mu,\theta_2,\cdots,\theta_k)}{\partial \mu}=\frac{1}{\sigma^2}y-\frac{\mu}{\sigma^2}=\frac{y-\mu}{\sigma^2} μlng(y,μ,θ2,,θk)=σ21yσ2μ=σ2yμ


http://www.kler.cn/news/321381.html

相关文章:

  • 《程序猿之设计模式实战 · 模板方法》
  • JavaWeb美食推荐管理系统
  • 【Linux扩容根分区】LVM分区扩容过程踩坑记录
  • 计算机视觉硬件整理(四):相机与镜头参数介绍
  • EasyAR自定义相机RTSP视频流(CustomCamera)
  • uniapp自定义底部tabBar
  • Spring Boot入门到精通:网上购物商城系统
  • 实用的Git工作流程
  • docker pull镜像失败问题解决尝试
  • 【2】图像视频的加载和显示
  • 通信工程学习:什么是VIM虚拟化基础设施管理器
  • 操作配置笔记
  • 网络与信息安全工程师(工信部教育与考试中心)
  • 【网络安全】Drupal之缓存中毒+储存型XSS
  • 实时湖仓架构演变
  • 【最基础最直观的排序 —— 选择排序算法】
  • 进阶SpringBoot之 Dubbo-admin 安装测试
  • Node-GDAL:简洁强大的Node.js地理空间数据处理库
  • 什么是Node.js?
  • ElasticSearch的安装与使用
  • EasyCVR智慧公园视频智能管理方案:赋能公园安全管理新高度
  • Spring中一些常见注解的作用
  • 使用ucharts写的小程序页面柱状图上方没有数字
  • 7款国内AI搜索引擎大全网站
  • 说说海外云手机的自动化功能
  • [Redis][哨兵][上]详细讲解
  • 深入浅出MongoDB(一)
  • 嵌入式C语言自我修养:GNU C编译器扩展语法精讲
  • 利用Puppeteer-Har记录与分析网页抓取中的性能数据
  • TikTok的网络环境搭建指南