当前位置: 首页 > article >正文

模式识别-Ch3-贝叶斯估计

贝叶斯估计

贝叶斯估计是概率密度估计中另一类主要的参数估计方法。其结果在很多情况下与最大似然法十分相似,但是,两种方法对问题的处理视角是不一样的。

贝叶斯估计最大似然估计
将待估计的参数视为一个随机变量,其中的一个核心任务是根据观测数据对参数的分布进行估计。将待估计的参数当作未知但固定的变量,其任务是根据观测数据估计其在参数空间中的取值
p ( x ∣ D ) ∼ N ( μ n , σ 2 + σ n 2 ) μ n = n σ 0 2 σ 0 2 + σ 2 μ ^ n + σ 2 σ 0 2 + σ 2 μ 0 σ n 2 = σ 0 2 σ 2 n σ 0 2 + σ 2 p(x\vert D)\sim N(\mu_{n},\sigma^{2}+\sigma_{n}^{2})\\\mu_{n}=\frac{n\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\hat{\mu}_{n}+\frac{\sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}}\mu_{0}\\\sigma_{n}^{2}=\frac{\sigma_{0}^{2}\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}} p(xD)N(μn,σ2+σn2)μn=σ02+σ2nσ02μ^n+σ02+σ2σ2μ0σn2=nσ02+σ2σ02σ2$p(x\vert D)\sim N(\hat{\mu}{n},\sigma^{2})\\hat{\mu}{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_{i}\$

上面公式给出的是一维下估计。

基本方法

参数先验分布 p ( θ ) p(\theta) p(θ):是在没有任何数据时,有关参数 θ \theta θ的分布情况(根据领域知识或经验)

给定样本集 D = { x 1 , x 2 , ⋯   , x n } D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\} D={x1,x2,,xn},数据独立采样,且服从数据分布:(数据是互相独立的)
p ( D ∣ θ ) = p ( x 1 , x 2 , ⋯   , x n ∣ θ ) = ∏ i = 1 n p ( x i ∣ θ ) p(D|\theta)=p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|\theta)=\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta) p(Dθ)=p(x1,x2,,xnθ)=i=1np(xiθ)
利用贝叶斯公式计算参数的后验分布 p ( θ ∣ D ) p(\theta\vert D) p(θD) p ( θ ∣ D ) p(\theta\vert D) p(θD)中融合了先验知识和数据信息。
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) p ( D ) p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)} p(θD)=p(D)p(Dθ)p(θ)
p ( D ) p(D) p(D)是与参数无关的归一化因子,根据全概率公式(连续):
p ( D ) = ∑ θ p ( D ∣ θ ) p ( θ ) p ( D ) = ∫ θ p ( D ∣ θ ) p ( θ ) d θ p ( D ∣ θ ) ⇒ p ( x ∣ μ , σ ) = 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) p(D)=\sum_{\theta}p(D|\theta)p(\theta)\\ p(D)=\int_{\theta}p(D|\theta)p(\theta)d\theta\\ p(D|\theta)\Rightarrow p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(x - \mu)^2}{\sigma^2}\right) p(D)=θp(Dθ)p(θ)p(D)=θp(Dθ)p(θ)dθp(Dθ)p(xμ,σ)=2π σ1exp(21σ2(xμ)2)
对于一般情况,计算 p ( D ) p(D) p(D)十分困难

可得贝叶斯参数估计中的后验概率密度函数:
p ( θ ∣ D ) = p ( D ∣ θ ) p ( θ ) ∫ θ p ( D ∣ θ ) p ( θ ) d θ = ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) α = 1 ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\theta}p(D|\theta)p(\theta)d\theta}=\frac{\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)}{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta}=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)\\ \alpha=\frac 1{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta} p(θD)=θp(Dθ)p(θ)dθp(Dθ)p(θ)=θi=1np(xiθ)p(θ)dθi=1np(xiθ)p(θ)=αi=1np(xiθ)p(θ)α=θi=1np(xiθ)p(θ)dθ1

Q: 如何使用 p ( θ ∣ D ) p(\theta\vert D) p(θD)获得关于数据的分布?

得到 p ( θ ∣ D ) p(\theta\vert D) p(θD)只是获得了关于参数 θ \theta θ的后验分布,并没有像最大似然估计那样获得参数 θ \theta θ的具体取值。

方法1方法2方法3
p ( θ ∣ D ) p(\theta\vert D) p(θD)采样,计算平均值最大后验估计(Maximum A Posteriori estimation, MAP)后验数据分布(完整的贝叶斯方法)
θ ^ = 1 M ∑ i = 1 M θ i , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯   , M \hat{\theta}=\frac{1}{M}\sum_{i = 1}^{M}\theta_i,\theta_i\sim p(\theta\vert D),i = 1,\cdots,M θ^=M1i=1Mθi,θip(θD),i=1,,MKaTeX parse error: {align} can be used only in display mode. p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(xμ,Σ)=(2π)d/2∣Σ1/21exp(21(xμ)TΣ1(xμ))

PR/ML方法中普遍使用的L2正则,等价于假设参数服从 N ( 0 , I ) N(0,I) N(0,I)

后验数据分布

最终目的:根据 D D D中的样本来估计概率密度函数 p ( x ∣ D ) p(x\vert D) p(xD)

比如,假定观测样本服从正态分布 p ( x ∣ μ , Σ ) p(x\vert \mu,\Sigma) p(xμ,Σ),给定 D D D,可以估计得到具体的 μ \mu μ Σ \Sigma Σ的取值,代入如下公式可得关于样本的密度分布函数:
p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(xμ,Σ)=(2π)d/2∣Σ1/21exp(21(xμ)TΣ1(xμ))
但现在获得了有关 θ \theta θ的后验估计 p ( θ ∣ D ) p(\theta\vert D) p(θD),如何估计 p ( x ∣ D ) p(x\vert D) p(xD)

考虑全概率公式和边际分布:
p ( x ∣ D ) = ∫ θ p ( x , θ ∣ D ) d θ = ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \begin{align}p(x\vert D)&=\int_{\theta}p(x,\theta\vert D)d\theta\\ &=\int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta \end{align} p(xD)=θp(x,θD)dθ=θp(xθ)p(θD)dθ

  • p ( x ∣ θ ) = p ( x ∣ θ , D ) p(x\vert \theta)=p(x\vert \theta,D) p(xθ)=p(xθ,D): 在给定参数 θ \theta θ时,样本分布与训练集 D D D无关
  • ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta θp(xθ)p(θD)dθ: 不同参数的密度函数的加权平均

积分通常很难计算,使用蒙特卡洛近似方法: 是 M M M个不同参数的密度函数的平均。
p ^ ( x ∣ D ) = 1 M ∑ i = 1 M p ( x ∣ θ i ) , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯   , M \hat{p}(x\vert D)=\frac{1}{M}\sum_{i = 1}^{M}p(x\vert \theta_i),\theta_i\sim p(\theta\vert D),i = 1,\cdots,M p^(xD)=M1i=1Mp(xθi),θip(θD),i=1,,M

image-20250102145728416

一维情形:假定 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2)且仅 μ \mu μ未知

假定参数 μ \mu μ的先验概率也服从正态分布: μ ∼ N ( μ 0 , σ 0 2 ) \mu\sim N(\mu_0,\sigma_0^2) μN(μ0,σ02)
p ( x ∣ μ ) = N ( μ , σ 2 ) ,   p ( μ ) = N ( μ 0 , σ 0 2 ) p(x\vert \mu)=N(\mu,\sigma^2),\ p(\mu)=N(\mu_0,\sigma_0^2) p(xμ)=N(μ,σ2), p(μ)=N(μ0,σ02)
第一个任务:给定样本集 D D D,在上述条件下,估计关于参数的后验分布 p ( μ ∣ D ) p(\mu\vert D) p(μD)

回顾我们前面得到的公式:
p ( θ ∣ D ) = ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) ∫ θ ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) d θ = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) p(\theta\vert D)=\frac{\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)}{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)d\theta}=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)\\ p(θD)=θi=1np(xiθ)p(θ)dθi=1np(xiθ)p(θ)=αi=1np(xiθ)p(θ)
(应用后验估计)
p ( μ ∣ D ) = α ∏ i = 1 n p ( x i ∣ μ ) p ( μ ) = α ∏ i = 1 n 1 2 π σ exp ⁡ ( − 1 2 ( x i − μ ) 2 σ 2 ) 1 2 π σ 0 exp ⁡ ( − 1 2 ( μ − μ 0 ) 2 σ 0 2 ) = α ′ ∏ i = 1 n exp ⁡ { − 1 2 ∑ i = 1 n ( x i − μ ) 2 σ 2 − n 2 ( μ − μ 0 ) 2 σ 0 2 } = α ′ exp ⁡ { − 1 2 [ ( 1 σ 2 + 1 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } = α ′ ′ exp ⁡ { − 1 2 [ ( σ 0 2 + σ 2 σ 2 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } \begin{align} p(\mu\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \mu)p(\mu)\\ &=\alpha\prod_{i = 1}^{n}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x}_i - \mu)^2}{\sigma^2}\right)\frac{1}{\sqrt{2\pi}\sigma_0}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_0)^2}{\sigma_0^2}\right)\\ &=\alpha'\prod_{i = 1}^{n}\exp\left\{-\frac 1 2 \sum^n_{i=1}\frac{(\mathbf{x}_i-\mu)^2}{\sigma^2}-\frac n2\frac{(\mu-\mu_0)^2}{\sigma_0^2}\right\}\\ &=\alpha'\exp\left\{-\frac{1}{2}\left[\left(\frac{1}{\sigma^2}+\frac{1}{\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum_{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\\ &=\alpha''\exp\left\{-\frac{1}{2}\left[\left(\frac{\sigma_0^2+\sigma^2}{\sigma^2\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum_{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\end{align} p(μD)=αi=1np(xiμ)p(μ)=αi=1n2π σ1exp(21σ2(xiμ)2)2π σ01exp(21σ02(μμ0)2)=αi=1nexp{21i=1nσ2(xiμ)22nσ02(μμ0)2}=αexp{21[(σ21+σ021)μ22(σ21i=1nxi+σ02μ0)μ]}=α′′exp{21[(σ2σ02σ02+σ2)μ22(σ21i=1nxi+σ02μ0)μ]}

一维后验分布的性质

  • p ( μ ∣ D ) p(\mu\vert D) p(μD)是关于 μ \mu μ的二次函数的 exp \text{exp} exp函数,因此,也是一个正态分布密度函数
  • p ( μ ∣ D ) p(\mu\vert D) p(μD)被称为再生密度(reproducing density),因为对于任意数量的训练样本,当样本数量 n n n增加时, p ( μ ∣ D ) p(\mu\vert D) p(μD)仍然保持正态分布。

由于 p ( μ ∣ D ) p(\mu\vert D) p(μD)是一个正态密度函数,我们可以将其改写为如下形式:
p ( μ ∣ D ) ∼ N ( μ n , σ n 2 ) = 1 2 π σ n 2 exp ⁡ ( − 1 2 ( μ − μ n ) 2 σ n 2 ) p(\mu\vert D)\sim N(\mu_{n},\sigma_{n}^{2})=\frac{1}{\sqrt{2\pi\sigma_{n}^{2}}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right) p(μD)N(μn,σn2)=2πσn2 1exp(21σn2(μμn)2)
同时,我们也得到其公式为
p ( μ ∣ D ) = α ′ exp ⁡ { − 1 2 [ ( n σ 2 + 1 σ 0 2 ) μ 2 − 2 ( 1 σ 2 ∑ i = 1 n x i + μ 0 σ 0 2 ) μ ] } 1 σ n 2 = n σ 2 + 1 σ 0 2 , μ n σ n 2 = n σ 2 μ ˉ n + μ 0 σ 0 2 , μ ˉ n = 1 n ∑ i = 1 n x i p(\mu\vert D)=\alpha^{\prime}\exp\left\{-\frac{1}{2}\left[\left(\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}}\right)\mu^{2}-2\left(\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}\mathbf{x}_{i}+\frac{\mu_{0}}{\sigma_{0}^{2}}\right)\mu\right]\right\}\\ \frac{1}{\sigma_{n}^{2}}=\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}},\quad\frac{\mu_{n}}{\sigma^2_n}=\frac{n}{\sigma^{2}}\bar{\mu}_{n}+\frac{\mu_{0}}{\sigma_{0}^{2}},\quad \bar{\mu}_{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_{i} p(μD)=αexp{21[(σ2n+σ021)μ22(σ21i=1nxi+σ02μ0)μ]}σn21=σ2n+σ021,σn2μn=σ2nμˉn+σ02μ0,μˉn=n1i=1nxi
进一步可解得:
μ n = n σ 0 2 n σ 0 2 + σ 2 μ ˉ n + σ 2 n σ 0 2 + σ 2 μ 0 , σ n 2 = σ 2 σ 0 2 n σ 0 2 + σ 2 \mu_{n}=\frac{n\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\bar{\mu}_{n}+\frac{\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\mu_{0},\quad\sigma_{n}^{2}=\frac{\sigma^{2}\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}} μn=nσ02+σ2nσ02μˉn+nσ02+σ2σ2μ0,σn2=nσ02+σ2σ2σ02
这些方程展示了先验信息如何与样本中的经验信息相结合以获得后验密度 p ( μ ∣ D ) p(\mu\vert D) p(μD)

  • μ n \mu_{n} μn:代表在获得 n n n个样本后对 μ \mu μ的最佳猜测。
  • σ n 2 \sigma_{n}^{2} σn2:衡量对 μ \mu μ猜测的不确定性。
  • 因为 σ n 2 \sigma_{n}^{2} σn2 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。(这种先验起到了平滑的效果,导致了更加鲁棒的估计)

后验分布的变化趋势:因为 ( σ n ) 2 (\sigma_{n})^{2} (σn)2 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。随着 n n n的增加, p ( μ ∣ D ) p(\mu\vert D) p(μD)变得越来越尖锐,当 n n n趋于无穷大时,趋近于狄拉克δ函数(Dirac delta function)。

现在,我们希望获得后验数据分布 :
p ( x ∣ D ) = ∫ μ p ( x ∣ μ ) p ( μ ∣ D ) d μ = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 ( x − μ ) 2 σ 2 ) 1 2 π σ n exp ⁡ ( − 1 2 ( μ − μ n ) 2 σ n 2 ) d μ = 1 2 π σ σ n ∫ μ exp ⁡ ( − 1 2 [ ( x − μ ) 2 σ 2 + ( μ − μ n ) 2 σ n 2 ] ) d μ = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 ( x − μ n ) 2 σ 2 + σ n 2 ) f ( σ , σ n ) f ( σ , σ n ) = ∫ μ 1 2 π σ exp ⁡ ( − 1 2 σ 2 + σ n 2 σ 2 σ n 2 ( μ − σ 2 x + σ n 2 μ n σ 2 + σ n 2 ) 2 ) d μ \begin{align} p(\mathbf{x}\vert D)&=\int_{\mu}p(\mathbf{x}\vert \mu)p(\mu\vert D)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}\right)\frac{1}{\sqrt{2\pi}\sigma_{n}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right)d\mu\\ &=\frac{1}{{2\pi}\sigma\sigma_{n}}\int_{\mu}\exp\left(-\frac{1}{2}\left[\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}+\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right]\right)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu_{n})^{2}}{\sigma^{2}+\sigma_{n}^{2}}\right)f(\sigma,\sigma_n)\\ f(\sigma,\sigma_{n})&=\int_{\mu} \frac{1}{\sqrt{2\pi\sigma}} \exp \left( - \frac{1}{2} \frac{\sigma^2 + \sigma_n^2}{\sigma^2 \sigma_n^2} \left( \mu - \frac{\sigma^2 \mathbf{x} + \sigma_n^2 \mu_n}{\sigma^2 + \sigma_n^2} \right)^2 \right) d\mu \end{align} p(xD)f(σ,σn)=μp(xμ)p(μD)dμ=μ2π σ1exp(21σ2(xμ)2)2π σn1exp(21σn2(μμn)2)dμ=2πσσn1μexp(21[σ2(xμ)2+σn2(μμn)2])dμ=μ2π σ1exp(21σ2+σn2(xμn)2)f(σ,σn)=μ2πσ 1exp(21σ2σn2σ2+σn2(μσ2+σn2σ2x+σn2μn)2)dμ

可以将 p ( x ∣ D ) p(\mathbf{x}\vert D) p(xD)视为服从正态分布 N ( μ n , σ 2 + σ n 2 ) N(\mu_n,\sigma^2+\sigma^2_n) N(μn,σ2+σn2)

多元情形:高维

已知条件是:
p ( x ∣ μ ) ∼ N ( μ , Σ ) , p ( μ ) ∼ N ( μ 0 , Σ 0 ) p ( θ ∣ D ) = α ∏ i = 1 n p ( x i ∣ θ ) p ( θ ) = α ′ exp ⁡ { − 1 2 μ T ( n Σ − 1 + Σ 0 − 1 ) μ − 2 μ T ( Σ − 1 ∑ i = 1 n x i + Σ 0 − 1 μ 0 ) } = α ′ ′ exp ⁡ { − 1 2 ( μ − μ n ) T Σ n − 1 ( μ − μ n ) } \begin{align}p(\mathbf x\vert \mathbf \mu)&\sim N(\mathbf \mu,\Sigma),p(\mu)\sim N(\mu_{0},\Sigma_{0})\\ p(\theta\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf x_{i}\vert \theta)p(\theta)\\ &=\alpha^{\prime}\exp\left\{-\frac{1}{2}\mu^{T}(n\Sigma^{- 1}+\Sigma_{0}^{-1})\mu - 2\mu^{T}(\Sigma^{-1}\sum_{i = 1}^{n}\mathbf x_{i}+\Sigma_{0}^{-1}\mu_{0})\right\}\\ &=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\end{align} p(xμ)p(θD)N(μ,Σ),p(μ)N(μ0,Σ0)=αi=1np(xiθ)p(θ)=αexp{21μT(nΣ1+Σ01)μ2μT(Σ1i=1nxi+Σ01μ0)}=α′′exp{21(μμn)TΣn1(μμn)}
参照上面一维的情况,可以推出:
p ( θ ∣ D ) = α ′ ′ exp ⁡ { − 1 2 ( μ − μ n ) T Σ n − 1 ( μ − μ n ) } ⇒ p ( θ ∣ D ) ∼ N ( μ n , Σ n ) ⇒ Σ n − 1 = n Σ − 1 + Σ 0 − 1 , Σ n − 1 μ n = n Σ − 1 μ ^ n + Σ 0 − 1 μ 0 , μ ^ n = 1 n ∑ i = 1 n x i μ n = Σ 0 ( Σ 0 + n − 1 Σ ) − 1 μ ^ n + ( Σ 0 + n − 1 Σ ) − 1 Σ 0 μ 0 Σ n = Σ 0 ( Σ 0 + n − 1 Σ ) − 1 1 n Σ \begin{align} p(\theta\vert D)&=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\Rightarrow p(\theta\vert D)\sim N(\mu_{n},\Sigma_{n})\\ \Rightarrow\Sigma_{n}^{-1}&=n\Sigma^{-1}+\Sigma_{0}^{-1},\quad \Sigma_{n}^{-1}\mu_{n}=n\Sigma^{-1}\hat{\mu}_{n}+\Sigma_{0}^{-1}\mu_{0},\quad \hat{\mu}_{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf x_{i}\\ \mu_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\hat{\mu}_{n}+(\Sigma_{0}+n^{-1}\Sigma)^{-1}\Sigma_{0}\mu_{0}\\ \Sigma_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\frac{1}{n}\Sigma \end{align} p(θD)Σn1μnΣn=α′′exp{21(μμn)TΣn1(μμn)}p(θD)N(μn,Σn)=nΣ1+Σ01,Σn1μn=nΣ1μ^n+Σ01μ0,μ^n=n1i=1nxi=Σ0(Σ0+n1Σ)1μ^n+(Σ0+n1Σ)1Σ0μ0=Σ0(Σ0+n1Σ)1n1Σ

( A − 1 + B − 1 ) − 1 = A ( A + B ) − 1 B = B ( A + B ) − 1 A (A^{-1}+B^{-1})^{-1}=A(A+B)^{-1}B=B(A+B)^{-1}A (A1+B1)1=A(A+B)1B=B(A+B)1A

数据后验分布服从正态分布:
p ( x ∣ D ) = ∫ μ p ( x ∣ μ ) p ( μ ∣ D ) d μ ∼ N ( μ n , Σ + Σ n ) p(\mathbf x\vert D)=\int_{\mu}p(\mathbf x\vert \mu)p(\mu\vert D)d\mu\sim N(\mu_{n},\Sigma+\Sigma_{n}) p(xD)=μp(xμ)p(μD)dμN(μn,Σ+Σn)


http://www.kler.cn/a/471548.html

相关文章:

  • LangChain速成课程_构建基于OpenAI_LLM的应用
  • Flink系统知识讲解之:如何识别反压的源头
  • (一)使用 WebGL 绘制一个简单的点和原理解析
  • 书籍推荐:Kubernetes 修炼手册
  • 基于RedHat9部署WordPress+WooCommerce架设购物网站
  • 大数据高级ACP学习笔记(2)
  • QT给端口扫描工程增加线程2
  • 【JavaWeb】2. 通用基础代码
  • ubuntu为Docker配置代理
  • 永磁同步电机模型预测控制——模型预测研究现状
  • ChatGPT在数据分析与处理中的使用详解
  • 在 a-tree 中报错 parent 期望是对象,但获得是字符串
  • PyTorch 框架实现线性回归:从数据预处理到模型训练全流程
  • vue 导出excel接口请求和axios返回值blob类型处理
  • Go语言的数据库交互
  • 最新版Chrome浏览器加载ActiveX控件之SolidWorks 3D控件
  • EasyExcel.read读取 Excel 文件
  • 第 24 章 网络请求与远程资源
  • WELL健康建筑认证在2025年相关消息
  • 网络安全主动防御技术与应用
  • 第14章 MySQL事务日志
  • 【物联网原理与运用】知识点总结(下)
  • 5G学习笔记之PNI-NPN
  • FastGPT 介绍
  • Olib开放图书 (zlibrary电子书在线搜索下载工具) 同步zlibrary
  • javaBC库冲突问题