模式识别-Ch3-贝叶斯估计
贝叶斯估计
贝叶斯估计是概率密度估计中另一类主要的参数估计方法。其结果在很多情况下与最大似然法十分相似,但是,两种方法对问题的处理视角是不一样的。
贝叶斯估计 | 最大似然估计 |
---|---|
将待估计的参数视为一个随机变量,其中的一个核心任务是根据观测数据对参数的分布进行估计。 | 将待估计的参数当作未知但固定的变量,其任务是根据观测数据估计其在参数空间中的取值。 |
p ( x ∣ D ) ∼ N ( μ n , σ 2 + σ n 2 ) μ n = n σ 0 2 σ 0 2 + σ 2 μ ^ n + σ 2 σ 0 2 + σ 2 μ 0 σ n 2 = σ 0 2 σ 2 n σ 0 2 + σ 2 p(x\vert D)\sim N(\mu_{n},\sigma^{2}+\sigma_{n}^{2})\\\mu_{n}=\frac{n\sigma_{0}^{2}}{\sigma_{0}^{2}+\sigma^{2}}\hat{\mu}_{n}+\frac{\sigma^{2}}{\sigma_{0}^{2}+\sigma^{2}}\mu_{0}\\\sigma_{n}^{2}=\frac{\sigma_{0}^{2}\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}} p(x∣D)∼N(μn,σ2+σn2)μn=σ02+σ2nσ02μ^n+σ02+σ2σ2μ0σn2=nσ02+σ2σ02σ2 | $p(x\vert D)\sim N(\hat{\mu}{n},\sigma^{2})\\hat{\mu}{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_{i}\$ |
上面公式给出的是一维下估计。
基本方法
参数先验分布 p ( θ ) p(\theta) p(θ):是在没有任何数据时,有关参数 θ \theta θ的分布情况(根据领域知识或经验)
给定样本集
D
=
{
x
1
,
x
2
,
⋯
,
x
n
}
D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}
D={x1,x2,⋯,xn},数据独立采样,且服从数据分布:(数据是互相独立的)
p
(
D
∣
θ
)
=
p
(
x
1
,
x
2
,
⋯
,
x
n
∣
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
p(D|\theta)=p(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|\theta)=\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)
p(D∣θ)=p(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
利用贝叶斯公式计算参数的后验分布
p
(
θ
∣
D
)
p(\theta\vert D)
p(θ∣D):
p
(
θ
∣
D
)
p(\theta\vert D)
p(θ∣D)中融合了先验知识和数据信息。
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
p(\theta|D)=\frac{p(D|\theta)p(\theta)}{p(D)}
p(θ∣D)=p(D)p(D∣θ)p(θ)
p
(
D
)
p(D)
p(D)是与参数无关的归一化因子,根据全概率公式(连续):
p
(
D
)
=
∑
θ
p
(
D
∣
θ
)
p
(
θ
)
p
(
D
)
=
∫
θ
p
(
D
∣
θ
)
p
(
θ
)
d
θ
p
(
D
∣
θ
)
⇒
p
(
x
∣
μ
,
σ
)
=
1
2
π
σ
exp
(
−
1
2
(
x
−
μ
)
2
σ
2
)
p(D)=\sum_{\theta}p(D|\theta)p(\theta)\\ p(D)=\int_{\theta}p(D|\theta)p(\theta)d\theta\\ p(D|\theta)\Rightarrow p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(x - \mu)^2}{\sigma^2}\right)
p(D)=θ∑p(D∣θ)p(θ)p(D)=∫θp(D∣θ)p(θ)dθp(D∣θ)⇒p(x∣μ,σ)=2πσ1exp(−21σ2(x−μ)2)
对于一般情况,计算
p
(
D
)
p(D)
p(D)十分困难
可得贝叶斯参数估计中的后验概率密度函数:
p
(
θ
∣
D
)
=
p
(
D
∣
θ
)
p
(
θ
)
∫
θ
p
(
D
∣
θ
)
p
(
θ
)
d
θ
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
∫
θ
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
d
θ
=
α
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
α
=
1
∫
θ
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
d
θ
p(\theta|D)=\frac{p(D|\theta)p(\theta)}{\int_{\theta}p(D|\theta)p(\theta)d\theta}=\frac{\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)}{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta}=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)\\ \alpha=\frac 1{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)p(\theta)d\theta}
p(θ∣D)=∫θp(D∣θ)p(θ)dθp(D∣θ)p(θ)=∫θ∏i=1np(xi∣θ)p(θ)dθ∏i=1np(xi∣θ)p(θ)=αi=1∏np(xi∣θ)p(θ)α=∫θ∏i=1np(xi∣θ)p(θ)dθ1
Q: 如何使用 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)获得关于数据的分布?
得到 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)只是获得了关于参数 θ \theta θ的后验分布,并没有像最大似然估计那样获得参数 θ \theta θ的具体取值。
方法1 方法2 方法3 对 p ( θ ∣ D ) p(\theta\vert D) p(θ∣D)采样,计算平均值 最大后验估计(Maximum A Posteriori estimation, MAP) 后验数据分布(完整的贝叶斯方法) θ ^ = 1 M ∑ i = 1 M θ i , θ i ∼ p ( θ ∣ D ) , i = 1 , ⋯ , M \hat{\theta}=\frac{1}{M}\sum_{i = 1}^{M}\theta_i,\theta_i\sim p(\theta\vert D),i = 1,\cdots,M θ^=M1∑i=1Mθi,θi∼p(θ∣D),i=1,⋯,M KaTeX parse error: {align} can be used only in display mode. p ( x ∣ μ , Σ ) = 1 ( 2 π ) d / 2 ∣ Σ ∣ 1 / 2 exp ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right) p(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ)) PR/ML方法中普遍使用的L2正则,等价于假设参数服从 N ( 0 , I ) N(0,I) N(0,I)
后验数据分布
最终目的:根据 D D D中的样本来估计概率密度函数 p ( x ∣ D ) p(x\vert D) p(x∣D)。
比如,假定观测样本服从正态分布
p
(
x
∣
μ
,
Σ
)
p(x\vert \mu,\Sigma)
p(x∣μ,Σ),给定
D
D
D,可以估计得到具体的
μ
\mu
μ和
Σ
\Sigma
Σ的取值,代入如下公式可得关于样本的密度分布函数:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
d
/
2
∣
Σ
∣
1
/
2
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
p(x\vert \mu,\Sigma)=\frac{1}{(2\pi)^{d/2}\vert \Sigma\vert ^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right)
p(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
但现在获得了有关
θ
\theta
θ的后验估计
p
(
θ
∣
D
)
p(\theta\vert D)
p(θ∣D),如何估计
p
(
x
∣
D
)
p(x\vert D)
p(x∣D)?
考虑全概率公式和边际分布:
p
(
x
∣
D
)
=
∫
θ
p
(
x
,
θ
∣
D
)
d
θ
=
∫
θ
p
(
x
∣
θ
)
p
(
θ
∣
D
)
d
θ
\begin{align}p(x\vert D)&=\int_{\theta}p(x,\theta\vert D)d\theta\\ &=\int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta \end{align}
p(x∣D)=∫θp(x,θ∣D)dθ=∫θp(x∣θ)p(θ∣D)dθ
- p ( x ∣ θ ) = p ( x ∣ θ , D ) p(x\vert \theta)=p(x\vert \theta,D) p(x∣θ)=p(x∣θ,D): 在给定参数 θ \theta θ时,样本分布与训练集 D D D无关
- ∫ θ p ( x ∣ θ ) p ( θ ∣ D ) d θ \int_{\theta}p(x\vert \theta)p(\theta\vert D)d\theta ∫θp(x∣θ)p(θ∣D)dθ: 不同参数的密度函数的加权平均
积分通常很难计算,使用蒙特卡洛近似方法: 是
M
M
M个不同参数的密度函数的平均。
p
^
(
x
∣
D
)
=
1
M
∑
i
=
1
M
p
(
x
∣
θ
i
)
,
θ
i
∼
p
(
θ
∣
D
)
,
i
=
1
,
⋯
,
M
\hat{p}(x\vert D)=\frac{1}{M}\sum_{i = 1}^{M}p(x\vert \theta_i),\theta_i\sim p(\theta\vert D),i = 1,\cdots,M
p^(x∣D)=M1i=1∑Mp(x∣θi),θi∼p(θ∣D),i=1,⋯,M
一维情形:假定 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2)且仅 μ \mu μ未知
假定参数
μ
\mu
μ的先验概率也服从正态分布:
μ
∼
N
(
μ
0
,
σ
0
2
)
\mu\sim N(\mu_0,\sigma_0^2)
μ∼N(μ0,σ02)
p
(
x
∣
μ
)
=
N
(
μ
,
σ
2
)
,
p
(
μ
)
=
N
(
μ
0
,
σ
0
2
)
p(x\vert \mu)=N(\mu,\sigma^2),\ p(\mu)=N(\mu_0,\sigma_0^2)
p(x∣μ)=N(μ,σ2), p(μ)=N(μ0,σ02)
第一个任务:给定样本集
D
D
D,在上述条件下,估计关于参数的后验分布
p
(
μ
∣
D
)
p(\mu\vert D)
p(μ∣D)。
回顾我们前面得到的公式:
p
(
θ
∣
D
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
∫
θ
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
d
θ
=
α
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
p(\theta\vert D)=\frac{\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)}{\int_{\theta}\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)d\theta}=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \theta)p(\theta)\\
p(θ∣D)=∫θ∏i=1np(xi∣θ)p(θ)dθ∏i=1np(xi∣θ)p(θ)=αi=1∏np(xi∣θ)p(θ)
(应用后验估计)
p
(
μ
∣
D
)
=
α
∏
i
=
1
n
p
(
x
i
∣
μ
)
p
(
μ
)
=
α
∏
i
=
1
n
1
2
π
σ
exp
(
−
1
2
(
x
i
−
μ
)
2
σ
2
)
1
2
π
σ
0
exp
(
−
1
2
(
μ
−
μ
0
)
2
σ
0
2
)
=
α
′
∏
i
=
1
n
exp
{
−
1
2
∑
i
=
1
n
(
x
i
−
μ
)
2
σ
2
−
n
2
(
μ
−
μ
0
)
2
σ
0
2
}
=
α
′
exp
{
−
1
2
[
(
1
σ
2
+
1
σ
0
2
)
μ
2
−
2
(
1
σ
2
∑
i
=
1
n
x
i
+
μ
0
σ
0
2
)
μ
]
}
=
α
′
′
exp
{
−
1
2
[
(
σ
0
2
+
σ
2
σ
2
σ
0
2
)
μ
2
−
2
(
1
σ
2
∑
i
=
1
n
x
i
+
μ
0
σ
0
2
)
μ
]
}
\begin{align} p(\mu\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf{x}_i\vert \mu)p(\mu)\\ &=\alpha\prod_{i = 1}^{n}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x}_i - \mu)^2}{\sigma^2}\right)\frac{1}{\sqrt{2\pi}\sigma_0}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_0)^2}{\sigma_0^2}\right)\\ &=\alpha'\prod_{i = 1}^{n}\exp\left\{-\frac 1 2 \sum^n_{i=1}\frac{(\mathbf{x}_i-\mu)^2}{\sigma^2}-\frac n2\frac{(\mu-\mu_0)^2}{\sigma_0^2}\right\}\\ &=\alpha'\exp\left\{-\frac{1}{2}\left[\left(\frac{1}{\sigma^2}+\frac{1}{\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum_{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\\ &=\alpha''\exp\left\{-\frac{1}{2}\left[\left(\frac{\sigma_0^2+\sigma^2}{\sigma^2\sigma_0^2}\right)\mu^2 - 2\left(\frac{1}{\sigma^2}\sum_{i = 1}^{n}\mathbf{x}_i+\frac{\mu_0}{\sigma_0^2}\right)\mu\right]\right\}\end{align}
p(μ∣D)=αi=1∏np(xi∣μ)p(μ)=αi=1∏n2πσ1exp(−21σ2(xi−μ)2)2πσ01exp(−21σ02(μ−μ0)2)=α′i=1∏nexp{−21i=1∑nσ2(xi−μ)2−2nσ02(μ−μ0)2}=α′exp{−21[(σ21+σ021)μ2−2(σ21i=1∑nxi+σ02μ0)μ]}=α′′exp{−21[(σ2σ02σ02+σ2)μ2−2(σ21i=1∑nxi+σ02μ0)μ]}
一维后验分布的性质
- p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)是关于 μ \mu μ的二次函数的 exp \text{exp} exp函数,因此,也是一个正态分布密度函数。
- p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)被称为再生密度(reproducing density),因为对于任意数量的训练样本,当样本数量 n n n增加时, p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)仍然保持正态分布。
由于
p
(
μ
∣
D
)
p(\mu\vert D)
p(μ∣D)是一个正态密度函数,我们可以将其改写为如下形式:
p
(
μ
∣
D
)
∼
N
(
μ
n
,
σ
n
2
)
=
1
2
π
σ
n
2
exp
(
−
1
2
(
μ
−
μ
n
)
2
σ
n
2
)
p(\mu\vert D)\sim N(\mu_{n},\sigma_{n}^{2})=\frac{1}{\sqrt{2\pi\sigma_{n}^{2}}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right)
p(μ∣D)∼N(μn,σn2)=2πσn21exp(−21σn2(μ−μn)2)
同时,我们也得到其公式为
p
(
μ
∣
D
)
=
α
′
exp
{
−
1
2
[
(
n
σ
2
+
1
σ
0
2
)
μ
2
−
2
(
1
σ
2
∑
i
=
1
n
x
i
+
μ
0
σ
0
2
)
μ
]
}
1
σ
n
2
=
n
σ
2
+
1
σ
0
2
,
μ
n
σ
n
2
=
n
σ
2
μ
ˉ
n
+
μ
0
σ
0
2
,
μ
ˉ
n
=
1
n
∑
i
=
1
n
x
i
p(\mu\vert D)=\alpha^{\prime}\exp\left\{-\frac{1}{2}\left[\left(\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}}\right)\mu^{2}-2\left(\frac{1}{\sigma^{2}}\sum_{i = 1}^{n}\mathbf{x}_{i}+\frac{\mu_{0}}{\sigma_{0}^{2}}\right)\mu\right]\right\}\\ \frac{1}{\sigma_{n}^{2}}=\frac{n}{\sigma^{2}}+\frac{1}{\sigma_{0}^{2}},\quad\frac{\mu_{n}}{\sigma^2_n}=\frac{n}{\sigma^{2}}\bar{\mu}_{n}+\frac{\mu_{0}}{\sigma_{0}^{2}},\quad \bar{\mu}_{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_{i}
p(μ∣D)=α′exp{−21[(σ2n+σ021)μ2−2(σ21i=1∑nxi+σ02μ0)μ]}σn21=σ2n+σ021,σn2μn=σ2nμˉn+σ02μ0,μˉn=n1i=1∑nxi
进一步可解得:
μ
n
=
n
σ
0
2
n
σ
0
2
+
σ
2
μ
ˉ
n
+
σ
2
n
σ
0
2
+
σ
2
μ
0
,
σ
n
2
=
σ
2
σ
0
2
n
σ
0
2
+
σ
2
\mu_{n}=\frac{n\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\bar{\mu}_{n}+\frac{\sigma^{2}}{n\sigma_{0}^{2}+\sigma^{2}}\mu_{0},\quad\sigma_{n}^{2}=\frac{\sigma^{2}\sigma_{0}^{2}}{n\sigma_{0}^{2}+\sigma^{2}}
μn=nσ02+σ2nσ02μˉn+nσ02+σ2σ2μ0,σn2=nσ02+σ2σ2σ02
这些方程展示了先验信息如何与样本中的经验信息相结合以获得后验密度
p
(
μ
∣
D
)
p(\mu\vert D)
p(μ∣D)。
- μ n \mu_{n} μn:代表在获得 n n n个样本后对 μ \mu μ的最佳猜测。
- σ n 2 \sigma_{n}^{2} σn2:衡量对 μ \mu μ猜测的不确定性。
- 因为 σ n 2 \sigma_{n}^{2} σn2随 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。(这种先验起到了平滑的效果,导致了更加鲁棒的估计)
后验分布的变化趋势:因为 ( σ n ) 2 (\sigma_{n})^{2} (σn)2随 n n n单调递减,每增加一个观测值都将有助于减少我们对 μ \mu μ真实值的不确定性。随着 n n n的增加, p ( μ ∣ D ) p(\mu\vert D) p(μ∣D)变得越来越尖锐,当 n n n趋于无穷大时,趋近于狄拉克δ函数(Dirac delta function)。
现在,我们希望获得后验数据分布 :
p
(
x
∣
D
)
=
∫
μ
p
(
x
∣
μ
)
p
(
μ
∣
D
)
d
μ
=
∫
μ
1
2
π
σ
exp
(
−
1
2
(
x
−
μ
)
2
σ
2
)
1
2
π
σ
n
exp
(
−
1
2
(
μ
−
μ
n
)
2
σ
n
2
)
d
μ
=
1
2
π
σ
σ
n
∫
μ
exp
(
−
1
2
[
(
x
−
μ
)
2
σ
2
+
(
μ
−
μ
n
)
2
σ
n
2
]
)
d
μ
=
∫
μ
1
2
π
σ
exp
(
−
1
2
(
x
−
μ
n
)
2
σ
2
+
σ
n
2
)
f
(
σ
,
σ
n
)
f
(
σ
,
σ
n
)
=
∫
μ
1
2
π
σ
exp
(
−
1
2
σ
2
+
σ
n
2
σ
2
σ
n
2
(
μ
−
σ
2
x
+
σ
n
2
μ
n
σ
2
+
σ
n
2
)
2
)
d
μ
\begin{align} p(\mathbf{x}\vert D)&=\int_{\mu}p(\mathbf{x}\vert \mu)p(\mu\vert D)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}\right)\frac{1}{\sqrt{2\pi}\sigma_{n}}\exp\left(-\frac{1}{2}\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right)d\mu\\ &=\frac{1}{{2\pi}\sigma\sigma_{n}}\int_{\mu}\exp\left(-\frac{1}{2}\left[\frac{(\mathbf{x} - \mu)^{2}}{\sigma^{2}}+\frac{(\mu - \mu_{n})^{2}}{\sigma_{n}^{2}}\right]\right)d\mu\\ &=\int_{\mu}\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(\mathbf{x} - \mu_{n})^{2}}{\sigma^{2}+\sigma_{n}^{2}}\right)f(\sigma,\sigma_n)\\ f(\sigma,\sigma_{n})&=\int_{\mu} \frac{1}{\sqrt{2\pi\sigma}} \exp \left( - \frac{1}{2} \frac{\sigma^2 + \sigma_n^2}{\sigma^2 \sigma_n^2} \left( \mu - \frac{\sigma^2 \mathbf{x} + \sigma_n^2 \mu_n}{\sigma^2 + \sigma_n^2} \right)^2 \right) d\mu \end{align}
p(x∣D)f(σ,σn)=∫μp(x∣μ)p(μ∣D)dμ=∫μ2πσ1exp(−21σ2(x−μ)2)2πσn1exp(−21σn2(μ−μn)2)dμ=2πσσn1∫μexp(−21[σ2(x−μ)2+σn2(μ−μn)2])dμ=∫μ2πσ1exp(−21σ2+σn2(x−μn)2)f(σ,σn)=∫μ2πσ1exp(−21σ2σn2σ2+σn2(μ−σ2+σn2σ2x+σn2μn)2)dμ
可以将 p ( x ∣ D ) p(\mathbf{x}\vert D) p(x∣D)视为服从正态分布 N ( μ n , σ 2 + σ n 2 ) N(\mu_n,\sigma^2+\sigma^2_n) N(μn,σ2+σn2)
多元情形:高维
已知条件是:
p
(
x
∣
μ
)
∼
N
(
μ
,
Σ
)
,
p
(
μ
)
∼
N
(
μ
0
,
Σ
0
)
p
(
θ
∣
D
)
=
α
∏
i
=
1
n
p
(
x
i
∣
θ
)
p
(
θ
)
=
α
′
exp
{
−
1
2
μ
T
(
n
Σ
−
1
+
Σ
0
−
1
)
μ
−
2
μ
T
(
Σ
−
1
∑
i
=
1
n
x
i
+
Σ
0
−
1
μ
0
)
}
=
α
′
′
exp
{
−
1
2
(
μ
−
μ
n
)
T
Σ
n
−
1
(
μ
−
μ
n
)
}
\begin{align}p(\mathbf x\vert \mathbf \mu)&\sim N(\mathbf \mu,\Sigma),p(\mu)\sim N(\mu_{0},\Sigma_{0})\\ p(\theta\vert D)&=\alpha\prod_{i = 1}^{n}p(\mathbf x_{i}\vert \theta)p(\theta)\\ &=\alpha^{\prime}\exp\left\{-\frac{1}{2}\mu^{T}(n\Sigma^{- 1}+\Sigma_{0}^{-1})\mu - 2\mu^{T}(\Sigma^{-1}\sum_{i = 1}^{n}\mathbf x_{i}+\Sigma_{0}^{-1}\mu_{0})\right\}\\ &=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\end{align}
p(x∣μ)p(θ∣D)∼N(μ,Σ),p(μ)∼N(μ0,Σ0)=αi=1∏np(xi∣θ)p(θ)=α′exp{−21μT(nΣ−1+Σ0−1)μ−2μT(Σ−1i=1∑nxi+Σ0−1μ0)}=α′′exp{−21(μ−μn)TΣn−1(μ−μn)}
参照上面一维的情况,可以推出:
p
(
θ
∣
D
)
=
α
′
′
exp
{
−
1
2
(
μ
−
μ
n
)
T
Σ
n
−
1
(
μ
−
μ
n
)
}
⇒
p
(
θ
∣
D
)
∼
N
(
μ
n
,
Σ
n
)
⇒
Σ
n
−
1
=
n
Σ
−
1
+
Σ
0
−
1
,
Σ
n
−
1
μ
n
=
n
Σ
−
1
μ
^
n
+
Σ
0
−
1
μ
0
,
μ
^
n
=
1
n
∑
i
=
1
n
x
i
μ
n
=
Σ
0
(
Σ
0
+
n
−
1
Σ
)
−
1
μ
^
n
+
(
Σ
0
+
n
−
1
Σ
)
−
1
Σ
0
μ
0
Σ
n
=
Σ
0
(
Σ
0
+
n
−
1
Σ
)
−
1
1
n
Σ
\begin{align} p(\theta\vert D)&=\alpha^{\prime\prime}\exp\left\{-\frac{1}{2}(\mu - \mu_{n})^{T}\Sigma_{n}^{-1}(\mu - \mu_{n})\right\}\Rightarrow p(\theta\vert D)\sim N(\mu_{n},\Sigma_{n})\\ \Rightarrow\Sigma_{n}^{-1}&=n\Sigma^{-1}+\Sigma_{0}^{-1},\quad \Sigma_{n}^{-1}\mu_{n}=n\Sigma^{-1}\hat{\mu}_{n}+\Sigma_{0}^{-1}\mu_{0},\quad \hat{\mu}_{n}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf x_{i}\\ \mu_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\hat{\mu}_{n}+(\Sigma_{0}+n^{-1}\Sigma)^{-1}\Sigma_{0}\mu_{0}\\ \Sigma_{n}&=\Sigma_{0}(\Sigma_{0}+n^{-1}\Sigma)^{-1}\frac{1}{n}\Sigma \end{align}
p(θ∣D)⇒Σn−1μnΣn=α′′exp{−21(μ−μn)TΣn−1(μ−μn)}⇒p(θ∣D)∼N(μn,Σn)=nΣ−1+Σ0−1,Σn−1μn=nΣ−1μ^n+Σ0−1μ0,μ^n=n1i=1∑nxi=Σ0(Σ0+n−1Σ)−1μ^n+(Σ0+n−1Σ)−1Σ0μ0=Σ0(Σ0+n−1Σ)−1n1Σ
( A − 1 + B − 1 ) − 1 = A ( A + B ) − 1 B = B ( A + B ) − 1 A (A^{-1}+B^{-1})^{-1}=A(A+B)^{-1}B=B(A+B)^{-1}A (A−1+B−1)−1=A(A+B)−1B=B(A+B)−1A
数据后验分布服从正态分布:
p
(
x
∣
D
)
=
∫
μ
p
(
x
∣
μ
)
p
(
μ
∣
D
)
d
μ
∼
N
(
μ
n
,
Σ
+
Σ
n
)
p(\mathbf x\vert D)=\int_{\mu}p(\mathbf x\vert \mu)p(\mu\vert D)d\mu\sim N(\mu_{n},\Sigma+\Sigma_{n})
p(x∣D)=∫μp(x∣μ)p(μ∣D)dμ∼N(μn,Σ+Σn)