模式识别-Ch3-极大似然估计
Ch3 参数估计-最大似然和贝叶斯参数估计
文章目录
- Ch3 参数估计-最大似然和贝叶斯参数估计
- 基本概念
- 最大似然估计
- 基本假设
- 基本原理
- 方法描述
- 问题求解
- 例1:黑白球
- 例2:高斯分布下的最大似然估计
基本概念
贝叶斯分类器: 已知类先验概率 P ( w j ) P(w_j) P(wj)和类条件概率密度 p ( x ∣ w j ) p(\mathbf{x}\vert w_j) p(x∣wj),按某决策规则确定判别函数和决策面。
但类先验概率和类条件概率密度在实际中往往是未知的。
因此,我们要换一种处理问题的方式:“从样本出发来设计分类器”。根据设计方法,可以将分类器分为两类:
- 估计类先验概率和类条件概率密度函数(产生式方法)
- 直接估计类后验概率或判别函数(判别式方法)
参数估计 | 非参数估计 |
---|---|
样本所属的类条件概率密度函数的形式已知,而概率密度函数的参数是未知的。 | 样本所属的类条件概率密度函数的形式和参数都是未知的。 |
目标是由已知类别的样本集估计概率密度函数的参数。 | 目标是由已知类别的样本集估计类条件概率密度函数本身。 |
例如,知道样本所属总体为正态分布,而正态分布的参数未知 p ( x ∣ μ , σ ) = 1 2 π σ exp ( − 1 2 ( x − μ σ ) 2 ) p(\mathbf{x}\vert\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\left(\frac{\mathbf{x}-\mu}{\sigma}\right)^2\right) p(x∣μ,σ)=2πσ1exp(−21(σx−μ)2) | — |
基本概念 | 说明 | 例子 |
---|---|---|
统计量 | 样本中包含总体的信息,我们希望通过样本集将有关信息估计出来。根据不同要求构造出有关样本的某种函数,在统计学中称为统计量 d ( x 1 , x 2 , … , x n ) d(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n) d(x1,x2,…,xn)。 | $\mu=\frac{1}{n}\sum_{i = 1}^{n}\mathbf \mathbf{x}_i $ |
参数空间 | 将未知待估计参数记为 θ \theta θ,参数 θ \theta θ的全部允许取值集合构成参数空间,记为 Θ \Theta Θ。 | — |
点估计 | 点估计问题就是构造一个统计量 d ( x 1 , x 2 , … , x n ) d(\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_n) d(x1,x2,…,xn)作为参数 θ \theta θ的估计 θ ^ \hat{\theta} θ^。 | 常用的均值估计: $\hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf \mathbf{x}_i $ |
区间估计 | 与点估计不同,区间估计要求采用 ( d 1 , d 2 ) (d_1,d_2) (d1,d2)作为参数 θ \theta θ可能取值范围的一种估计。这个区间称为置信区间。这类估计问题称为区间估计。 | — |
最大似然估计
基本假设
- 独立同分布假设:每类样本均是从类条件概率密度 p ( x ∣ w j ) p(x\vert w_j) p(x∣wj)中独立抽取出来的。
- p ( x ∣ w j ) p(x\vert w_j) p(x∣wj)具有确定的函数形式,只是其中的参数 θ \theta θ未知:
- 比如,当 x \mathbf x x服从一维正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2),未知的参数为 θ = [ μ , σ ] T \theta = [\mu,\sigma]^T θ=[μ,σ]T,为一个二维向量。
- 各类样本只包含本类的分布信息:即不同类别的参数是独立的。可以分别处理 c c c个独立问题。
基本原理
已知随机抽取的 n n n个样本(观测值),最合理的参数估计应该是使得从该模型中能抽取这 n n n个样本的概率最大。
直观想法:一个随机试验如有若干个可能的结果:A,B,C,…。若仅作一次试验,结果A出现,则认为试验条件(模型参数)对A出现有利,也即A出现的概率很大。
一般地,事件A发生的概率与参数 θ \theta θ相关,A发生的概率记为 P ( A ∣ θ ) P(A\vert \theta) P(A∣θ),则 θ \theta θ的估计应该使上述概率达到最大,这样的 θ \theta θ估计意义称为极大似然估计。
设样本集包含
n
n
n个样本
D
=
{
x
1
,
x
2
,
⋯
,
x
n
}
D = \{\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n\}
D={x1,x2,⋯,xn},这些样本是从概率密度函数
p
(
x
∣
θ
)
p(x\vert \theta)
p(x∣θ)中独立抽取的,则获得
n
n
n个样本的联合概率为:
l
(
θ
)
=
P
(
D
∣
θ
)
=
P
(
x
1
,
x
2
,
⋯
,
x
n
∣
θ
)
=
∏
i
=
1
n
p
(
x
i
∣
θ
)
l(\theta)=P(D|\theta)=P(\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n|\theta)=\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta)
l(θ)=P(D∣θ)=P(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
l
(
θ
)
l(\theta)
l(θ)是
θ
\theta
θ的函数,描述了在不同参数取值下取得当前样本集的可能性。
l ( θ ) l(\theta) l(θ)被称为参数 θ \theta θ相对于样本集 D D D的似然函数: 似然函数给出了从总体中抽出 x 1 , x 2 , ⋯ , x n \mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n x1,x2,⋯,xn这 n n n个样本的概率。
方法描述
令 l ( θ ) l(\theta) l(θ)为样本集 D D D的似然函数, D = x 1 , x 2 , ⋯ , x n D = {\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_n} D=x1,x2,⋯,xn。
如果 θ \theta θ是参数空间 Θ \Theta Θ中能使 l ( θ ) l(\theta) l(θ)极大化的 θ \theta θ值,那么 θ \theta θ就是 θ \theta θ的最大似然估计量,即 θ ^ = arg max θ ∈ Θ l ( θ ) \hat{\theta}=\arg\max_{\theta\in\Theta}l(\theta) θ^=argmaxθ∈Θl(θ)
为计算方便,通常采用对数似然函数:
H
(
θ
)
=
ln
(
l
(
θ
)
)
=
ln
(
∏
i
=
1
n
p
(
x
i
∣
θ
)
)
=
∑
i
=
1
n
ln
(
p
(
x
i
∣
θ
)
)
arg
max
θ
∈
Θ
l
(
θ
)
=
arg
max
θ
∈
Θ
H
(
θ
)
H(\theta)=\ln(l(\theta))=\ln(\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta))=\sum_{i = 1}^{n}\ln(p(\mathbf{x}_i|\theta))\\ \arg \max_{\theta\in\Theta}l(\theta)=\arg \max_{\theta\in\Theta}H(\theta)
H(θ)=ln(l(θ))=ln(i=1∏np(xi∣θ))=i=1∑nln(p(xi∣θ))argθ∈Θmaxl(θ)=argθ∈ΘmaxH(θ)
问题求解
H ( θ ) = ln ( l ( θ ) ) = ln ( ∏ i = 1 n p ( x i ∣ θ ) ) = ∑ i = 1 n ln ( p ( x i ∣ θ ) ) θ ^ = arg max θ ∈ Θ l ( θ ) H(\theta)=\ln(l(\theta))=\ln(\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta))=\sum_{i = 1}^{n}\ln(p(\mathbf{x}_i|\theta))\\ \hat{\theta}=\text{arg max}_{\theta\in\Theta}l(\theta) H(θ)=ln(l(θ))=ln(i=1∏np(xi∣θ))=i=1∑nln(p(xi∣θ))θ^=arg maxθ∈Θl(θ)
当
l
(
θ
)
l(\theta)
l(θ)可微时:
∂
l
(
θ
)
∂
θ
=
0
,
or
∂
H
(
θ
)
∂
θ
=
0
\frac{\partial l(\theta)}{\partial\theta}=0,\text{ or }\frac{\partial H(\theta)}{\partial\theta}=0
∂θ∂l(θ)=0, or ∂θ∂H(θ)=0对于多维情形
θ
=
[
θ
1
,
θ
2
,
⋯
,
θ
m
]
T
\theta = [\theta_1,\theta_2,\cdots,\theta_m]^T
θ=[θ1,θ2,⋯,θm]T,梯度向量为零:
∇
θ
(
l
(
θ
)
)
=
∂
l
(
θ
)
∂
θ
=
[
∂
l
(
θ
)
∂
θ
1
,
∂
l
(
θ
)
∂
θ
2
,
⋯
,
∂
l
(
θ
)
∂
θ
m
]
T
=
0
\nabla_{\theta}(l(\theta))=\frac{\partial l(\theta)}{\partial\theta}=\left[\frac{\partial l(\theta)}{\partial\theta_1},\frac{\partial l(\theta)}{\partial\theta_2},\cdots,\frac{\partial l(\theta)}{\partial\theta_m}\right]^T = 0
∇θ(l(θ))=∂θ∂l(θ)=[∂θ1∂l(θ),∂θ2∂l(θ),⋯,∂θm∂l(θ)]T=0
用梯度上升法求解
θ
t
+
1
=
θ
t
+
η
∂
l
(
θ
)
∂
θ
\theta^{t + 1}=\theta^{t}+\eta\frac{\partial l(\theta)}{\partial\theta}
θt+1=θt+η∂θ∂l(θ)问题求解 :
H
(
θ
)
=
ln
(
l
(
θ
)
)
=
ln
(
∏
i
=
1
n
p
(
x
i
∣
θ
)
)
=
∑
i
=
1
n
ln
(
p
(
x
i
∣
θ
)
)
θ
^
=
arg
max
θ
∈
Θ
l
(
θ
)
H(\theta)=\ln(l(\theta))=\ln(\prod_{i = 1}^{n}p(\mathbf{x}_i|\theta))=\sum_{i = 1}^{n}\ln(p(\mathbf{x}_i|\theta))\\ \hat{\theta}=\arg\max_{\theta\in\Theta}l(\theta)
H(θ)=ln(l(θ))=ln(i=1∏np(xi∣θ))=i=1∑nln(p(xi∣θ))θ^=argθ∈Θmaxl(θ)
当 l ( θ ) l(\theta) l(θ)是可微凹函数时 | 当 l ( θ ) l(\theta) l(θ)是一般可微函数时 |
---|---|
arg max θ ∈ Θ l ( θ ) ⇔ ∂ l ( θ ) ∂ θ = 0 \arg\max_{\theta\in\Theta}l(\theta)\Leftrightarrow\frac{\partial l(\theta)}{\partial\theta}=0 argmaxθ∈Θl(θ)⇔∂θ∂l(θ)=0 | arg max θ ∈ Θ l ( θ ) ⇒ ∂ l ( θ ) ∂ θ = 0 \arg\max_{\theta\in\Theta}l(\theta)\Rightarrow\frac{\partial l(\theta)}{\partial\theta}=0 argmaxθ∈Θl(θ)⇒∂θ∂l(θ)=0 |
梯度等于0是最优解的充要条件 | 梯度等于0是最优解的必要条件 |
在高维空间中,寻找全局最优解是极困难的,通常满足于局部最优解。
例1:黑白球
一个袋子里装有白球与黑球,但是不知道它们之间的比例。现有放回地抽取10次,结果获得8次黑球2次白球,估计袋子中的黑球的比例。
最大似然估计法:设抽到黑球的概率为p,取到8次黑球2次白球的概率为:
l
(
p
)
=
(
10
8
)
p
8
(
1
−
p
)
2
∂
l
(
p
)
∂
p
=
(
10
8
)
∂
p
8
(
1
−
p
)
2
∂
p
=
(
10
8
)
(
10
p
9
−
18
p
8
+
8
p
7
)
=
0
⇒
p
^
=
0.8
∂
ln
l
(
p
)
∂
p
=
∂
ln
(
10
8
)
+
8
ln
p
+
2
ln
(
1
−
p
)
∂
p
=
8
p
−
2
1
−
p
=
0
⇒
p
^
=
0.8
l(p)=\begin{pmatrix}10\\8\end{pmatrix}p^8(1-p)^2\\ \frac{\partial l(p)}{\partial p}=\begin{pmatrix}10\\8\end{pmatrix}\frac{\partial p^8(1-p)^2}{\partial p}=\begin{pmatrix}10\\8\end{pmatrix}(10p^9-18p^8+8p^7)=0\Rightarrow\hat p=0.8\\ \frac{\partial \ln l(p)}{\partial p}=\frac{\partial\ln\begin{pmatrix}10\\8\end{pmatrix}+8\ln p+2\ln(1-p)}{\partial p}=\frac 8p-\frac2{1-p}=0\Rightarrow\hat p=0.8
l(p)=(108)p8(1−p)2∂p∂l(p)=(108)∂p∂p8(1−p)2=(108)(10p9−18p8+8p7)=0⇒p^=0.8∂p∂lnl(p)=∂p∂ln(108)+8lnp+2ln(1−p)=p8−1−p2=0⇒p^=0.8
例2:高斯分布下的最大似然估计
总的来说,这边就是一个很简单的多元正态分布求解MLE,非常简单。在多元统计分析里面也算过了。
预备公式:
t r ( A ) = ∑ i = 1 d A i i , where A = ( A i j ) ∈ R d × d s = t r ( s ) , s 是标量 ⇒ x T A x = t r ( x T A x ) , x ∈ R d , A ∈ R d × d ∂ ∣ Σ ∣ ∂ Σ = ∣ Σ ∣ ( Σ − 1 ) , if Σ 对称 ∂ t r ( A Σ − 1 B ) ∂ Σ = ( − Σ − 1 B A Σ − 1 ) T ⇒ ∂ ( x T Σ − 1 x ) ∂ Σ = − Σ − 1 x x T Σ − 1 , if Σ 对称 \begin{align}&tr(A)=\sum_{i = 1}^{d}A_{ii},\text{ where }A=(A_{ij})\in R^{d\times d}\\ &s = tr(s),\ s\text{是标量}\Rightarrow x^TAx = tr(x^TAx),\ x\in R^d,A\in R^{d\times d}\\ &\frac{\partial\left|\Sigma\right|}{\partial\Sigma}=\left|\Sigma\right|(\Sigma^{- 1}),\text{ if }\Sigma\text{对称}\\ &\frac{\partial tr(A\Sigma^{-1}B)}{\partial\Sigma}=(-\Sigma^{-1}BA\Sigma^{-1})^T\Rightarrow\frac{\partial(x^T\Sigma^{-1}x)}{\partial\Sigma}=-\Sigma^{-1}xx^T\Sigma^{-1},\text{ if }\Sigma\text{对称} \end{align} tr(A)=i=1∑dAii, where A=(Aij)∈Rd×ds=tr(s), s是标量⇒xTAx=tr(xTAx), x∈Rd,A∈Rd×d∂Σ∂∣Σ∣=∣Σ∣(Σ−1), if Σ对称∂Σ∂tr(AΣ−1B)=(−Σ−1BAΣ−1)T⇒∂Σ∂(xTΣ−1x)=−Σ−1xxTΣ−1, if Σ对称
已知 x = [ x 1 , x 2 , ⋯ , x d ] T ∈ R d x = [\mathbf{x}_1,\mathbf{x}_2,\cdots,\mathbf{x}_d]^T\in R^d x=[x1,x2,⋯,xd]T∈Rd, μ = [ μ 1 , μ 2 , ⋯ , μ d ] T ∈ R d \mu = [\mu_1,\mu_2,\cdots,\mu_d]^T\in R^d μ=[μ1,μ2,⋯,μd]T∈Rd, Σ ∈ R d × d \Sigma\in R^{d\times d} Σ∈Rd×d
概率密度函数为:
p
(
x
∣
μ
,
Σ
)
=
1
(
2
π
)
d
/
2
∣
Σ
∣
1
/
2
exp
(
−
1
2
(
x
−
μ
)
T
Σ
−
1
(
x
−
μ
)
)
p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\right)
p(x∣μ,Σ)=(2π)d/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
对数似然函数为:
ln
p
(
x
i
∣
μ
,
Σ
)
=
−
1
2
ln
[
(
2
π
)
d
∣
Σ
∣
]
−
1
2
(
x
i
−
μ
)
T
Σ
−
1
(
x
i
−
μ
)
,
for
i
=
1
,
2
,
⋯
,
n
\ln p(\mathbf{x}_i|\mu,\Sigma)=-\frac{1}{2}\ln[(2\pi)^d|\Sigma|]-\frac{1}{2}(\mathbf{x}_i - \mu)^T\Sigma^{-1}(\mathbf{x}_i - \mu),\text{ for }i = 1,2,\cdots,n
lnp(xi∣μ,Σ)=−21ln[(2π)d∣Σ∣]−21(xi−μ)TΣ−1(xi−μ), for i=1,2,⋯,n
似然函数求导:
∇
θ
(
H
(
θ
)
)
=
∑
i
=
1
n
∇
θ
ln
p
(
x
i
∣
θ
)
=
0
,
(where
θ
=
μ
,
and (or)
Σ
)
\nabla_{\theta}(H(\theta))=\sum_{i = 1}^{n}\nabla_{\theta}\ln p(\mathbf{x}_i|\theta)=0,\text{ (where }\theta=\mu,\text{ and (or) }\Sigma)
∇θ(H(θ))=i=1∑n∇θlnp(xi∣θ)=0, (where θ=μ, and (or) Σ)
估计 μ \mu μ
∂ ( x T A x ) ∂ x = ( A + A T ) x ∂ ( x T A ) ∂ x = A ∂ ( A x ) ∂ x = A T \frac{\partial(x^TAx)}{\partial x}=(A+A^T)x\\ \frac{\partial(x^TA)}{\partial x}=A\\ \frac{\partial(Ax)}{\partial x}=A^T ∂x∂(xTAx)=(A+AT)x∂x∂(xTA)=A∂x∂(Ax)=AT
ln p ( x i ∣ μ , Σ ) = − 1 2 ln [ ( 2 π ) d ∣ Σ ∣ ] − 1 2 ( x i − μ ) T Σ − 1 ( x i − μ ) , for i = 1 , 2 , ⋯ , n ∂ H ( μ ) ∂ μ = ∑ i = 1 n ∂ ln p ( x i ∣ μ , Σ ) ∂ μ = ∑ i = 1 n Σ − 1 ( x i − μ ) ∑ i = 1 n Σ − 1 ( x i − μ ) = 0 ⇒ ∑ i = 1 n x i − n μ = 0 ⇒ μ ^ = 1 n ∑ i = 1 n x i \ln p(\mathbf{x}_i|\mu,\Sigma)=-\frac{1}{2}\ln[(2\pi)^d|\Sigma|]-\frac{1}{2}(\mathbf{x}_i - \mu)^T\Sigma^{-1}(\mathbf{x}_i - \mu),\text{ for }i = 1,2,\cdots,n\\ \frac{\partial H(\mu)}{\partial\mu}=\sum_{i = 1}^{n}\frac{\partial\ln p(\mathbf{x}_i|\mu,\Sigma)}{\partial\mu}=\sum_{i = 1}^{n}\Sigma^{-1}(\mathbf{x}_i - \mu)\\ \sum_{i = 1}^{n}\Sigma^{-1}(\mathbf{x}_i - \mu)=0\Rightarrow\sum_{i = 1}^{n}\mathbf{x}_i - n\mu=0\Rightarrow\hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_i lnp(xi∣μ,Σ)=−21ln[(2π)d∣Σ∣]−21(xi−μ)TΣ−1(xi−μ), for i=1,2,⋯,n∂μ∂H(μ)=i=1∑n∂μ∂lnp(xi∣μ,Σ)=i=1∑nΣ−1(xi−μ)i=1∑nΣ−1(xi−μ)=0⇒i=1∑nxi−nμ=0⇒μ^=n1i=1∑nxi
估计 Σ \Sigma Σ
$$
\ln p(\mathbf{x}_i|\mu,\Sigma)=-\frac{1}{2}\ln[(2\pi)^d|\Sigma|]-\frac{1}{2}(\mathbf{x}_i - \mu)T\Sigma{-1}(\mathbf{x}i - \mu),\text{ for }i = 1,2,\cdots,n\
\frac{\partial H(\mu,\Sigma)}{\partial\Sigma}=\sum{i = 1}^{n}\frac{\partial\ln p(\mathbf{x}i|\mu,\Sigma)}{\partial\Sigma}\
=\sum{i = 1}^{n}\left(-\frac{n}{2}\frac{1}{|\Sigma|}\frac{\partial|\Sigma|}{\partial\Sigma}-\frac{1}{2}\frac{\partial(\mathbf{x}_i - \mu)T\Sigma{-1}(\mathbf{x}_i - \mu)}{\partial\Sigma}\right)\
=-\frac{n}{2}\Sigma{-1}+\frac{1}{2}\Sigma{-1}\sum_{i = 1}^{n}(\mathbf{x}_i - \mu)(\mathbf{x}i - \mu)T\Sigma{-1}=0 \
\begin{align}
\Sigma^{-1}\left(\sum{i = 1}^{n}(\mathbf{x}_i - \mu)(\mathbf{x}i - \mu)T\Sigma{-1}-n\right)&=0\
\sum{i = 1}^{n}(\mathbf{x}_i - \mu)(\mathbf{x}i - \mu)T\Sigma{-1}&=n\
\sum{i = 1}^{n}(\mathbf{x}_i - \mu)(\mathbf{x}i - \mu)^T&=n\Sigma\
\frac{1}{n}\sum{i = 1}^{n}(\mathbf{x}_i - \mu)(\mathbf{x}_i - \mu)^T&=\hat{\Sigma}
\end{align}
$$
μ
,
Σ
\mu,\Sigma
μ,Σ均未知的情况下,可以使用极大似然估计得到
μ
,
Σ
\mu,\Sigma
μ,Σ的估计量:
μ
^
=
1
n
∑
i
=
1
n
x
i
,
Σ
^
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
(
x
i
−
μ
)
T
\hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_i,\hat{\Sigma}=\frac{1}{n}\sum_{i = 1}^{n}(\mathbf{x}_i - \mu)(\mathbf{x}_i - \mu)^T
μ^=n1i=1∑nxi,Σ^=n1i=1∑n(xi−μ)(xi−μ)T
一维情况:
max
∑
i
=
1
n
ln
p
(
x
i
∣
μ
,
σ
)
p
(
x
∣
μ
,
σ
)
=
1
2
π
σ
exp
(
−
1
2
(
x
−
μ
)
2
σ
2
)
μ
^
=
1
n
∑
i
=
1
n
x
i
,
σ
^
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
^
)
2
\text{max}\sum_{i = 1}^{n}\ln p(\mathbf{x}_i|\mu,\sigma)\\ p(x|\mu,\sigma)=\frac{1}{\sqrt{2\pi}\sigma}\exp\left(-\frac{1}{2}\frac{(x - \mu)^2}{\sigma^2}\right)\\ \hat{\mu}=\frac{1}{n}\sum_{i = 1}^{n}\mathbf{x}_i,\hat{\sigma}^2=\frac{1}{n}\sum_{i = 1}^{n}(\mathbf{x}_i - \hat{\mu})^2
maxi=1∑nlnp(xi∣μ,σ)p(x∣μ,σ)=2πσ1exp(−21σ2(x−μ)2)μ^=n1i=1∑nxi,σ^2=n1i=1∑n(xi−μ^)2