机器学习技术栈—— 概率学基础
机器学习技术栈—— 概率学基础
- 先验概率、后验概率、似然概率
- 总体标准差和样本标准差
先验概率、后验概率、似然概率
首先
p
(
w
∣
X
)
=
p
(
X
∣
w
)
∗
p
(
w
)
p
(
X
)
p(w|X) =\frac{ p(X|w)*p(w)}{p(X)}
p(w∣X)=p(X)p(X∣w)∗p(w)
也就有
p
(
w
∣
X
)
∝
p
(
X
∣
w
)
∗
p
(
w
)
p(w|X) \propto p(X|w)*p(w)
p(w∣X)∝p(X∣w)∗p(w)
p
(
w
)
p(w)
p(w)是先验(prior)概率,即先入为主,基于历史规律或经验,对事件
w
w
w做出概率为
p
(
w
)
p(w)
p(w)的判断,而非基于客观事实。
p
(
w
∣
X
)
p(w|X)
p(w∣X)是后验(posterior)概率,即马后炮,基于事实的校验,对事件
w
w
w做出一定条件下的概率判断。
p
(
X
∣
w
)
p(X|w)
p(X∣w)是似然(likelihood)概率,似然,即似乎会这样,也就是事件
w
w
w发生时,发生
X
X
X的概率似乎是
p
(
X
∣
w
)
p(X|w)
p(X∣w)这么大,是一个根据数据统计得到的概率,这一点性质和先验是一样的。
如何科学的马后炮得到后验概率呢?就要先依托历史规律,然后摆数据,历史规律+实事求是的数据就是科学的马后炮。后验概率,是在有数据后,对先验概率进行纠偏的概率。
参考文章 |
---|
Bayes’ Rule – Explained For Beginners |
《【辨析】先验概率、后验概率、似然概率》 |
总体标准差和样本标准差
样本标准差(sample standard deviation):
S
=
∑
(
X
i
−
X
ˉ
)
2
n
−
1
S =\sqrt{ \frac{\sum(X_i - \bar X)^2}{n-1}}
S=n−1∑(Xi−Xˉ)2
总体标准差(population standard deviation):
σ
=
∑
(
X
i
−
X
ˉ
)
2
n
\sigma =\sqrt{ \frac{\sum(X_i - \bar X)^2}{n}}
σ=n∑(Xi−Xˉ)2,population也有全体的意思
参考文章 |
---|
Standard_deviation - Wiki |