深度学习(5):逻辑斯蒂回归Logistic
文章目录
- 一、逻辑斯蒂回归(Logistic Regression)
- 二、KL 散度(相对熵)
- 三、交叉熵(Cross-Entropy)
- 四、关系
- 五、总结
一、逻辑斯蒂回归(Logistic Regression)
- 概述
逻辑斯蒂回归是一种广泛应用于二分类问题的统计模型,用于预测输入数据属于某个类别的概率,实际上是用于分类任务的。 - 原理
-
模型函数:逻辑斯蒂回归使用逻辑斯蒂函数(Sigmoid 函数)将线性回归的输出映射到 (0,1) 区间,表示预测为正类的概率。
-
损失函数:使用对数似然损失函数,通过最大化似然函数来估计模型参数。
二、KL 散度(相对熵)
- 概述
KL 散度(Kullback-Leibler Divergence),也称为相对熵,是用于衡量两个概率分布 ( P ) 和 ( Q ) 之间差异的非对称度量。 - 定义
- 性质
4. 作用
KL 散度在信息论和机器学习中用于:
- 衡量分布差异:评估模型预测分布与真实分布之间的差异。
- 优化目标:在变分推断等方法中,最小化 KL 散度以逼近复杂的概率分布。
三、交叉熵(Cross-Entropy)
-
概述
交叉熵是衡量两个概率分布之间差异的度量,特别关注真实分布与预测分布之间的信息熵差异。 -
定义
对于离散分布,交叉熵定义为:
3. 关系
4. 作用
在机器学习中,交叉熵常用作分类模型的损失函数,衡量模型预测与真实标签之间的差异。
四、关系
1. 逻辑斯蒂回归与交叉熵损失
在逻辑斯蒂回归中,损失函数实际上就是交叉熵损失。通过最小化交叉熵损失,我们希望模型的预测分布 ( Q ) 接近真实分布 ( P )。
- 二分类交叉熵损失函数:
- 交叉熵与 KL 散度的关系
- 联系:交叉熵等于真实分布的熵加上真实分布与预测分布之间的 KL 散度。
3. KL 散度在逻辑斯蒂回归中的作用
- 在逻辑斯蒂回归中,通过最小化交叉熵损失,我们实际上是在最小化模型预测分布 ( Q ) 与真实分布 ( P ) 之间的 KL 散度。
- 这意味着我们希望模型的预测分布尽可能接近真实分布,从而提高分类准确率。
五、总结
- 逻辑斯蒂回归:一种用于二分类问题的模型,使用 Sigmoid 函数将线性组合映射为概率,损失函数为交叉熵损失。
- 交叉熵:衡量两个概率分布之间差异的度量,用于逻辑斯蒂回归等模型的损失函数。
- KL 散度:衡量两个概率分布之间差异的非对称度量,交叉熵可以视为熵和 KL 散度的组合。
- 关系:在逻辑斯蒂回归中,最小化交叉熵损失等价于最小化真实分布和模型预测分布之间的 KL 散度。