当前位置：首页 > article >正文

深度学习-交叉熵损失函数

article 2025/1/8 4:28:17

交叉熵损失函数（Cross-Entropy Loss）是机器学习和深度学习中常用的一种损失函数，特别适用于分类问题。它用于评估模型的预测概率分布和真实分布之间的差异，能够衡量模型预测的准确性。一般来说，交叉熵损失越小，模型的预测结果就越接近真实标签。

交叉熵来源于信息论，用来衡量两个概率分布之间的差异。若已知一个真实分布 P和一个预测分布 Q，交叉熵可以被定义为：

其中：

交叉熵的值越小，说明 Q越接近 P，即模型的预测分布与真实分布越一致；反之，交叉熵的值越大，则表明预测分布与真实分布差异越大。

在分类问题中，我们通常知道每个样本属于某一个类别，可以将其表示成一个概率分布。例如，对于一个二分类问题，标签可以是 [1, 0]（第一个类别）或 [0, 1]（第二个类别），这表示样本属于某一类的“确定”概率。我们希望模型的预测结果也接近于这种“确定”的分布。

交叉熵损失函数将模型的输出概率分布与真实标签的概率分布做比较，进而度量模型预测的误差。此损失函数在分类任务中特别常用，尤其是多分类任务。

对于多分类任务，假设有 C 个类别，真实标签为 y，模型的预测输出为，交叉熵损失函数定义为：

其中：

该公式的意义在于，仅考虑实际类别的预测概率；非真实类别的预测不会影响损失值。

对于二分类任务，交叉熵损失公式可以简化。设样本标签，模型预测的概率为，则交叉熵损失为：

其中：

这两个公式描述了在二分类情况下预测值与真实标签的偏差。

交叉熵损失鼓励模型输出更“确定”的分类，即倾向于给真实类别分配更高的概率，从而在训练过程中优化模型的分类效果。

交叉熵损失函数在实际使用中配合 softmax 层，softmax 输出的概率具有可微性，这样可以通过反向传播有效地进行梯度计算，有助于提升训练的效率和模型的收敛性。

交叉熵损失函数等价于最大似然估计（MLE）的负对数似然，最大化预测结果的概率也就意味着最小化交叉熵损失。因此，交叉熵损失也是在模型训练中优化参数的一种直观方法。

平滑技巧：在某些情况下，使用标签平滑（Label Smoothing）可以防止模型过拟合。例如，将真实标签从 1 和 0 平滑为 0.9 和 0.1，这在实际应用中可以提升模型的泛化能力。
softmax+交叉熵：交叉熵损失函数通常与 softmax 函数配合使用，因为 softmax 输出的概率分布更符合交叉熵的定义。
类别不平衡问题：在类别不平衡的任务中，交叉熵损失可能会忽略小类别的损失，因此常采用加权交叉熵（Weighted Cross-Entropy）或调和采样方法。