当前位置：首页 > article >正文

PyTorch 的 nn.NLLLoss：负对数似然损失全解析

article 2025/3/7 4:13:45

PyTorch 的 `nn.NLLLoss`：负对数似然损失全解析

在 PyTorch 的损失函数家族中，nn.NLLLoss（Negative Log Likelihood Loss，负对数似然损失）是一个不太起眼但非常重要的成员。它经常跟 LogSoftmax 搭配出现，尤其在分类任务中扮演关键角色。今天我们就来聊聊 nn.NLLLoss 的数学原理、使用方法，以及它适用的场景，带你彻底搞懂这个损失函数。

1. 什么是负对数似然损失？

先从名字拆解：

似然（Likelihood）：在统计学中，似然表示“给定模型参数时，观察到数据的概率”。对数似然（Log Likelihood）是它的对数形式，常用于简化计算。
负对数似然（Negative Log Likelihood, NLL）：把对数似然取负数，作为损失函数，目标是最小化它。

在机器学习中，负对数似然损失通常用来衡量模型预测的概率分布与真实标签的差距，尤其是在分类任务中。

数学公式

假设我们有一个多分类任务，有 ( $C$ ) 个类别。对于一个样本：

( $\hat{y}$ ) 是模型输出的概率分布，比如经过 Softmax 或 LogSoftmax 处理后的结果。
( $y$ ) 是真实类别，用索引表示（比如 2 表示第 2 类）。

nn.NLLLoss 的公式是：

$\text{NLL} = -\frac{1}{N} \sum_{i=1}^{N} \log(\hat{y}_{i, y_i})$

( $N$ )：样本数量（batch size）。
( $y_i$ )：第 ( $i$ ) 个样本的真实类别索引。
( $\hat{y}_{i, y_i}$ )：第 ( $i$ ) 个样本在真实类别 ( $y_i$ ) 上的预测概率（对数值）。

简单来说，nn.NLLLoss 取预测概率的对数（已经由 LogSoftmax 计算好），然后取负号，只关心正确类别的概率值。

2. 为什么搭配 `LogSoftmax`？

你可能会注意到，nn.NLLLoss 的文档里总是提到“通常与 LogSoftmax 搭配使用”。这是为什么？

模型输出：神经网络的最后一层通常输出未归一化的 logits（比如 [1.0, 2.0, 0.5]），而不是概率。
Softmax：将 logits 转为概率分布，比如 [0.2, 0.5, 0.3]，满足 ( $\sum \hat{y} = 1$ )。公式是：
$\hat{y}_j = \frac{e^{z_j}}{\sum_{k=1}^{C} e^{z_k}}$
LogSoftmax：在 Softmax 基础上取对数，输出的是对数概率，比如 [-1.6, -0.7, -1.2]。公式是：
$\log(\hat{y}_j) = z_j - \log(\sum_{k=1}^{C} e^{z_k})$

nn.NLLLoss 要求输入是对数概率（log probabilities），而不是原始概率。所以：

如果你直接给它 Softmax 后的概率，会出错，因为它期待的是 ( $\log(\hat{y})$ )。
用 LogSoftmax 处理后，输入正好符合要求，计算时直接取负号即可。

3. 代码使用示例

我们来看一个简单的例子，展示 nn.NLLLoss 和 LogSoftmax 的搭配：

import torch
import torch.nn as nn

# 假设一个 3 分类任务，batch_size = 2
logits = torch.tensor([[1.0, 2.0, 0.5], [0.1, 0.5, 2.0]])  # 原始 logits
target = torch.tensor([1, 2])  # 真实类别索引，0~2

# 定义 LogSoftmax 和 NLLLoss
log_softmax = nn.LogSoftmax(dim=1)  # dim=1 表示在类别维度上归一化
loss_fn = nn.NLLLoss()

# 计算损失
log_probs = log_softmax(logits)  # 先转为对数概率
loss = loss_fn(log_probs, target)
print("NLL Loss:", loss.item())

运行过程：

logits 是 [batch_size, num_classes] 的张量，表示每个样本在每个类别上的得分。
nn.LogSoftmax 把 logits 转为对数概率，比如 [[-1.9, -0.9, -2.4], [-2.3, -1.9, -0.4]]。
nn.NLLLoss 提取每个样本在真实类别上的对数概率（比如第一个样本取 -0.9，第二个取 -0.4），取负并平均。

输出可能是 1.15，具体值取决于输入。

4. 与 `nn.CrossEntropyLoss` 的关系

你可能听说过 nn.CrossEntropyLoss，它也很常见。实际上：

nn.CrossEntropyLoss = LogSoftmax + nn.NLLLoss
PyTorch 把这两步合二为一，直接接受 logits 作为输入，内部自动完成 LogSoftmax 和 NLL 计算。具体过程可以参考笔者的另一篇博客：Pytorch为什么 nn.CrossEntropyLoss = LogSoftmax + nn.NLLLoss？

代码对比：

# 用 nn.CrossEntropyLoss
ce_loss_fn = nn.CrossEntropyLoss()
ce_loss = ce_loss_fn(logits, target)
print("CrossEntropyLoss:", ce_loss.item())  # 与上面结果相同

区别：
- nn.NLLLoss：输入是对数概率，需手动加 LogSoftmax。
- nn.CrossEntropyLoss：输入是 logits，自动处理。

5. 使用场景

nn.NLLLoss 适用于以下场景：

多分类任务：比如图像分类（CIFAR-10 的 10 类）、文本分类。
需要分离 Softmax 的情况：
- 你想在模型里显式控制 LogSoftmax 的位置，而不是交给损失函数。
- 调试时单独检查对数概率的值。
概率输出的模型：如果你的模型已经输出对数概率（比如某些预训练模型），直接用 nn.NLLLoss 更高效。

典型例子：

一个简单的 CNN 分类器：

class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv = nn.Conv2d(1, 16, 3)
        self.fc = nn.Linear(16 * 26 * 26, 10)  # 假设 28x28 输入
        self.log_softmax = nn.LogSoftmax(dim=1)

    def forward(self, x):
        x = self.conv(x)
        x = x.view(x.size(0), -1)
        x = self.fc(x)
        return self.log_softmax(x)

model = SimpleCNN()
loss_fn = nn.NLLLoss()