当前位置：首页 > article >正文

一文读懂深度学习中的损失函数quantifying loss —— 作用、分类和示例代码

article 2025/3/11 0:33:14

在深度学习中，quantifying loss（量化损失）是指通过数学方法计算模型预测值与真实值之间的差异，以衡量模型的性能。损失函数（Loss Function）是量化损失的核心工具，它定义了模型预测值与真实值之间的误差大小。损失值越小，表示模型的预测越接近真实值。

一、损失函数的作用

衡量模型性能：损失函数提供了一个具体的数值，用于评估模型在当前参数下的表现。
指导模型优化：通过最小化损失函数，模型可以逐步调整参数，使预测结果更接近真实值。
帮助模型收敛：损失函数是优化算法（如梯度下降）的核心，它决定了模型参数更新的方向和幅度。

二、常见的损失函数

根据任务类型（如回归、分类等），常用的损失函数有所不同：

1. 回归任务（Regression）

• 均方误差（Mean Squared Error, MSE）：
计算预测值与真实值之间平方差的平均值。适用于回归问题。
$\text{MSE} = \frac{1}{n} \sum_{i=1}^n (y_i - \hat{y}_i)^2$
其中， $y_i$ 是真实值， $\hat{y}_i$ 是预测值， $n$ 是样本数量。

• 平均绝对误差（Mean Absolute Error, MAE）：
计算预测值与真实值之间绝对差的平均值。对异常值不敏感。
$\text{MAE} = \frac{1}{n} \sum_{i=1}^n |y_i - \hat{y}_i|$

2. 分类任务（Classification）

• 交叉熵损失（Cross-Entropy Loss）：
衡量预测概率分布与真实概率分布之间的差异。适用于分类问题。
◦ 二分类（Binary Cross-Entropy）：
$\text{BCE} = -\frac{1}{n} \sum_{i=1}^n \left( y_i \log(\hat{y}_i) + (1 - y_i) \log(1 - \hat{y}_i) \right)$
◦ 多分类（Categorical Cross-Entropy）：
$\text{CCE} = -\frac{1}{n} \sum_{i=1}^n \sum_{j=1}^m y_{ij} \log(\hat{y}_{ij})$
其中， $m$ 是类别数量， $y_{ij}$ 是真实标签（one-hot 编码）， $\hat{y}_{ij}$ 是预测概率。

• 稀疏分类交叉熵（Sparse Categorical Cross-Entropy）：
适用于标签是整数（非 one-hot 编码）的分类任务。
$\text{Sparse CCE} = -\frac{1}{n} \sum_{i=1}^n \log(\hat{y}_{i, y_i})$

3. 其他任务

• Hinge Loss：
用于支持向量机（SVM）和二分类问题。
$\text{Hinge Loss} = \max(0, 1 - y_i \cdot \hat{y}_i)$
• Kullback-Leibler Divergence (KL Divergence)：
衡量两个概率分布之间的差异，常用于生成模型（如变分自编码器）。

三、如何量化损失

在训练模型时，损失函数的计算过程如下：

前向传播：模型根据输入数据计算预测值。
计算损失：使用损失函数计算预测值与真实值之间的误差。
反向传播：根据损失值计算梯度，更新模型参数。

在 Keras 中，可以通过 model.compile() 指定损失函数，并通过 model.fit() 训练模型。

四、示例代码

以下是一个使用均方误差（MSE）作为损失函数的回归任务示例：

import tensorflow as tf
from tensorflow.keras import Sequential
from tensorflow.keras.layers import Dense

# 构建模型
model = Sequential([
    Dense(64, input_shape=(10,), activation='relu'),  # 输入维度为 10
    Dense(32, activation='relu'),
    Dense(1)  # 输出层，用于回归任务
])

# 编译模型，指定损失函数为 MSE
model.compile(optimizer='adam', loss='mean_squared_error')

# 生成随机数据
import numpy as np
x_train = np.random.rand(1000, 10)
y_train = np.random.rand(1000, 1)

# 训练模型
model.fit(x_train, y_train, epochs=10, batch_size=32)