当前位置：首页 > article >正文

【漫话机器学习系列】070.汉明损失（Hamming Loss）

article 2025/3/7 3:13:11

汉明损失（Hamming Loss）

汉明损失是多标签分类问题中的一种评价指标，用于衡量预测结果与实际标签之间的差异。它定义为预测错误的标签比例，即错误标签的个数占总标签数量的比值。

在多标签分类中，每个样本可以属于多个类别，因此汉明损失对每个样本的每个类别进行独立评估，而不关心类别之间的相关性。

公式

假设：

n 是样本总数。
L 是类别总数。
是第 i 个样本的真实标签向量。
是第 i 个样本的预测标签向量。

汉明损失的定义为：

其中：

是指示函数，当真实标签与预测标签不相等时，取值为 1，否则为 0。

汉明损失的取值范围为 [0, 1]，值越小表示预测越准确。

解释

全对：如果预测完全正确（每个样本的每个标签都正确），汉明损失为 0。
全错：如果预测完全错误（所有标签都被错误预测），汉明损失为 1。

示例

假设有 3 个样本和 4 个类别（标签）：

真实标签矩阵 Y：

预测标签矩阵：

逐元素比较错误标签数：

错误标签总数为 3，总标签数为。

汉明损失：

代码实现

以下是 Python 中的实现代码：

import numpy as np
from sklearn.metrics import hamming_loss

# 定义真实标签矩阵和预测标签矩阵
Y = np.array([
    [1, 0, 1, 0],
    [0, 1, 1, 0],
    [1, 1, 0, 0]
])

Y_pred = np.array([
    [1, 0, 0, 0],
    [0, 1, 0, 0],
    [1, 0, 0, 0]
])

# 计算汉明损失
hamming_loss_value = hamming_loss(Y, Y_pred)
print("汉明损失：", hamming_loss_value)

运行结果：