当前位置：首页 > article >正文

【漫话机器学习系列】094.交叉熵（Cross-Entropy）

article 2025/2/21 23:57:25

交叉熵（Cross-Entropy）详解

1. 引言

在机器学习和深度学习中，交叉熵（Cross-Entropy）是一种常见的损失函数，广泛用于分类任务，特别是二分类和多分类问题。交叉熵的核心思想是衡量两个概率分布之间的差异，并通过最小化这个差异来优化模型，使预测结果尽可能接近真实分布。

在本篇文章中，我们将详细探讨：

交叉熵的定义与公式
交叉熵的数学推导
交叉熵的作用与直观理解
交叉熵在机器学习中的应用
交叉熵与其他损失函数的对比

2. 交叉熵的定义

2.1 交叉熵公式

交叉熵的数学定义如下：

其中：

D 表示交叉熵损失（Cross-Entropy Loss）
K 是类别的总数
表示样本在类别 k 上的真实概率
是对数操作（一般以自然对数 ln 计算）

2.2 交叉熵的作用

交叉熵用于衡量两个概率分布之间的相似性，当真实分布和预测分布一致时，交叉熵最小（接近 0）；当两个分布相差越大时，交叉熵值越大。

例如：

如果模型的预测概率完全匹配真实标签（如 100% 置信度地预测正确），交叉熵损失趋近于 0。
如果模型的预测概率非常不准确（如对错误类别的置信度较高），交叉熵损失会很大，模型需要调整参数。

3. 交叉熵的数学推导

3.1 二分类问题中的交叉熵

对于二分类问题（如 0/1 分类），假设：

真实标签 y∈{0, 1}
预测概率（表示类别 1 的概率）

交叉熵损失函数为：

当真实类别 y = 1 时，损失函数变为：

若模型预测接近 1（正确预测），损失接近 0
若模型预测接近 0（错误预测），损失接近无穷大

当真实类别 y = 0 时，损失函数变为：

若模型预测接近 0（正确预测），损失接近 0
若模型预测接近 1（错误预测），损失趋向无穷大

这表明：交叉熵会对错误的高置信度预测施加较大的惩罚，从而促进模型学习更准确的概率分布。

3.2 多分类问题中的交叉熵

在多分类任务中（Softmax 作为输出层），设：

K 为类别数
y 为真实类别（one-hot 编码）
为第 k 类的预测概率

交叉熵损失为：

由于 one-hot 编码中，只有真实类别的，其余类别的，因此公式可以简化为：

其中是模型对真实类别的预测概率。

如果模型对正确类别的置信度高，则交叉熵损失较小；如果预测不准确，则损失较大。

4. 交叉熵的作用与直观理解

4.1 交叉熵衡量概率分布的差异

交叉熵的本质是计算两个分布之间的差异。例如：

真实分布：P = (0.9, 0.1)（正确类别置信度 90%）
预测分布：
- （预测较准确）
- （预测较混乱）

计算交叉熵：

可以看出，的交叉熵较小，说明预测更接近真实分布，而的交叉熵较大，表示预测较差。

4.2 交叉熵与信息论

交叉熵源自信息论，用来衡量数据的不确定性：

如果交叉熵 D 越小，表示预测分布与真实分布越接近，模型越稳定。
如果交叉熵 D 越大，表示预测不稳定，需要优化。

在信息论中，交叉熵可以理解为编码一条信息的最优成本，如果模型的预测更准确，所需的编码长度更短。

5. 交叉熵在机器学习中的应用

5.1 逻辑回归（Logistic Regression）

逻辑回归使用 Sigmoid 作为输出层，交叉熵作为损失函数，优化模型参数。

5.2 神经网络（Neural Networks）

交叉熵常用于分类任务，配合 Softmax 层来计算每个类别的概率分布。

5.3 生成模型（Generative Models）

如 GAN（生成对抗网络）使用交叉熵来衡量真实样本与生成样本的分布差异。

6. 交叉熵 vs 其他损失函数

损失函数	适用任务	特点
均方误差（MSE）	回归	对异常值敏感
平均绝对误差（MAE）	回归	对异常值鲁棒，误差的影响更均匀
交叉熵（CE）	分类	适用于概率预测，能有效优化分类模型

7. 结论

交叉熵衡量两个概率分布的相似性，是分类任务中最常用的损失函数。
交叉熵会对错误高置信度预测施加较大惩罚，从而优化模型训练。
在信息论中，交叉熵反映了编码信息的最优成本。
在深度学习中，交叉熵通常与 Softmax 结合，进行多分类任务的优化。

掌握交叉熵的概念，对优化分类模型和理解概率分布的学习过程至关重要！

查看全文

http://www.kler.cn/a/549462.html

数据结构------单向链表。

苍穹外卖day4 redis相关简单知识店铺营业状态设置

Linux 基础IO——重定向和缓冲区

大疆无人机需要的kml文件如何制作kml导出（大疆KML文件）

Instagram与小红书的自动化运营

Vite入门指南

github用户名密码登陆失效了

Mac上搭建宝塔环境并部署PHP项目

Ubuntu 连接 air pods

ios中常见的设计原则和设计模式

ARINC 429详解

CSS Grid 网格布局，以及 Flexbox 弹性盒布局模型，它们的适用场景是什么？

VS Code User和System版区别【推荐使用System版本】and VSCode+Keil协同开发之Keil Assistant

【ISO 14229-1:2023 UDS诊断（会话控制0x10服务）测试用例CAPL代码全解析③】

ffmpeg-cli-wrapper操作ffmpeg的工具

Anaconda +Jupyter Notebook安装（2025最新版）

问卷数据分析|SPSS实操之量表描述性统计

服务器硬件知识--------linux系统初识and安装

探索Zephyr在汽车领域的应用潜力与挑战

【LLM】13：大模型算法面试题库