当前位置：首页 > article >正文

激活函数和激活函数汇总

article 2025/2/10 8:51:23

激活函数和激活函数汇总

请添加图片描述

激活函数详细总结表

激活函数	数学表达式	导数表达式	详细特点及原理	输出范围	优点	缺点	使用场景
Sigmoid	$\sigma(x) = \frac{1}{1 + e^{-x}}$	$\sigma'(x) = \sigma(x)(1-\sigma(x))$	• 输出范围原理： - x→+∞时，e^(-x)→0，σ(x)→1 - x→-∞时，e^(-x)→+∞，σ(x)→0 • 梯度消失原因： - σ’(x) = σ(x)(1-σ(x)) - x很大或很小时导数接近0 • 非零中心影响： - 造成锯齿形更新路径	[0,1]	• 输出有概率解释 • 导数计算简单	• 梯度消失 • 非零中心 • 计算成本高	• 二分类输出层 • 早期隐藏层
ReLU	$\max(0, x)$	$\begin{cases} 1 & \text{if } x > 0 \\ 0 & \text{if } x < 0 \\ \text{undefined} & \text{if } x = 0 \end{cases}$	• 缓解梯度消失： - 正区间梯度恒为1 - 负区间避免负梯度累积 • 稀疏性形成： - 负值置0提高特征提取 • 死亡问题： - 负区间梯度为0导致	[0,+∞)	• 计算快速 • 缓解梯度消失 • 产生稀疏性	• 神经元死亡 • 非零中心	• 深度网络默认 • CNN
Tanh	$\tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}$	$tanh'(x) = 1 - \tanh^2(x)$	• 零中心化好处： - 输入分布均衡 - 梯度更稳定 • 梯度消失原因： - tanh’(x) = 1 - tanh²(x) - \|x\|大时导数接近0	[-1,1]	• 零中心化 • 梯度比Sigmoid大	• 梯度消失 • 计算复杂	• RNN/LSTM • 浅层网络
Leaky ReLU	$\begin{cases} x & \text{if } x > 0 \\ \alpha x & \text{if } x \leq 0 \end{cases}$	$\begin{cases} 1 & \text{if } x > 0 \\ \alpha & \text{if } x < 0 \end{cases}$	• 解决死亡ReLU： - 负区间保持小梯度 - 允许恢复激活 • 更快收敛： - 保持信息流动 - 平滑权重更新	(-∞,+∞)	• 避免死亡问题 • 收敛更快	• 需要调参α • 表现不稳定	• ReLU替代品 • 负值输入多时
PReLU	$\begin{cases} x & \text{if } x > 0 \\ ax & \text{if } x \leq 0 \end{cases}$	$\begin{cases} 1 & \text{if } x > 0 \\ a & \text{if } x < 0 \end{cases}$	• 自适应学习： - a通过反向传播学习 - 每个神经元可不同 • 过拟合风险： - 参数增加 - 需要更多数据	(-∞,+∞)	• 自适应学习 • 性能潜力大	• 可能过拟合 • 训练复杂	• 需要自适应场景
ELU	$\begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}$	$\begin{cases} 1 & \text{if } x > 0 \\ \alpha e^x & \text{if } x \leq 0 \end{cases}$	• 平滑过渡： - x=0处导数连续 - 减少训练震荡 • 负值饱和： - 输出有界 - 抗噪声	(-α,+∞)	• 平滑过渡 • 负值有界	• 计算复杂 • 训练慢	• 需要鲁棒性时
SELU	$\text{SELU}(x) = \lambda \begin{cases} x & \text{if } x > 0 \\ \alpha(e^x - 1) & \text{if } x \leq 0 \end{cases}$	$\text{SELU}'(x) = \lambda \begin{cases} 1 & \text{if } x > 0 \\ \alpha e^x & \text{if } x \leq 0 \end{cases}$	• 自归一化： - λ≈1.0507 - α≈1.6733 - 自动均值方差归一 • 深层优势： - 避免梯度问题 - 保持信息稳定	(-∞,+∞)	• 自归一化 • 防止梯度问题	• 使用限制多 • 需特定初始化	• 深层网络
Softmax	$\text{softmax}(x_i) = \frac{e^{x_i}}{\sum_{j=1}^n e^{x_j}}$	$\frac{\partial \text{softmax}(x_i)}{\partial x_j} = \begin{cases} s_i(1-s_i) & \text{if } i=j \\ -s_is_j & \text{if } i \neq j \end{cases}$	• 概率分布形成： - 指数确保正值 - 归一化和为1 • 数值稳定性： - 减去最大值 • 多分类优势： - 类别间竞争关系	[0,1]总和为1	• 多分类自然 • 概率解释	• 计算复杂 • 可能溢出	• 多分类输出层

损失函数详细总结表

损失函数	数学表达式	导数表达式	详细特点及原理	输出范围	优点	缺点	使用场景
MSE (均方误差)	$\frac{1}{n}\sum_{i=1}^n(y_i - \hat{y}_i)^2$	$\frac{\partial L}{\partial \hat{y}_i} = -\frac{2}{n}(y_i - \hat{y}_i)$	• 误差平方的原理： - 放大大误差的影响 - 保证误差为正 • 梯度特性： - 误差越大梯度越大 - 对异常值敏感	[0,+∞)	• 导数连续 • 计算简单 • 物理意义明确	• 对异常值敏感 • 收敛可能较慢	• 回归问题 • 输出连续值
MAE (平均绝对误差)	$\frac{1}{n}\sum_{i=1}^n\|y_i - \hat{y}_i\|$	$\frac{\partial L}{\partial \hat{y}_i} = -\frac{1}{n}\text{sign}(y_i - \hat{y}_i)$	• 绝对值的作用： - 减小异常值影响 - 保持线性惩罚 • 梯度特性： - 恒定梯度大小 - 在零点不可导	[0,+∞)	• 对异常值鲁棒 • 误差线性增长	• 零点不可导 • 梯度大小固定	• 回归问题 • 存在异常值时
交叉熵	$-\sum_{i=1}^n y_i\log(\hat{y}_i)$	$\frac{\partial L}{\partial \hat{y}_i} = -\frac{y_i}{\hat{y}_i}$	• 信息论基础： - 衡量概率分布差异 - 惩罚错误预测 • 梯度特性： - 预测越错误梯度越大 - 与Softmax配合良好	[0,+∞)	• 适合概率输出 • 训练收敛快	• 需要概率分布 • 数值不稳定	• 分类问题 • Softmax输出层
Hinge Loss	$\sum_{i=1}^n\max(0, 1-y_i\hat{y}_i)$	$\frac{\partial L}{\partial \hat{y}_i} = \begin{cases} -y_i & \text{if } y_i\hat{y}_i < 1 \\ 0 & \text{otherwise} \end{cases}$	• 间隔最大化： - 追求分类边界 - 支持向量特性 • 稀疏性： - 只关注边界样本 - 忽略远离边界的样本	[0,+∞)	• 最大化间隔 • 计算高效	• 非概率输出 • 对标签敏感	• SVM • 二分类问题
Huber Loss	$\begin{cases} \frac{1}{2}(y-\hat{y})^2 & \text{if } \|y-\hat{y}\| \leq \delta \\ \delta\|y-\hat{y}\|-\frac{1}{2}\delta^2 & \text{otherwise} \end{cases}$	$\frac{\partial L}{\partial \hat{y}} = \begin{cases} -(y-\hat{y}) & \text{if } \|y-\hat{y}\| \leq \delta \\ -\delta\text{sign}(y-\hat{y}) & \text{otherwise} \end{cases}$	• 混合特性： - 结合MSE和MAE优点 - δ控制切换点 • 梯度特性： - 小误差二次梯度 - 大误差线性梯度	[0,+∞)	• 对异常值鲁棒 • 梯度平滑过渡	• 需要调节δ • 计算相对复杂	• 回归问题 • 存在异常值时
Focal Loss	$-\alpha(1-\hat{y})^\gamma y\log(\hat{y})$	$\frac{\partial L}{\partial \hat{y}} = -\alpha\gamma(1-\hat{y})^{\gamma-1}y\log(\hat{y}) + \alpha(1-\hat{y})^\gamma\frac{y}{\hat{y}}$	• 动态缩放： - γ控制难样本权重 - α平衡正负样本 • 聚焦效应： - 关注难分类样本 - 降低易分类样本权重	[0,+∞)	• 处理类别不平衡 • 关注难样本	• 参数敏感 • 计算复杂	• 类别不平衡 • 目标检测
KL散度	$\sum_{i=1}^n y_i\log(\frac{y_i}{\hat{y}_i})$	$\frac{\partial L}{\partial \hat{y}_i} = -\frac{y_i}{\hat{y}_i}$	• 分布差异度量： - 衡量信息损失 - 非对称特性 • 概率解释： - 信息增益 - 相对熵	[0,+∞)	• 概率分布比较 • 信息论基础	• 非对称性 • 要求概率分布	• 概率分布学习 • 变分推断

http://www.kler.cn/a/539035.html

相关文章：

STM32 CUBE Can调试

Qt元对象系统

Nginx部署Umi React前端项目标准配置

【后端开发】系统设计101——Devops，Git与CICD，云服务与云原生，Linux，安全性，案例研究（30张图详解）

Android性能优化

滑动窗口核心算法解决字符串问题(最小覆盖子串/字符串排列/异位词/最长无重复子串)

[vue3] Ref Reactive

如何在Python中使用内置函数

【Golang学习之旅】Go + Redis 缓存设计与优化（项目实战）

2.9学习总结

从零开始了解人工智能：核心概念、GPT及 DeepSeek 探索

使用cursor开发python调用deepseek本地模型实现本地AI对话

如何学习多智能体系统协调（如自动驾驶车协同避让）

Linux：安装 node 及 nvm node 版本管理工具（ubuntu ）

jvm view

【LeetCode Hot100 堆】第 K 大的元素、前 K 个高频元素

智慧城市节水管理信息系统项目解决方案

在阿里云ECS上一键部署DeepSeek-R1

7.Python文件操作：文件的打开与关闭、文件的读写、文件读写应用

数据管理的“圣经”——《DAMA数据管理知识体系指南（第二版）》

解锁 DeepSeek 模型高效部署密码：蓝耘平台深度剖析与实战应用

React 什么是抽象组件及为什么要抽象组件

人工智能-A* 算法规划的路径进行动态调整

分组加密算法CLEFIA

【LLM】o1/R1系列LLM数据篇