当前位置：首页 > article >正文

TensorFlow深度学习实战（3）——深度学习中常用激活函数详解

article 2025/2/28 20:13:34

TensorFlow深度学习实战（3）——深度学习中常用激活函数详解

- 0. 前言
- 1. 引入激活函数
- - 1.1 感知器
  - 1.2 多层感知器
  - 1.3 训练感知器存在的问题
- 2. 激活函数
- 3. 常见激活函数
- - 3.1 sigmoid
  - 3.2 tanh
  - 3.3 ReLU
  - 3.4 ELU和Leaky ReLU
- 小结
- 系列链接

0. 前言

使用激活函数可以实现网络的高度非线性，这对于建模输入和输出之间的复杂关系非常关键。如果没有非线性激活函数，那么该网络将仅仅能够表达简单的线性映射，即便有再多的隐藏层，其整个网络跟单层神经网络也是等价的，只有加入了非线性激活函数之后，深度神经网络才具备了令人惊异的非线性映射学习能力，可以在网络中的多个层中应用激活函数。

1. 引入激活函数

1.1 感知器

感知器 (Perceptron) 是一种简单的算法，接收一个包含 $m$ 个值的输入向量 $x$ $x_1, x2, ..., x_m)$ ，通常称为输入特征或简称特征 (feature)，然后输出 1 (是)或 0 (否)。在数学上，可以定义为以下函数：
$\begin{cases} 1& {wx+b>0}\\ 0& {otherwise} \end{cases}$
其中 $w$ 是权重向量， $w x$ 是点积 $\sum_{j=1}^m w_jx_j$ ， $b$ 是偏置。 $w x + b$ 定义了一个边界超平面，其位置根据 $w$ 和 $b$ 的赋值而变化，超平面是一个子空间，其维度比其环境空间低一维：

感知器

这是一个非常简单但有效的算法，例如，给定三个输入特征，一种颜色中的红色、绿色和蓝色通道的分量值，感知机可以尝试判断该颜色是否为“白色”。
需要注意的是，感知器不能表达“可能”这种答案。它只能回答“是” (1) 或“否” (0)，前提是我们知道如何定义权重 ( $w$ ) 和偏置 ( $b$ )，这就是模型“训练” (training) 过程。

1.2 多层感知器

接下来，我们介绍一个包含多个全连接层的网络。历史上，感知器是指具有单个线性层的模型，因此，如果它有多个层，则称为多层感知器 (Multi-Layer Perceptron, MLP)。需要注意的是，输入层和输出层是外部可见的，而中间的所有其他层都是隐藏的——因此称为隐藏层。在这种情况下，单个层只是一个简单的线性函数，MLP 通过依次堆叠多个层而得到：

神经网络架构

在上图中，第一隐藏层中的每个节点接收输入，并根据相关线性函数的值“激活”。然后，将第一隐藏层的输出传递到第二层，应用另一个线性函数，其结果再传递到由一个单一神经元组成的最终输出层。这种分层组织大致类似于人类视觉系统的组织。

1.3 训练感知器存在的问题

对于单个神经元，为了获得权重 $w$ 和偏置 $b$ 的最佳值，通常通过提供一组训练样本，让计算机调整权重和偏置，以最小化输出产生的误差。
为了更具体的说明，假设我们有一组猫的图像和一组不包含猫的图像。假设每个神经元接收来自图像中单个像素的输入。当计算机处理这些图像时，我们希望神经元调整其权重和偏置，以减少错误识别的图像数量。
这种方法非常直观，但需要权重(或偏置)的微小变化只引起输出的微小变化。如果输出变化很大，就无法逐步学习。但感知器并不具备这种“逐步”的行为，感知器要么是 0，要么是 1，这种巨大的输出变化不利于感知器学习：

感知器行为

我们需要更加平滑的函数，一个从 0 逐渐变化到 1 的函数，且没有任何不连续性。在数学上，这意味着我们需要一个连续函数，以便能够计算导数。在数学中，导数是函数在某一点变化的量。对于输入为实数的函数，导数是图形上某点的切线斜率。

2. 激活函数

在神经网络中，常见激活函数 (activation function) 包括：Sigmoid、Tanh、ELU、Leaky ReLU 和 ReLU，TensorFlow 支持多种激活函数。Sigmoid 和 ReLU 函数的梯度变化是构建学习算法的基础，算法逐步减少网络误差。例如，使用激活函数 $σ$ ，输入向量 $x_1, x_1, ..., x_m)$ ，权重向量 $w_1, w_2, ..., w_3)$ ，偏置 $b$ ，求和 $Σ$ 如下图所示：

激活函数

3. 常见激活函数

3.1 sigmoid

Sigmoid 函数定义为 $\sigma(x)=\frac 1{1+e^{-x}}$ ，当输入在 $(- \infty, \infty)$ 范围内变化时，输出在 $(0, 1)$ 范围内变化，并且在数学上是连续的。使用 Python 实现此函数：

def sigmoid(x):
     return 1/(1+np.exp(-x))

函数图像如下所示：

sigmoid

神经元可以使用 Sigmoid 函数计算非线性函数 $\sigma(z=wx+b)$ 。如果 $z = w x + b$ 非常大且为正数，则 $e^{-z}→0$ ，因此 $\sigma(z)→1$ ；而如果 $z = w x + b$ 非常大且为负数，则 $e^{-z}→∞$ ，因此 $\sigma(z)→0$ 。换句话说，具有 Sigmoid 激活的神经元与感知器的行为类似，但变化是逐渐的，输出值如 0.5539 或 0.123191 是完全合理的。在这个意义上，Sigmoid 神经元可以表达“可能性”的概念。

3.2 tanh

激活函数 tanh 定义为 $\frac{(e^z - e^-z)}{(e^z + e^-z)}$ ，使用 Python 实现此函数：

def tanh(x):
    return (np.exp(x) - np.exp(-x)) / (np.exp(x) + np.exp(-x))

函数图像如下所示，它在开区间 (-1, 1) 内是单调递增的奇函数，函数图形关于原点对称：

tanh

3.3 ReLU

ReLU (REctified Linear Unit) 激活函数有助于解决使用 Sigmoid 时的一些优化问题，特别是梯度消失的问题。ReLU 定义为 $f (x) = ma x (0, x)$ ，使用 Python 实现此函数：

def relu(x):
    return np.where(x>0, x, 0)

函数图像如下所示，当输入值大于等于 0 时，则 ReLU 函数按原样输出。如果输入小于 0，则 ReLU 函数值为 0。因为 ReLU 函数的大于等于 0 的线性分量具有固定导数，而对另一个线性分量导数为 0。因此，使用 ReLU 函数训练模型要快得多。

ReLU

3.4 ELU和Leaky ReLU

ELU (Exponential Linear Unit) 定义为：
$\begin{cases} a(e^x-1)& {x≤0}\\ x& {x>0} \end{cases}$
其中 $a > 0$ ，使用 Python 实现此函数：

def elu(x, alpha=1.0):
    return x if x >= 0 else alpha * (math.exp(x) - 1)

函数图像如下所示：

elu

LeakyReLU 定义为:
$\begin{cases} ax& {x≤0}\\ x& {x>0} \end{cases}$

其中 $a > 0$ ，使用 Python 实现此函数：

def leaky_relu(x, alpha=0.1):
    return np.maximum(alpha * x, x)

函数图像如下所示：

leakyRelu

两个函数在 $x$ 为负时能够进行小幅的更新。

小结

激活函数是神经网络中至关重要的一部分，它决定了神经元的输出以及神经网络模型的非线性特性。没有激活函数，神经网络就会变成一个简单的线性模型，无法处理复杂的任务。因此，激活函数的选择直接影响神经网络的表达能力和学习效果。

系列链接

TensorFlow深度学习实战（1）——神经网络与模型训练过程详解
TensorFlow深度学习实战（2）——使用TensorFlow构建神经网络
TensorFlow深度学习实战（4）——正则化技术详解

查看全文

http://www.kler.cn/a/468943.html

产品线上交付阶段出现的两次显著Bug分析

css 关于flex布局中子元素的属性flex

服务器开发的设计模式（Design Patterns）核心知识

出现 Error during query execution: StatementCallback； bad SQL grammar 解决方法

windows C#-确定字符串是否表示数值

【信息系统项目管理师】高分论文：论信息系统项目的风险管理（资金管控系统）

Go语言的的集合框架（Collections Framework）基础知识

网络安全【C10-2024.10.1】-sql注入基础

Oracle DG备库数据文件损坏修复方法(ORA-01578/ORA-01110)

【人工智能数据科学与数据处理】——深入详解大数据与数据库技术之非关系型数据库：MongoDB 的关键概念、核心原理、示例及主要应用

使用Python构建智能医疗诊断系统

解决sublime编译无法输入问题

PDF2Audio - 阅读 PDF 的新方式

【工具整理】WIN换MAC机器使用工具整理

vue数据请求通用方案：axios的options都有哪些值

《计算机网络A》单选题（详解）

2、蓝牙打印机点灯-GPIO输出控制

AdaBoost算法详解与PyTorch实现

STM32CUBEMX+PLS_D1000激光测距模块+MT6701角度传感器,获取三角形第三边长度

国内Ubuntu环境Docker部署 SenseVoice

TensorFlow深度学习实战（3）——深度学习中常用激活函数详解

0. 前言

1. 引入激活函数

1.1 感知器

1.2 多层感知器

1.3 训练感知器存在的问题

2. 激活函数

3. 常见激活函数

3.1 sigmoid

3.2 tanh

3.3 ReLU

3.4 ELU和Leaky ReLU

小结

系列链接

相关文章：