当前位置：首页 > article >正文

【漫话机器学习系列】114.逻辑 Sigmoid 函数

article 2025/3/4 5:20:31

逻辑 Sigmoid 函数详解

1. 引言

逻辑回归（Logistic Regression）是机器学习中常用的分类算法，而 Sigmoid 函数 是逻辑回归的核心数学工具。Sigmoid 函数能够将任意实数映射到 (0,1) 之间，因此特别适用于概率估计。在这篇文章中，我们将深入探讨 Sigmoid 函数的数学公式、特性、导数、应用以及其在逻辑回归中的作用。

2. Sigmoid 函数的数学表达

Sigmoid 函数的数学表达式如下：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

其中：

x 是输入变量，可以取任意实数值。
e 是自然对数的底数，约等于 2.718。
σ(x) 的输出范围是 (0,1)，适合用作概率表示。

2.1 Sigmoid 函数的基本性质

当 x → +∞， $e^{-x} \to 0$ ，因此 σ(x) → 1。
当 x → −∞， $e^{-x} \to +\infty$ ，因此 σ(x) → 0。
当 x = 0， $\sigma(0) = \frac{1}{1 + e^0} = \frac{1}{2} = 0.5$ 。
Sigmoid 函数的形状是S 形曲线（如图所示），在 x 值较小时，函数值接近 0，较大时接近 1。

2.2 Sigmoid 函数的图像

从图像来看，Sigmoid 函数在 x 轴上呈现 对称性，在 x=0 处对称。它的变化最剧烈的区域在 x=0 附近，这表明 Sigmoid 对较小的输入值更敏感，而当 x 取值极端时，函数趋于平缓。

3. Sigmoid 函数的导数

Sigmoid 函数的导数在机器学习和深度学习中非常重要，特别是在梯度下降优化过程中。Sigmoid 的导数公式如下：

$\sigma'(x) = \sigma(x) (1 - \sigma(x))$

推导过程如下：

$\sigma(x) = \frac{1}{1 + e^{-x}}$

对 x 求导：

$\sigma'(x) = \frac{d}{dx} \left( \frac{1}{1 + e^{-x}} \right)$

使用链式法则：

$\sigma'(x) = \frac{e^{-x}}{(1 + e^{-x})^2}$

由于 $\sigma(x) = \frac{1}{1 + e^{-x}}$ ，因此 $e^{-x} = \frac{1 - \sigma(x)}{\sigma(x)}$ ，代入得：

$\sigma'(x) = \sigma(x) (1 - \sigma(x))$

3.1 Sigmoid 导数的性质

最大值：当 σ(x)=0.5 时，导数达到最大值 0.25。
最小值：当 σ(x) 接近 0 或 1 时，导数接近 0。这表明在极端区域（远离 0 的区域），Sigmoid 函数的梯度会消失（即梯度消失问题）。

4. Sigmoid 函数的应用

4.1 逻辑回归

逻辑回归是二分类问题中常用的模型，核心思想是：

先计算线性变换： $z = w_0 + w_1 x_1 + ... + w_n x_n$ 。
通过 Sigmoid 函数计算概率： $P(y=1 | x) = \sigma(z)$ 。
根据设定的阈值（如 0.5），决定分类结果：
- 如果 $\sigma(z) \geq 0.5$ ，预测为 1 类。
- 如果 $\sigma(z) < 0.5$ ，预测为 0 类。

4.2 神经网络

在深度学习中，Sigmoid 函数常用于：

输出层激活函数（尤其是二分类问题）。
早期神经网络中的隐藏层激活函数（但因梯度消失问题，现多用 ReLU 代替）。

4.3 其他应用

生物学：Sigmoid 函数用于描述生长曲线和神经元激活。
经济学：用于建模市场饱和度和边际收益递减。

5. Sigmoid 函数的优缺点

5.1 优点

概率解释性：输出值位于 (0,1) 之间，可直接解释为概率。
平滑可微：Sigmoid 是一个连续、可微的函数，适用于梯度下降优化。
单调性：Sigmoid 函数是单调递增的，适合用于分类任务。

5.2 缺点

梯度消失问题：
- 在极端值（接近 0 或 1）时，梯度接近 0，导致深层神经网络难以训练。
- 现代深度学习一般用 ReLU 代替 Sigmoid 作为隐藏层激活函数。
计算代价较高：
- 计算 $e^{-x}$ 需要指数运算，比线性变换计算成本更高。
非零均值问题：
- Sigmoid 函数的输出范围是 (0,1)，均值不是 0，可能导致权重更新不稳定。

6. 代码示例

6.1 计算 Sigmoid 值

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.linspace(-10, 10, 100)
y = sigmoid(x)

plt.plot(x, y, label="Sigmoid Function")
plt.xlabel("x")
plt.ylabel("σ(x)")
plt.legend()
plt.show()

6.2 计算 Sigmoid 的导数

import numpy as np
import matplotlib.pyplot as plt

def sigmoid(x):
    return 1 / (1 + np.exp(-x))

x = np.linspace(-10, 10, 100)
y = sigmoid(x)

def sigmoid_derivative(x):
    return sigmoid(x) * (1 - sigmoid(x))

y_derivative = sigmoid_derivative(x)

plt.plot(x, y_derivative, label="Sigmoid Derivative", color='red')
plt.xlabel("x")
plt.ylabel("σ'(x)")
plt.legend()
plt.show()