当前位置：首页 > article >正文

【Logistic Regression】机器学习中的基础分类模型

article 2025/2/23 12:14:14

逻辑斯蒂回归：机器学习中的基础分类模型

在机器学习和统计学中，逻辑斯蒂回归（Logistic Regression）是解决 二分类问题（Binary Classification）的一种经典方法。

尽管名字中有“回归”二字，但它其实是一个分类算法。本文将深入讲解逻辑斯蒂回归的基本原理、数学公式、模型优化方法以及其应用场景。

1.什么是逻辑斯蒂回归？

逻辑斯蒂回归属于 广义线性模型，主要用于二分类问题。与线性回归不同的是，逻辑斯蒂回归通过 Sigmoid 函数（也称为逻辑函数）将线性回归的结果映射到 $(0, 1)$ 区间，从而输出一个概率值，表示事件发生的可能性。

公式如下：

$\sigma(w^T X + b)$

其中：

$\sigma(z) = \frac{1}{1 + e^{-z}}$
在这里插入图片描述

Sigmoid 函数将线性回归的输出结果压缩到 0 和 1 之间，因此它非常适合表示概率。

逻辑斯蒂回归模型的输出是一个 概率值，表示样本属于某一类别的概率。为了做出分类决策，我们通常设定一个阈值（例如 0.5）：

决策规则可以写为：

$\hat{y} = \begin{cases} 1, & \text{if } P(Y=1|X) \geq 0.5 \\ 0, & \text{otherwise} \end{cases}$
然而决策边界也可以是非线性的，只要使用多项式特征扩展线性函数为非线性函数即可
在这里插入图片描述

与线性回归不同，逻辑斯蒂回归的损失函数使用 对数似然函数（Log-Likelihood），也称为 交叉熵损失（Cross-Entropy Loss），目标是最小化损失函数以提高模型的准确性。

对于单个样本 $X_i, y_i)$ ，其对数似然函数为：

$\ell(w, b) = y_i \log P(Y=1 | X_i) + (1 - y_i) \log (1 - P(Y=1 | X_i))$

对于整个训练集（ $m$ 个样本），总损失函数为：

$-\frac{1}{m} \sum_{i=1}^{m} \left[y_i \log \hat{y}_i + (1 - y_i) \log (1 - \hat{y}_i)\right]$

其中， $\hat{y}_i = \sigma(w^T X_i + b)$ 是模型的预测概率， $y_i$ 是实际标签。

损失函数的构造过程：

为了训练逻辑斯蒂回归模型，需要定义一个损失函数来衡量模型预测与真实标签之间的差异。常用的损失函数是 对数损失函数（Log Loss），其构造过程如下：

似然函数：首先，定义样本属于类别 1 的概率为 $P(y=1|\mathbf{x}) = \sigma(z)$ ，属于类别 0 的概率为 $P(y=0|\mathbf{x}) = 1 - \sigma(z)$ 。对于给定的样本集 $\{(\mathbf{x}_i, y_i)\}_{i=1}^m$ ，其中 $y_i \in \{0,1\}$ ，则似然函数表示为：

$L(\mathbf{w}, b) = \prod_{i=1}^m P(y_i|\mathbf{x}_i)$

由于 $y_i$ 只能取 0 或 1，上式可写为：

$L(\mathbf{w}, b) = \prod_{i=1}^m [\sigma(z_i)]^{y_i} [1 - \sigma(z_i)]^{1 - y_i}$

$\ell(\mathbf{w}, b) = \sum_{i=1}^m \left[ y_i \log(\sigma(z_i)) + (1 - y_i) \log(1 - \sigma(z_i)) \right]$

$J(\mathbf{w}, b) = -\ell(\mathbf{w}, b) = -\sum_{i=1}^m \left[ y_i \log(\sigma(z_i)) + (1 - y_i) \log(1 - \sigma(z_i)) \right]$

这就是 对数损失函数，它度量模型预测概率与真实标签之间的差异。通过最小化该损失函数，可以优化模型参数，使预测结果更接近真实情况。

逻辑斯蒂回归通过 梯度下降法（Gradient Descent）来优化参数（权重 $w$ 和偏置 $b$ ）。梯度下降法通过更新模型参数，最小化损失函数。

更新公式如下：

$\alpha \frac{\partial J}{\partial w}, \quad b := b - \alpha \frac{\partial J}{\partial b}$

其中， $\alpha$ 是学习率，控制每次参数更新的步长。

损失函数的梯度计算如下：

$\frac{\partial J}{\partial w} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i) X_i$

$\frac{\partial J}{\partial b} = \frac{1}{m} \sum_{i=1}^{m} (\hat{y}_i - y_i)$

逻辑斯蒂回归和线性回归的主要区别在于输出类型和损失函数：