当前位置：首页 > article >正文

【机器学习】分类

article 2025/1/5 6:17:48

文章目录

- 1. 能否用回归解决分类问题
- 2. 生成模型（概率生成）
- 3. 判别模型（逻辑回归）
- 4. 多分类问题

1. 能否用回归解决分类问题

二元分类

数据分布不规律，回归函数会尽量减少误差，导致不合理的偏移
离分界较远的点会影响划分
决策边界偏移：难以找到回归函数，使大部分样本点集中在离散点附近

多元分类

使用数值描述类别时，存在问题：相近的数值之间可能有联系，但实际分类之间没有隐含关系

2. 生成模型（概率生成）

确定模型

贝叶斯公式：根据先验概率求后验概率

$P(C_1|x) = \frac{P(C_1)P(x|C_1)}{P(C_1)P(x|C_1) + P(C_2)P(x|C_2)}$

对于二分类问题，只需判断是否属于分类 1，分类 2 即确定
目标是找到拟合分布 $P(x|C_1)$ 和 $P(x|C_2)$

评估函数

高斯分布：寻找 $\mu$ 和 $\Sigma$ ，使得高斯分布与 x 在 C 中的分布最大匹配
分别寻找两个分布 $C 1$ ， $C 2$

找到最优的函数

极大似然估计法
通过代入所有的 $x$ 到高斯分布，计算概率的连乘结果，最大化此结果，确定最优的 $\mu$ 和 $\Sigma$ 。

如何实现分类

找到高斯分布后，代入问题模型中，确定后验概率函数，输入 $x$ 就能得到分类结果。

优化

共用协方差 $\Sigma$ ：减少参数，防止过拟合。
这时找到的函数将会是一条直线。

3. 判别模型（逻辑回归）

说明

当共用协方差时，可以得到如下公式：

$P(C_1|x) = \sigma(wx + b)$

其中， $\sigma(x) = \frac{1}{1 + e^{-x}}$ 为 Sigmoid 函数。
直接训练 $w$ 和 $b$ ，无需假设高斯分布。

做法

确定模型：

$P(C_1|x) = \sigma(wx + b)$

目标是直接找 $w$ 和 $b$ 来确定后验概率。
评估函数：
$L(w,b)=f_{w,b}(x^1)f_{w,b}(x^2)(1-f_{w,b}(x^3))...$
此时目标是最大化评估函数。

引入交叉熵（Cross-Entropy）：
$\sum p(x) \ln(q(x))$
- 交叉熵越小，表示两个分布越接近。
进一步损失函数：

$-\ln L(w,b) = - \sum \left[ y^n \ln f_{w,b}(x^n) + (1 - y^n) \ln(1 - f_{w,b}(x^n)) \right]$
- 目标是最小化损失函数。
寻找最优函数
- 使用梯度下降法更新参数：
$w_{t+1} = w_t - \eta \sum_n \left[ -(y^n - f_{w,b}(x^n)) x^n \right]$

与线性回归比较

逻辑回归中引入了 Sigmoid 函数，输出值范围为 0 到 1。
线性回归输出可能是任意实数。
逻辑回归的损失函数是交叉熵，而线性回归使用平方误差。

与生成模型比较

生成模型假设数据分布符合某个高斯分布。
判别模型不做假设，直接学习分类边界（求 $w$ 和 $b$ ）。
判别模型通常比生成模型表现好，但在数据不足的情况下，生成模型更为实用。

逻辑回归缺陷

逻辑回归无法解决线性不可分问题，需要通过特征转换来处理，这通常是深度学习的核心。

为什么不用平方误差？

若用平方误差，损失函数为：

$\frac{1}{2} \sum (y^n - f_{w,b}(x^n))^2$

梯度为：

$\frac{dL}{dw} = 2(y^n - f_{w,b}(x^n)) f_{w,b}(x^n) (1 - f_{w,b}(x^n)) x^n$
当 $y^n = 1$ 且 $f(x^n) = 1$ 时，梯度为 0（正常）。
当 $y^n = 1$ 且 $f(x^n) = 0$ 时，梯度也为 0（不正常，训练非常缓慢）。
结论：使用平方误差损失函数，梯度会在边界附近为零，导致训练速度非常慢。交叉熵的损失函数更适合分类问题。

4. 多分类问题

使用 逻辑回归 计算每个类别的概率值，然后通过 Softmax 函数选择最大概率的类别。
$\text{Softmax}(x_i) = \frac{e^{x_i}}{\sum_j e^{x_j}}$

http://www.kler.cn/a/457364.html

相关文章：

个人健康信息系统｜Java｜SSM｜VUE｜前后端分离

非docker方式部署openwebui过程记录

QEMU网络配置简介

RK3588+FPGA全国产异步LED显示屏控制卡/屏幕拼接解决方案

【HAProxy】如何在Ubuntu下配置HAProxy服务器

Java 性能调优实战

Element-plus自动导入

Crawler实现英语单词的翻译

linux内核如何实现TCP的？

【Bug记录】黑马点评使用jmeter进行秒杀抢购时报401以及200后HTTP请求依旧异常的解决办法

Cpp::AVL树的机制详解与实现(23)

产品原型设计

IntelliJ IDEA 远程调试

在Ubuntu下通过Docker部署Misskey服务器

MATLAB语言的数据库编程

基于STM32F103控制L298N驱动两相四线步进电机

【递归与回溯深度解析：经典题解精讲（中篇）】—— LeetCode

新版IDEA配置 Tomcat

期末算法分析程序填空题

32132132123

Leetcode经典题20--长度最小的子数组

SpringSecurity使用过滤器实现图形验证码

matlab smith自适应模糊PID房间湿度控制

基于TCP的Qt网络通信

【论文解读】Arbitrary-steps Image Super-resolution via Diffusion Inversion

UE4 编译报错 “Error LNK2019 : 无法解析的外部符号” 一种可能的原因