当前位置: 首页 > article >正文

机器学习(五)——支持向量机SVM(支持向量、间隔、正则化参数C、误差容忍度ε、核函数、软间隔、SVR、回归分类源码)

目录

  • 关于
  • 1 间隔与支持向量
  • 2 对偶问题
  • 3 核函数
  • 4 软间隔与正则化
  • 5 支持向量回归
  • 6 核方法
  • X 案例代码
    • X.1 分类任务
      • X.1.1 源码
      • X.1.2 数据集(鸢尾花数据集)
      • X.1.3 模型效果
    • X.2 回归任务
      • X.2.1 源码
      • X.2.2 数据集(加州房价数据)
      • X.2.3 模型效果


关于

  • 本文是基于西瓜书(第六章)的学习记录。内容包括SVM模型间隔、支持向量、正则化参数C、误差容忍度 ε ε ε、核函数、软间隔、SVR模型、Python实现分类和回归的源码。
  • 西瓜书电子版:百度网盘分享链接

1 间隔与支持向量

  • 支持向量机(SVM)是一种监督学习算法,用于分类和回归分析。

  • 分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.

  • 怎样的超平面是最好的?——找位于两类训练样本“正中间”的划分超平面,这样的超平面对训练样本的局部扰动的“容忍性”最好。
    在这里插入图片描述

  • 支持向量机的基本思想是找到样本空间中的最佳划分超平面,以区分不同类别的样本。

  • 支持向量:距离超平面最近的训练样本点,它们决定了超平面的位置。

  • 间隔:两个异类支持向量到超平面的距离之和,称为间隔,SVM的目标是最大化这个间隔。
    在这里插入图片描述

  • 支持向量机的基本型:
    在这里插入图片描述
    在这里插入图片描述

2 对偶问题

  • SVM的优化问题可以通过拉格朗日乘子法转化为对偶问题,这样可以更高效地求解。
  • 问题的求解不是本文重心所在,在此不介绍,大家可参考电子书学习。

3 核函数

  • 在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分

  • 但是映射到高维空间意味着更大的计算量,这时候就引出了核函数:核函数允许SVM在高维空间或无穷维空间中寻找最优超平面,而无需显式地映射样本。

  • 核函数生效的技巧:通过核函数计算原始样本空间中的内积,避免了直接在高维空间中计算。
    在这里插入图片描述

  • 哪些函数可以作为核函数:只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。

  • 常用核函数:包括线性核、多项式核、高斯核等。
    在这里插入图片描述

4 软间隔与正则化

  • 在现实任务中,训练样本往往不是线性可分的(即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.),这时可以引入软间隔和正则化来提高模型的泛化能力。

  • 软间隔:允许一些样本不满足硬间隔的约束,通过引入松弛变量来实现。

  • 替代损失函数:如hinge损失、指数损失和对率损失,用于代替0/1损失函数,使得问题更容易求解,常用的替代损失函数:
    -

  • 如果使用对率损失函数替代0/1损失函数,则几乎得到了对率回归模型。实际上两者确实优化目标相近,性能相近。

  • 正则化参数C:这个参数控制着模型对误分类的惩罚程度。C值越大,模型对误分类的惩罚越高,可能导致过拟合;C值越小,模型对误分类的惩罚越低,可能导致欠拟合。
    在这里插入图片描述

5 支持向量回归

  • 支持向量回归(SVR)是SVM在回归问题上的应用,它假设模型输出与真实输出之间存在一定的容忍度。

  • ε ε ε-不敏感损失:仅当模型输出与真实输出的差值超过 ε ε ε时才计算损失。
    在这里插入图片描述

  • SVR的优化问题:通过引入松弛变量和正则化项来求解。

  • SVR的支持向量:与SVM类似,SVR的支持向量是落在 ε ε ε间隔带之外的样本。

6 核方法

  • 核方法是一种基于核函数的学习方法,可以将线性学习器扩展为非线性学习器。

  • 表示定理:任何在再生核希尔伯特空间中的学习问题都可以用核函数的线性组合来表示。

  • 核化线性判别分析:通过核化将线性判别分析扩展到非线性情况。

X 案例代码

X.1 分类任务

X.1.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import seaborn as sns

# 1. 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
print("此时X,y的数据类型为:", type(X), type(y), '\n')

# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train,y_train的数据类型为:", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示:")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')

# 3. 构建并训练SVM分类模型
model = SVC(kernel='rbf', random_state=42)  # 使用高斯核函数
model.fit(X_train, y_train)

# 4. 预测测试集上的目标变量
y_pred = model.predict(X_test)

# 5. 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率:", accuracy)

print("分类报告:")
print(classification_report(y_test, y_pred))

# 6. 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')
plt.title('Confusion Matrix for Iris Dataset')
plt.tight_layout()
plt.show()

# 可选:将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
print("模型预测结果:")
print(results.head())

X.1.2 数据集(鸢尾花数据集)

  • 鸢尾花数据集是机器学习领域中最著名的数据集之一,常被用于分类算法的测试和演示。

  • 概览

    • 样本数量:150个样本
    • 特征数量:4个特征
    • 标签种类数量:3个类别,每个类别有50个样本
  • 特征描述

    • 萼片长度 (sepal length):花萼的长度,单位为厘米。
    • 萼片宽度 (sepal width):花萼的宽度,单位为厘米。
    • 花瓣长度 (petal length):花瓣的长度,单位为厘米。
    • 花瓣宽度 (petal width):花瓣的宽度,单位为厘米。
  • 目标变量是鸢尾花的种类,共有三种:

    1. Iris setosa
    2. Iris versicolor
    3. Iris virginica
  • 使用

    • 可以使用 sklearn.datasets.load_iris() 函数来加载这个数据集,并查看其详细信息。

X.1.3 模型效果

在这里插入图片描述
在这里插入图片描述

X.2 回归任务

X.2.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score

# 1. 加载数据集
data = fetch_california_housing()
X, y = data.data, data.target
print("此时X,y的数据类型为:", type(X), type(y), '\n')

# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train,y_train的数据类型为:", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示:")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')

# 3. 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 4. 构建并训练SVR模型
# 使用RBF核
svr = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=.1)

# 训练模型
svr.fit(X_train, y_train)

# 5. 预测测试集上的目标变量
y_pred = svr.predict(X_test)

# 6. 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("SVR模型性能:")
print(f"Mean Squared Error: {mse:.2f}")
print(f"R^2 Score: {r2:.2f}", '\n')

# 6. 绘制实际值和预测值的折线图
plt.figure(figsize=(12, 6))
plt.plot(y_test[:50], label='Actual', marker='o', color='blue')
plt.plot(y_pred[:50], label='Predicted', marker='x', color='red', linestyle='--')
plt.title('Actual vs Predicted Values for California Housing Dataset (50 Samples)')
plt.xlabel('Sample Index')
plt.ylabel('Target Value')
plt.legend()
plt.tight_layout()
plt.show()

# 可选:将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})

# 可选:打印模型的一些参数
print("模型预测结果:")
print(results)
print("模型参数:")
print("C:", svr.C)
print("Gamma:", svr.gamma)
print("Epsilon:", svr.epsilon)
print("Kernel:", svr.kernel)

X.2.2 数据集(加州房价数据)

  • 加州房价数据集是机器学习领域中常用的数据集之一,常被用于回归算法的测试和演示。

  • 概览

    • 样本数量:20640个样本
    • 特征数量:8个特征
    • 标签:1个连续的目标变量
  • 特征描述

    • MedInc (Median Income in block group):区块组的中位数收入,单位为10,000美元。
    • HouseAge (Median House Age in block group):区块组中房屋的中位数年龄,单位为年。
    • AveRooms (Average number of rooms per household):每个家庭的平均房间数。
    • AveBedrms (Average number of bedrooms per household):每个家庭的平均卧室数。
    • Population (Block group population):区块组的人口数。
    • AveOccup (Average house occupancy):每个房屋的平均居住人数。
    • Latitude (Block group latitude):区块组的纬度。
    • Longitude (Block group longitude):区块组的经度。
  • 目标变量

    • MedHouseVal (Median house value for households in block group):区块组中房屋的中位数价值,单位为100,000美元。
  • 使用

    • 可以使用 sklearn.datasets.fetch_california_housing() 函数来加载这个数据集,并查看其详细信息。

X.2.3 模型效果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.kler.cn/a/388608.html

相关文章:

  • 【go从零单排】Random Numbers、Number Parsing
  • 【机器学习】平均绝对误差(MAE:Mean Absolute Error)
  • 3DTiles之i3dm介绍
  • 自监督学习:机器学习的未来新方向
  • Vue Cli 脚手架目录文件介绍
  • 深入探索Waymo自动驾驶技术发展:从DARPA挑战赛到第五代系统的突破
  • FPGA 第5讲 点亮你的LED灯
  • Windows下AMD显卡配置pyTorch记录
  • 云计算基础知识
  • Spring Boot架构下的工程认证计算机课程管理
  • 7.4、实验四:RIPv2 认证和触发式更新
  • 适用于 Windows 11/10 电脑 的 13 个最佳文件恢复软件
  • window下安装rust 及 vscode配置
  • 《一本书讲透 Elasticsearch》京东评论采集+存储+可视化全 AI 实现
  • 《数据结构》--二叉树【上】
  • ubuntu下安装 git 及部署cosyvoice(2)
  • 【开源社区】ELK 磁盘异常占用解决及优化实践
  • 如何平滑切换Containerd数据目录
  • android 适应CA证书
  • spring-security(两种权限控制方式)
  • Qt 界面无边框 拖拽移动 问题处理:setMouseTracking(true)无法跟踪鼠标事件
  • <项目代码>YOLOv8 玉米地杂草识别<目标检测>
  • unity3d————四元数,欧拉角的互相转换的初步了解
  • 【bayes-Transformer-GRU多维时序预测】多变量输入模型。matlab代码,2023b及其以上
  • Bert框架详解(上)
  • EM是什么?如何修复EM violation?