R语言机器学习算法实战系列(二) SVM算法(Support Vector Machine)
文章目录
-
- 介绍
-
- 原理
- 应用方向
- 下载数据
- 加载R包
- 导入数据
- 数据预处理
- 数据描述
- 数据切割
- 标准化数据
- 设置参数
- 训练模型
- 预测测试数据
- 评估模型
-
- 模型准确性
- 混淆矩阵
- 模型评估指标
- ROC Curve
- PRC Curve
- 特征的重要性
- 保存模型
- 总结
- 系统信息
介绍
支持向量机(Support Vector Machine,简称SVM)是一种监督学习算法,主要用于分类问题,也可以用于回归问题。SVM的核心思想是在特征空间中寻找一个最优的超平面,以此来区分不同的类别。
原理
- 最大化间隔:SVM试图在不同类别的数据点之间找到一个最大化边界的超平面。这个边界被称为“间隔”。SVM的目标是最大化这个间隔,以便新数据点被正确分类的可能性最大化。
- 支持向量:在数据集中,那些位于间隔边界上的数据点被称为支持向量。这些点是定义最优超平面的关键。
- 核技巧:在原始特征空间中可能很难找到一个合适的超平面来分隔数据,SVM通过使用核函数将数据映射到更高维的空间中,使得在新的空间中更容易找到分隔超平面。
- 优化问题:SVM的优化问题通常通过求解一个凸二次规划问题来实现,确保找到全局最优解。