当前位置: 首页 > article >正文

python 实现knn sklearn K近邻分类算法

knn sklearn K近邻分类算法介绍

K近邻(K-Nearest Neighbors,简称KNN)分类算法是sklearn(scikit-learn)库中一种常用的机器学习算法,属于有监督学习范畴。它基于这样一个原理:对于待分类的样本,算法会找到训练数据集中与其最相似的K个样本(即K个最近邻),然后根据这K个样本的类别进行投票,将待分类样本归类到票数最多的类别中。

KNN算法的主要步骤包括:

构建已分类的数据集:作为训练集,其中包含了已知分类标签的样本数据。
计算距离:当输入没有标签的新数据时,算法会计算这个新数据与训练集中每个样本之间的距离。常用的距离度量方法包括欧氏距离和曼哈顿距离。
排序和选择:根据计算出的距离,选择与新数据最相似的K个样本(即K个最近邻)。
分类决策:根据这K个最近邻的类别标签,采用投票法(在分类问题中)或平均法(在回归问题中)来确定新数据的类别或预测值。

KNN算法在sklearn中的实现

在sklearn中,可以使用sklearn.neighbors.KNeighborsClassifier类来实现KNN分类算法。以下是一个简单的使用示例:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 加载iris数据集
iris = load_iris()
X = iris.data
y = iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 创建KNN分类器实例,设置邻居数为3
knn = KNeighborsClassifier(n_neighbors=3)

# 训练模型
knn.fit(X_train, y_train)

# 预测测试集
predictions = knn.predict(X_test)

# 评估模型(这里可以添加评估代码,如计算准确率等)

KNN算法的特点

简单直观:KNN算法的工作原理简单,容易理解和实现。
分类性能好:由于KNN算法基于实例进行学习,能够充分利用训练数据中的信息,因此在很多数据集上都能取得不错的分类效果。
对数据预处理要求低:KNN算法不需要对数据进行复杂的特征提取或降维操作,只需计算样本之间的距离即可进行分类。
通用性强:KNN算法可以应用于各种类型的数据和场景,包括文本、图像、声音等不同类型的数据,以及分类、回归等不同类型的问题。

然而,KNN算法也存在一些缺点,如计算量大(尤其是当数据集很大时),以及对K值的选择敏感等。因此,在实际应用中,需要根据具体场景和数据特点来选择合适的算法和参数。

knn sklearn K近邻分类算法python实现样例

以下是使用sklearn库实现K近邻分类算法的Python代码示例:

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# 准备训练集和测试集数据
X_train = [[1], [2], [3], [4], [5]]
y_train = [0, 0, 1, 1, 1]
X_test = [[2.5], [4.5], [7]]

# 创建K近邻分类器
knn = KNeighborsClassifier(n_neighbors=3)

# 使用训练集训练分类器
knn.fit(X_train, y_train)

# 使用分类器进行预测
y_pred = knn.predict(X_test)

# 打印预测结果
print("预测结果:", y_pred)

# 计算准确率
y_true = [0, 1, 1]
accuracy = accuracy_score(y_true, y_pred)
print("准确率:", accuracy)

在上述代码中,首先从sklearn.neighbors库中导入KNeighborsClassifier类和accuracy_score函数。然后,定义训练集和测试集数据。训练集数据X_train是一个二维列表,每个子列表代表一个样本的特征;训练集数据y_train是一个一维列表,代表每个样本的类别标签。测试集数据X_test是一个二维列表,每个子列表代表一个需要预测的样本的特征。

接着,创建一个K近邻分类器对象knn,并设置参数n_neighbors=3,表示要考虑的最近邻居的数量。

然后,使用训练集数据X_train和y_train来训练分类器knn。

接下来,使用分类器knn对测试集数据X_test进行预测,将预测结果保存在y_pred变量中。

最后,使用accuracy_score函数计算预测结果y_pred和实际标签y_true之间的准确率,并打印准确率。


http://www.kler.cn/a/321582.html

相关文章:

  • Go八股(Ⅴ)map
  • `node-gyp` 无法找到版本为 `10.0.19041.0` 的 Windows SDK
  • 当你想要conda安装遇到UnavailableInvalidChannel: HTTP 404 NOT FOUND for channel的问题
  • Dockerfile的使用
  • 代码修改材质参数
  • 优化时钟网络之时钟抖动
  • 最新的iOS 18版本和Android 15版本系统分别升级了哪些功能?
  • [大语言模型] 情感认知在大型语言模型中的近期进展-2024-09-26
  • SLF4J报错log4j又报错
  • 新书推荐——《深度学习精粹与PyTorch实践》
  • 网络安全专业,在校大学生如何赚外快,实现财富自由?零基础入门到精通,收藏这一篇就够了
  • Linux下的基本指令/命令(二)
  • 面试小妙招:轻松绕过五大“坑”,展现真实自我
  • python中数据处理库,机器学习库以及自动化与爬虫
  • 设计模式-行为型模式-中介者模式
  • 【C#】DllImport的使用
  • 力扣19 删除链表的倒数第N个节点 Java版本
  • eBPF系列:开发流程
  • 【HarmonyOS】鸿蒙仿iOS线性渐变实现
  • 如何像专家一样修复任何 iPhone 上的“iPhone 已禁用”错误
  • 【Go】Go语言切片(Slice)深度剖析与应用实战
  • chsharp文件如何查找在unity中使用的 位置?
  • 【React】组件通信
  • docker windows下清理后,磁盘空间未释放原因及解决方法
  • 计算机前沿技术-人工智能算法-大语言模型-最新研究进展-2024-09-27
  • Linux之我不会