当前位置: 首页 > article >正文

【机器学习】scikit-learn调用KNN算法并手动模仿封装自己的KNN算法

模仿scikit-learn封装自己的knn算法

  • 一、本文内容简介
  • 二、重新认识机器学习
  • 三、重新认识KNN算法
  • 四、scikit-learn调用knn算法演示
  • 五、重新认识KNN算法的封装
    • 1. 实现思路
    • 2. 封装过程

一、本文内容简介

本文详细介绍了scikit-learn库中机器学习算法的封装过程,特别是k近邻(knn)算法的实现与应用。视频从knn算法的基本原理出发,演示了如何将算法整理成函数,并通过断言确保输入数据的合法性。接着讲解了如何使用scikit-learn中的knn分类器进行预测,并说明了机器学习流程,包括数据训练和预测过程。此外,还讨论了如何自定义封装knn算法类,并进行了测试。视频强调了scikit-learn在机器学习算法封装上的统一性,并提示了在使用预测时需注意数据格式的问题。整体上,视频深入浅出地介绍了机器学习算法封装与调用的关键步骤和注意事项。

二、重新认识机器学习

在这里插入图片描述

  1. 机器学习流程包括训练数据集的准备模型的训练、以及输入样例预测
  2. 训练数据集包括特征矩阵X_train和标签向量y_train。
  3. 模型训练过程通常称为fit,输入样例的预测过程称为predict

三、重新认识KNN算法

  1. knn算法的基本原理是通过计算待预测样本与训练集中样本的距离,找到距离最近的k个样本,并统计这k个样本中最常见的类别作为预测结果。
  2. 算法过程包括断言验证输入数据的合法性,如k的值范围、训练数据集的特征数量等。
  3. 函数实现包括参数k、训练数据集X_train和y_train,以及待预测特征向量x。
  4. knn算法是一种特殊的机器学习算法,可以认为是没有模型的算法。
  5. 训练数据集本身就是knn算法的模型
  6. knn算法的fit过程相对简单,主要是拷贝训练数据集
  7. scikit-learn中的knn算法
    1. scikit-learn是一个流行的机器学习库,提供了丰富的算法实现。
    2. knn算法在scikit-learn中通过kneighborsclassifier类进行封装。
    3. 创建kneighborsclassifier实例并传入n_neighbors参数(即k的值)进行训练和预测。

四、scikit-learn调用knn算法演示

  1. 准备好训练数据集和预测向量

    import numpy as np
    import matplotlib.pyplot as plt
    
    # 原始数据集X
    raw_data_X = [[3.393533211, 2.331273381],
                  [3.110073483, 1.781539638],
                  [1.343808831, 3.368360954],
                  [3.582294042, 4.679179110],
                  [2.280362439, 2.866990263],
                  [7.423436942, 4.696522875],
                  [5.745051997, 3.53398803],
                  [9.172168622, 2.511101045],
                  [7.792783481, 3.424088941],
                  [7.939820817, 0.791637231]]
    # 原始标签数据集y,前五个元素是0表示一种类型,后五个元素是1表示另外一种类型
    raw_data_y = [0, 0, 0, 0, 0, 1, 1, 1, 1, 1]
    
    # 训练集: 将原始数据集转成numpy中的array类型
    X_train = np.array(raw_data_X)
    y_train = np.array(raw_data_y)
    
    # 新样本x
    x = np.array([8.093607318, 3.365731514])
    
  2. 引入scikit-learn中的Knn算法,并运行:
    如果你还没有安装scikit-learn,则需要在cmd中先安装:

    pip install scikit-learn
    

    在这里插入图片描述

    然后在jupyter中引入:

    from sklearn.neighbors import KNeighborsClassifier as kncf
    # 其中6为k的值,即k=6,该函数返回一个KNeighborsClassifer对象
    knn_clf = kncf(n_neighbors=6) 
    # 开始fit的过程,即训练模型,fit返回模型本身
    knn_clf.fit(X_train,y_train)
    # 由于predict函数需要传入的是一个向量,而x新样本是一个数组,因此需要先将x变成一个向量
    X_predict_params = x.reshape(1,-1)  # 这里将x变成矩阵的形式,第一个1表示第一个数组,而-1表示让numpy自动决定有多少个元素
    # 再调用predict函数
    y_predict = knn_clf.predict(X_predict_params)
    # 由于返回是[1]向量,故需要取出其最后的预测值
    y_predict[0]
    

    执行结果如下:
    在这里插入图片描述

五、重新认识KNN算法的封装

1. 实现思路

  1. 将knn算法整理成函数形式,包括断言验证和算法核心逻辑。
  2. 函数接受参数k、训练数据集x_train和y_train,以及待预测特征向量x。
  3. 函数返回待预测样本x所属的类别。

2. 封装过程

  1. 自定义一个knnclassifier类,实现knn算法的核心逻辑。
  2. 类中包含构造函数、fit方法(用于训练模型)和predict方法(用于预测新样本的类别)。
  3. predict方法计算待预测样本与训练集之间的距离,找到最近的k个样本,并统计最常见的类别作为预测结果。
  4. 完整代码如下:
    import numpy as np
    from math import sqrt
    from collections import Counter
    
    
    class KNNClassifier:
        # 定义构造函数
        def __init__(self, k):
            # 初始化KNN分类器
            assert k >= 1, "k must be valid"
            self.k = k
            self._X_train = None  # 自定义私有的训练数据集变量
            self._y_train = None  # 自定义私有的标签向量
    
        # 根据训练数据集X_train和y_train来训练KNN分类器
        def fit(self, X_train, y_train):
            # 代码健壮性考虑,增加断言
            assert X_train.shape[0] == y_train.shape[0], \
                "the size of X_train must be equal to the size of y_train."
    
            assert self.k <= X_train.shape[0], \
                "the size of X_train must be at least k."
    
            self._X_train = X_train
            self._y_train = y_train
            return self
    
        # 自定义predict函数,用于对待预测的数据集进行预测
        def predict(self, X_predict):
            assert self._X_train is not None and self._y_train is not None, \
                "must fit before predict!"
            assert X_predict.shape[1] == self._X_train.shape[1], \
                "the feature number of x must be equal to X_train."
    
            y_predict = [self._predict(x) for x in X_predict]
    
            return np.array(y_predict)  # 结果为返回np中的数组类型
    
        # 内部私有的函数,是真正KNN算法的实现过程
        # 函数实现的功能:给定单个待预测数据x,返回x的预测结果
        def _predict(self, x):
            assert x.shape[0] == self._X_train.shape[1], \
                "the feature number of x must be equal to X_train."
            # 计算两点之间的欧式距离
            distences = [sqrt(np.sum((x_train - x) ** 2)) for x_train in self._X_train]
    
            # 对距离进行排序
            nearest = np.argsort(distences)
    
            # 求出k个最近的点所在_y_train中的值
            topK_y = [(self._y_train[i]) for i in nearest[: self.k]]
    
            # 统计最近k个点的在topK_y中的总数,该总数相当于投票数
            votes = Counter(topK_y)
    
            # 根据votes投票数,将在y_train中投票数最多的类型(值)返回
            ret_predict = votes.most_common(1)[0][0]
    
            return ret_predict
    
        # __repr__ 方法的主要作用是返回一个对象的字符串表示形式,这个字符串表示通常是为开发者服务的,目的是提供一个明确且可用于调试的对象描述。
        # 当你在交互式环境中输入对象名称或者使用 repr() 函数时,Python 会调用对象的 __repr__ 方法来获取对象的字符串表示。
        def __repr__(self):
            return "KNN(k=%d)" % self.k
    
    在jupyer中调用,如下所示:
    在这里插入图片描述

http://www.kler.cn/a/539788.html

相关文章:

  • Json-RPC框架项目(一)
  • day44 QT核心机制
  • 2025年软件测试五大趋势:AI、API安全、云测试等前沿实践
  • 基于机器学习的DDoS检测系统实战
  • redis高级数据结构Stream
  • trimesh 加载obj mesh处理
  • 深入解析 FFmpeg 的 AAC 编解码过程
  • Python 鼠标轨迹 - 防止游戏检测
  • NPM 的扁平化目录与幻影依赖问题,以及 PNPM 如何通过硬链接和软链接解决
  • Ranger Admin安装MySQL初始化问题解决
  • Git 基础命令详解:从零开始掌握版本控制
  • idea项目列表不出现,展示loading
  • webpack配置项之---output.asyncChunks
  • 探索Scikit-learn:Python中的机器学习宝库
  • 学习script setup 语法糖
  • 哈佛大学“零点项目”(Project Zero)简介
  • idea 如何使用deepseek 保姆级教程
  • IDEA升级出现问题Failed to prepare an update Temp directory inside installation
  • idea Ai工具通义灵码,Copilot我的使用方法以及比较
  • Linux网络编程6——UDP通信
  • 深入解析 Sojson.v6 混淆加密机制
  • ArcGIS实现提取处于某一属性下栅格tif中的建筑物shp
  • 机器学习-智能写作助手
  • 软件工程-软件需求分析基础
  • 12.15 实战 ReAct:SerpAPI + LLM-MATH 构建自主解题智能体
  • 快速搭建 Elasticsearch 8 集群:零基础实战与升级注意事项