当前位置: 首页 > article >正文

自定义数据集,使用scikit-learn 中K均值包 进行聚类

代码:

# 导入必要的库
import matplotlib.pyplot as plt  # 用于绘制图形
from sklearn.cluster import KMeans  # KMeans 聚类算法
import numpy as np  # 数值计算库

# 定义 class1 到 class4 的数据点,模拟四个不同的类(每个类7个二维点)
class1_points = np.array([[1.9, 1.2],
                          [1.5, 2.1],
                          [1.9, 0.5],
                          [1.5, 0.9],
                          [0.9, 1.2],
                          [1.1, 1.7],
                          [1.4, 1.1]])

class2_points = np.array([[-1.9, 1.2],
                          [-1.5, 2.1],
                          [-1.9, 0.5],
                          [-1.5, 0.9],
                          [-0.9, 1.2],
                          [-1.1, 1.7],
                          [-1.4, 1.1]])

class3_points = np.array([[1.9, -1.2],
                          [1.5, -2.1],
                          [1.9, -0.5],
                          [1.5, -0.9],
                          [0.9, -1.2],
                          [1.1, -1.7],
                          [1.4, -1.1]])

class4_points = np.array([[-1.9, -1.2],
                          [-1.5, -2.1],
                          [-1.9, -0.5],
                          [-1.5, -0.9],
                          [-0.9, -1.2],
                          [-1.1, -1.7],
                          [-1.4, -1.1]])

# 将四个类的数据合并成一个大的数据集 'data',这是所有数据点的集合
data = np.concatenate((class1_points, class2_points, class3_points, class4_points))

# 创建一个 1x2 的子图布局,figsize 控制图形大小
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 6))

# k 为聚类的数量,设定为 4,即我们预期将数据聚成四类
k = 4

# 在 ax1 上绘制所有数据点,s=50 控制点的大小
ax1.scatter(data[:, 0], data[:, 1], s=50)
ax1.set_title("Original Data")  # 设置图表标题

# 初始化 KMeans 聚类模型,设定聚类数量 k 和最大迭代次数为 30
km = KMeans(n_clusters=k, max_iter=30)

# 使用 KMeans 聚类算法对数据进行训练
km.fit(data)

# 获取聚类中心(每个聚类的质心)
centeroids = km.cluster_centers_

# 使用 KMeans 的 predict 方法预测每个数据点所属的簇
y_kmean = km.predict(data)

# 打印每个数据点所属的簇的索引
print(y_kmean)

# 在 ax2 上绘制聚类的结果
for i in range(k):
    # 提取当前簇的数据点
    cluster_points = data[y_kmean == i]
    # 获取当前簇的质心
    centroid = centeroids[i]
    # 将当前簇的每个点与质心连接,并用虚线绘制
    for cluster_point in cluster_points:
        ax2.plot([cluster_point[0], centroid[0]], [cluster_point[1], centroid[1]], 'k--')

# 在 ax2 上绘制所有数据点,并根据聚类结果着色
ax2.scatter(data[:, 0], data[:, 1], c=y_kmean, s=50)

# 在聚类结果图上绘制每个簇的质心(用黑色标记,点的大小为 100,透明度为 0.5)
ax2.scatter(centeroids[:, 0], centeroids[:, 1], c='black', s=100, alpha=0.5)

# 设置图表标题
ax2.set_title("KMeans Clustering Result")

# 显示绘制的图形
plt.show()

结果:


http://www.kler.cn/a/529704.html

相关文章:

  • nacos 配置管理、 配置热更新、 动态路由
  • vsnprintf() 将可变参数格式化输出到字符数组
  • Shell特殊状态变量以及常用内置变量总结
  • 【教程】在CMT上注册账号并声明Conflicts
  • JVM-运行时数据区
  • Windsurf cursor vscode+cline 与Python快速开发指南
  • 数据分析系列--[12] RapidMiner辨别分析(含数据集)
  • Kafka ACL(访问控制列表)介绍
  • c/c++高级编程
  • 聚簇索引、哈希索引、覆盖索引、索引分类、最左前缀原则、判断索引使用情况、索引失效条件、优化查询性能
  • Python 网络爬虫实战:从基础到高级爬取技术
  • K个不同子数组的数目--滑动窗口--字节--亚马逊
  • 算法随笔_37: 交替合并字符串
  • 玩转Docker | 使用Docker部署MySQL数据库
  • 解密 Argon2:Java 密码加密的高安全实践与趣味探索
  • 100.2 AI量化面试题:在构建多因子选股模型时,如何有效处理因子之间的共线性问题?请给出具体的解决方案
  • DeepSeek-R1大模型本地化部署
  • 【前端学习路线】前端生态 详细知识点学习路径(附学习资源)
  • leetcode 2187. 完成旅途的最少时间
  • 如何用微信小程序写春联
  • 十一、实战案例
  • Java Web的发展史与SpringMVC入门学习(SpringMVC框架入门案例)
  • 深度学习深度解析:从基础到前沿
  • 基于FPGA的BT1120编解码
  • 女生年薪12万,算不算属于高收入人群
  • 每日一个小题