当前位置: 首页 > article >正文

使用 DBSCAN(基于密度的聚类算法) 对二维数据进行聚类分析

代码功能

生成数据:

使用 make_moons 方法生成一个非线性分布的二维数据集,模拟月亮形状的两个半环形分布,同时添加一定的噪声。

数据标准化:

使用 StandardScaler 对数据进行标准化处理,使不同特征的值具有相同的分布范围(零均值和单位方差),以提高 DBSCAN 的距离计算效果。

应用 DBSCAN:

使用 DBSCAN 算法对标准化后的数据进行聚类分析:
eps=0.2 定义两个点被视为“邻居”的最大距离。
min_samples=5 指定一个点需要至少有 5 个邻居才能被视为核心点。
算法将点划分为不同的簇或标记为噪声点。

可视化聚类结果:

使用 Matplotlib 将聚类结果以散点图形式展示:
每个簇以不同颜色表示。
噪声点用黑色标记。

输出聚类统计:

打印每个簇的编号及其包含的点数,同时统计噪声点的数量。
在这里插入图片描述

代码

import numpy as np
import matplotlib.pyplot as plt
from sklearn.datasets import make_moons
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler

# 1. 生成示例数据
X, y = make_moons(n_samples=300, noise=0.05, random_state=42)  # 生成类似月亮形状的数据

# 2. 数据标准化(DBSCAN 对距离敏感,建议先标准化)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# 3. 应用 DBSCAN
dbscan = DBSCAN(eps=0.2, min_samples=5)  # 设置超参数
labels = dbscan.fit_predict(X_scaled)

# 4. 可视化结果
# 获取每个簇的颜色
unique_labels = set(labels)
colors = [plt.cm.Spectral(each) for each in np.linspace(0, 1, len(unique_labels))]

# 绘制聚类结果
plt.figure(figsize=(8, 6))
for k, col in zip(unique_labels, colors):
    if k == -1:
        # 噪声点标记为黑色
        col = [0, 0, 0, 1]
    
    class_member_mask = (labels == k)
    xy = X[class_member_mask]
    plt.plot(xy[:, 0], xy[:, 1], 'o', markerfacecolor=tuple(col), markeredgecolor='k', markersize=6)

plt.title("DBSCAN Clustering")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.show()

# 5. 输出聚类结果
for i in unique_labels:
    if i == -1:
        print(f"Cluster: Noise (Label {i}) - Number of points: {(labels == i).sum()}")
    else:
        print(f"Cluster: {i} - Number of points: {(labels == i).sum()}")


http://www.kler.cn/a/395761.html

相关文章:

  • 民事诉讼中,火灾事故认定书并非不可推翻,其证明力弱于鉴定意见
  • centos7安装Chrome使用selenium-wire
  • LeetCode面试经典150题C++实现,更新中
  • 探索 Python HTTP 的瑞士军刀:Requests 库
  • 深入探索React合成事件(SyntheticEvent):跨浏览器的事件处理利器
  • 认识一下Unicorn
  • Spring基础之——控制反转(IOC)、依赖注入(DI)与切面编程(AOP)概念详解(适合小白,初学者必看)
  • 问:数据库的六种锁机制实践总结?
  • C语言,用最小二乘法实现一个回归模型
  • (附项目源码)Java开发语言,211 springboot 在线问诊系统的设计与实现,计算机毕设程序开发+文案(LW+PPT)
  • 谷歌Gemini发布iOS版App,live语音聊天免费用!
  • 基于微信小程序的乡村研学游平台设计与实现,LW+源码+讲解
  • 科锐国际,蓝禾,汤臣倍健,三七互娱,GE医疗,得物,顺丰,快手,途游游戏25秋招内推
  • 14天Java基础学习——第6天:面向对象编程(类与对象)
  • 实验1-1 顺序表的基本操作
  • ceph的集群管理
  • 计算机的错误计算(一百五十五)
  • HTML5实现俄罗斯方块小游戏
  • jenkins用户在执行scp的时候如何做免密登录
  • 【RabbitMQ】08-延迟消息
  • POD-Transformer多变量回归预测(Matlab)
  • 使用Git工具在GitHub的仓库中上传文件夹(超详细)
  • Python爬虫----python爬虫基础
  • Liunx-Ubuntu22.04.1系统下配置Anaconda+pycharm+pytorch-gpu环境配置
  • OpenAI官方发布:利用ChatGPT提升写作的12条指南
  • 低资源集群中的大语言模型分布式推理技术:Reduce、LayerNorm和Broadcast的作用