当前位置: 首页 > article >正文

【机器学习】机器学习学习笔记 - 无监督学习 - k-means/均值漂移聚类/凝聚层次聚类/近邻传播聚类 - 05

无监督学习 (聚类)

加菲工具 - 各类免费AI工具合集 https://orcc.online

  • 聚类是一种无监督学习方法,是将数据划分为若干个簇,使得簇内的点尽可能相似,簇间尽可能不相似。

k-means 聚类

  • k-means 聚类算法是一种迭代算法,它会不断地寻找最佳的 k 值,然后将数据分配到这些簇中。
  • 聚类算法的优点是简单,易于实现,并且对数据维度的要求不高。
from sklearn.cluster import KMeans

num_clusters = 4
kmeans = KMeans(init='k-means++', n_clusters=num_clusters, n_init=10)
kmeans.fit(data)

均值漂移聚类

  • 把数据点的分布看成是概率密度函数, 希望在特征空间中根据函数分布特征找出数据点的"模式"(mode)
  • 优点是不需要事先确定集群的数量
import numpy as np
from sklearn.cluster import MeanShift, estimate_bandwidth

# Estimating the bandwidth
# 设置带宽参数 quantile : 0.1 代表数据集中10%的样本作为聚类中心
# n_samples : 样本数
bandwidth = estimate_bandwidth(X, quantile=0.1, n_samples=len(X))

# Compute clustering with MeanShift
# bin_seeding : 随机种子
# 随机种子,保证每次聚类结果一致
meanshift_estimator = MeanShift(bandwidth=bandwidth, bin_seeding=True)
meanshift_estimator.fit(X)

# 提取标记
labels = meanshift_estimator.labels_
# 聚类中心
centroids = meanshift_estimator.cluster_centers_
num_clusters = len(np.unique(labels))

print("Number of clusters in input data =", num_clusters)

凝聚层次聚类

  • 层次聚类算法可以是自下而上的,也可以是自上而下
  • 自下而上: 每个数据点都被看作一个簇,然后将簇进行合并,直到所有簇合并为一个簇
  • 自上而下: 先将所有数据点看作一个簇,然后将簇进行分裂,直到所有簇分裂为一个簇
from sklearn.cluster import AgglomerativeClustering

plt.figure()
model = AgglomerativeClustering(linkage=linkage,
                connectivity=connectivity, n_clusters=num_clusters)
model.fit(X)

# extract labels
labels = model.labels_

近邻传播聚类

  • 找出数据点的相似度,然后根据相似度进行聚类
  • 优点是不需要事先确定簇的数量
from sklearn.cluster import AffinityPropagation

# 使用亲和传播聚类算法构建聚类模型
# edge_model.covariance_可以获取到股票之间的协方差矩阵,该矩阵表示了不同股票之间的相关性和波动性
_, labels = cluster.affinity_propagation(edge_model.covariance_)
num_labels = labels.max()

# 打印聚类结果
for i in range(num_labels + 1):
    print("Cluster", i+1, "-->", ', '.join(names[labels == i]))


http://www.kler.cn/a/419863.html

相关文章:

  • 有趣的Docker
  • 《山海经》:北山
  • PHP RabbitMQ连接超时问题
  • 【测试工具JMeter篇】JMeter性能测试入门级教程(七):JMeter断言
  • 基于Java Springboot校园导航微信小程序
  • 【C++】STL——map和set
  • 【JavaScript】下拉框的实现
  • leetcode530:二叉搜索树的最小绝对值差
  • GitHub Copilot革命性更新:整合顶尖AI模型,如何重塑开发体验?
  • 用 React 编写一个笔记应用程序
  • SQL优化与性能——C++与SQL性能优化
  • 重学设计模式-建造者模式
  • 题海拾贝——生成元(Digit Generator,ACM/ICPC SEOUL 2005,UVa1583)
  • 15.三数之和 python
  • 深度学习模型:门控循环单元(GRU)详解
  • Web基础
  • java中的运算符
  • Elasticsearch面试内容整理-面试注意事项
  • Python 深度学习框架之Keras库详解
  • AI在线免费视频工具4:AI视频编辑ai-video-composer
  • 2024.12.2工作复盘
  • Ubuntu20.04安装NVIDIA显卡驱动
  • parallelStream并行流使用踩坑,集合安全
  • 4399 Android面试题及参考答案
  • [382]基于springboot的辽B代驾管理系统
  • 论文阅读:Deep divergence-based approach to clustering