当前位置：首页 > article >正文

KMeans实战——聚类和轮廓系数评估啤酒数据集

article 2025/3/13 11:10:42

原理：

在数据分析和机器学习中，聚类是一种常用的无监督学习方法，用于将数据集中的样本划分为若干个簇，使得同一簇内的样本相似度较高，而不同簇之间的样本相似度较低。KMeans算法是其中最常用的聚类算法之一。本文将介绍如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数（Silhouette Score）来评估聚类结果的质量。

1. 数据准备

首先，我们需要导入必要的库并加载数据集。本文使用的数据集是一个啤酒数据集，包含啤酒的热量（calories）、钠含量（sodium）、酒精含量（alcohol）和成本（cost）等特征。


import pandas as pd
from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt

# 加载数据集
beer = pd.read_table('data.txt', sep=' ', encoding='utf-8', engine='python')

# 选择特征
X = beer[['calories', 'sodium', 'alcohol', 'cost']]

2. 轮廓系数简介

轮廓系数是一种用于评估聚类质量的指标，其值介于-1和1之间。轮廓系数越接近1，表示聚类结果越好；越接近-1，则表示聚类结果可能存在问题。轮廓系数的计算公式如下：

其中：

3. 计算不同簇数的轮廓系数

为了找到最佳的簇数，我们可以尝试不同的簇数，并计算每个簇数对应的轮廓系数。代码如下：


scores = []
for k in range(2, 10):
    labels = KMeans(n_clusters=k).fit(X).labels_  # 聚类
    score = metrics.silhouette_score(X, labels)  # 计算轮廓系数
    scores.append(score)

print(scores)

4. 绘制轮廓系数随簇数变化的曲线

为了更直观地观察轮廓系数随簇数的变化，我们可以绘制轮廓系数曲线：


plt.plot(list(range(2, 10)), scores)
plt.xlabel('Number of Clusters')
plt.ylabel('Silhouette Score')
plt.show()

通过观察曲线，我们可以选择一个轮廓系数较高的簇数作为最终的聚类数。

5. 进行聚类并评估结果

假设我们选择簇数为2，进行聚类并评估结果：


# 聚类
km = KMeans(n_clusters=2).fit(X)
beer['cluster'] = km.labels_

# 计算轮廓系数
score = metrics.silhouette_score(X, beer.cluster)
print(score)

6、运行结果

总结

本文介绍了如何使用KMeans算法对啤酒数据集进行聚类，并使用轮廓系数来评估聚类结果的质量。通过尝试不同的簇数并计算轮廓系数，我们可以选择一个合适的簇数，从而得到较好的聚类结果。轮廓系数是一个非常有用的指标，可以帮助我们判断聚类结果的好坏。

查看全文

http://www.kler.cn/a/582659.html

DataWhale 大语言模型 - 语言模型发展历程

ubuntu下在pycharm中配置已有的虚拟环境

谈谈ArrayList和LinkedList的区别

Scala编程_数组、列表、元组、集合与映射

Day23 洛谷真题讲解(贪心)

Ubuntu 22.04使用pigz多线程快速解压/压缩文件

1.2 CogPMAlignTool（模板匹配工具), CogFixtureTool（坐标系转换工具）

vue 仿deepseek前端开发一个对话界面

docker+ollama+flask+mysql实现本地数据库读取操作

unet模型在车道线检测上的应用【代码+数据集+python环境+GUI系统】

OpenBMC：BmcWeb 处理认证

如何搭建一套行业版B2B2C商城平台（类京东/美团）？｜商派BBC

AF3 make_fixed_size函数解读

PostgreSQL 数据库备份与恢复指南

Nanobrowser：开源AI自动化神器 OpenAI Operator替代品

桂链：什么是区块链智能合约和链码？

浅谈SSE爬虫

Flutter 学习之旅之 flutter 不使用插件，实现简单自定义弹窗PopupDialog功能

单片机FreeRTOS系统中，CPU计算的延时函数

es6 尚硅谷学习

原理：