【聚类】Kmeans聚类方法概述及其MATLAB实现
【聚类】Kmeans聚类方法概述及其MATLAB实现
- Kmeans聚类方法
-
- 1.1 算法步骤
- 1.2 算法的优点和缺点
- 确定聚类的最佳数量
-
- 2.1 肘部法(Elbow Method)
- 2.2 轮廓系数(Silhouette Score)
- 2.3 戴维斯-布尔丁指数(Davies-Bouldin Index, DBI)
- MATLAB实现
- 参考
Kmeans聚类方法
K-means 聚类是一种常用的无监督学习算法,旨在将数据集划分为 K 个簇,使得每个簇中的数据点尽可能接近各自的簇中心。
1.1 算法步骤
算法的基本步骤如下:
1、选择初始簇中心:
随机选择 K 个点作为初始簇中心(即质心)。也可以使用改进的初始化方法,如 K-means++,以减少随机选择带来的不确定性。
2、分配数据点到最近的簇:
对于每个数据点,计算它到所有簇中心的距离(通常使用欧氏距离),并将该点分配到最近的簇。
3、更新簇中心:
对于每个簇,计算所有属于该簇的数据点的均值,并将该均值作为新的簇中心。
4、重复步骤 2 和 3:
不断重复分配数据点和更新簇中心的步骤,直到簇中心不再发生显著变化或达到预设的迭代次数。
5、输出结果:
最终,算法收敛,输出 K 个簇及其簇中心。