【漫话机器学习系列】032.代表点聚类算法(Representative-Based Clustering Algorithm)
代表点聚类算法是一类通过选取数据集中的一部分数据点作为代表点(centroids, medoids, exemplars),并使用这些代表点对其余数据点进行划分的聚类方法。这类算法的主要目标是通过有限的代表点刻画数据分布,从而实现数据聚类。常见的代表点聚类算法包括 K-Means、K-Medoids 和 Affinity Propagation 等。
代表点聚类算法的特点
-
代表点的选取
通过选定若干代表点来描述数据集的结构,这些点可能是实际数据点(如 K-Medoids)或虚拟点(如 K-Means)。 -
聚类目标
将所有数据点分配到与其最接近的代表点,最小化某种距离度量(如欧几里得距离)。 -
应用场景
常用于需要快速处理大规模数据、分布规律清晰或已知簇数的场景。
常见算法及原理
1. K-Means 聚类
-
核心思想:
通过迭代优化,找到 k 个虚拟中心点(质心),使数据点到最近质心的距离之和最小化。 -
步骤:
- 初始化 k 个质心(随机选择或其他初始化策略)。
- 分配:将每个数据点分配到最近的质心形成簇。
- 更新:计算每个簇的均值并更新质心位置。
- 重复分配和更新步骤,直到质心不再改变或达到最大迭代次数。
-
优点:计算简单、收敛快。
-
缺点:对噪声和异常值敏感,容易陷入局部最优。
2. K-Medoids 聚类
-
核心思想:
与 K-Means 类似,但选取实际数据点作为代表点(medoids),通过最小化簇内总不相似性(如曼哈顿距离)优化聚类结果。 -
步骤:
- 初始化 k 个代表点。
- 分配:将每个数据点分配到最近的代表点形成簇。
- 更新:尝试用非代表点替换代表点,若替换后总不相似性减少,则进行更新。
- 重复分配和更新步骤,直到代表点不再改变。
-
优点:更鲁棒,不受异常值影响。
-
缺点:计算复杂度较高,适合小规模数据。
3. Affinity Propagation 聚类
-
核心思想:
不指定簇数,通过基于消息传递的方法动态选择代表点(exemplars)。 -
步骤:
- 初始化:根据数据点的相似性矩阵定义偏好值。
- 消息传递:交替更新责任值和可用性值,确定每个点是否适合作为代表点。
- 选取代表点:根据责任值和可用性值选择最终的代表点。
- 分配:将数据点分配到最接近的代表点。
-
优点:不需要提前指定簇数,适合非球形数据分布。
-
缺点:计算复杂度较高,对相似性矩阵的选取敏感。
优缺点分析
优点
- 计算简单:大多数代表点聚类算法具有较低的时间复杂度(如 K-Means 的 )。
- 可扩展性强:适用于大规模数据集。
- 直观易理解:基于中心点的聚类结果具有较强的解释性。
缺点
- 对初始点敏感:如 K-Means 和 K-Medoids 对初始代表点的选取有较强依赖。
- 对数据分布要求较高:大多适用于球形或均匀分布数据,难以处理复杂形状的簇。
- 对噪声和异常值敏感:尤其是 K-Means 易受影响。
算法的改进与优化
-
K-Means++ 初始化
通过改进初始质心的选取方式,减少收敛时间并提高聚类效果。 -
Mini-Batch K-Means
对大规模数据集使用小批量训练,降低计算复杂度。 -
PAM 和 CLARA(K-Medoids 优化)
PAM(Partitioning Around Medoids)优化算法精度,CLARA(Clustering Large Applications)提升计算效率。 -
结合降维技术
在高维数据中,可以结合 PCA、t-SNE 等降维方法进行预处理,减少计算复杂性。
适用场景
-
聚类分析
- 用户行为分析(电商网站用户分群)。
- 医疗数据聚类(基因表达数据分析)。
-
推荐系统
- 基于簇中心生成用户或物品的推荐。
-
图像处理
- 图像压缩(通过代表点近似原始图像)。
- 图像分割(将像素聚类成不同区域)。
-
文本分析
- 文本主题建模。
- 文档分类。
总结
代表点聚类算法是一类经典且应用广泛的无监督学习方法,特别适用于具有明显聚类结构的中小规模数据集。根据具体需求,可以选择不同的代表点方法,如 K-Means(效率高但对噪声敏感)、K-Medoids(鲁棒但计算复杂)、Affinity Propagation(无需指定簇数但计算成本高)。通过合理优化或结合其他技术,这类算法在实际场景中能发挥重要作用。