当前位置：首页 > article >正文

【机器学习】聚类评价指标之福尔克斯–马洛斯指数（Fowlkes–Mallows Index, FMI）

article 2025/3/1 0:37:20

福尔克斯–马洛斯指数（Fowlkes–Mallows Index, FMI）是一种用于评估聚类结果与实际标签之间一致性的指标。FMI 值可以用于衡量聚类的准确性，特别是在有真值标签的监督评估场景中。

计算公式

FMI 的计算基于以下公式：

其中：

TP（True Positive）：聚类中正确地将同一类别的样本分到同一簇的对数。
FP（False Positive）：聚类中错误地将不同类别的样本分到同一簇的对数。
FN（False Negative）：聚类中错误地将同一类别的样本分到不同簇的对数。

FMI 是基于样本对（pairwise）的评价方法，它考虑了聚类结果与实际标签在配对样本之间的一致性。

FMI 的取值范围

FMI∈[0,1]
值越接近 1，表示聚类结果与实际标签越一致。
值越接近 0，表示聚类结果与实际标签基本无关。

优点

平衡性：FMI 通过结合精确率（Precision）和召回率（Recall）的平方根，能够综合反映聚类的性能。
可解释性强：与常见的分类指标类似，易于理解和分析。
适用于有标签数据：特别适用于监督学习场景下的聚类结果评估。

缺点

对类别不平衡敏感：当数据的类别分布不均衡时，FMI 的结果可能会受到影响。
计算成本较高：在大规模数据集上，由于需要计算所有样本对之间的关系，计算开销可能较大。

应用场景

聚类性能评估：用于评价聚类算法在有真值标签数据集上的性能。
多模态数据对齐：在多模态单细胞分析中，FMI 可用于衡量不同模态数据对齐结果的优劣。
模型比较：在聚类算法的对比实验中，FMI 常作为关键评估指标之一。

常见的有监督评价方式

以下是一些典型的有监督聚类评价指标及其特点：

调整兰德指数（ARI, Adjusted Rand Index）： 衡量两个聚类（算法结果 vs. 真值标签）的一致性，调整了随机聚类带来的影响。
归一化互信息（NMI, Normalized Mutual Information）： 测量聚类结果与真值标签之间的信息共享，值越大表明聚类质量越高。
聚类准确率（CA, Clustering Accuracy）： 简单地计算聚类结果与真值标签匹配的准确率。
福尔克斯–马洛斯指数（FMI, Fowlkes-Mallows Index）： 衡量聚类中同类点和异类点的正确划分比例，尤其对簇大小不平衡问题敏感。

聚类评价中的注意事项

真值标签的质量： 如果“真值”标签本身不可靠（如细胞类型标签的分类标准主观性较强），则评价结果可能存在偏差。
不依赖标签的无监督评价： 除了上述有监督指标，还可以采用无监督指标，如轮廓系数（Silhouette Coefficient）或聚类内的平方误差（SSE），来评价聚类效果。
真实应用场景： 在实际无标注场景中，我们无法依赖有监督指标，这时需要结合领域知识或其他方式验证聚类的意义。

http://www.kler.cn/a/504041.html

相关文章：

说一说mongodb组合索引的匹配规则

从github上，下载的android项目，从0-1进行编译运行-踩坑精力，如何进行部署

65.在 Vue 3 中使用 OpenLayers 绘制带有箭头的线条

伏羲1.0试用版（文生图）

【软件工程】知识点总结（下）

基于python的舆情监测管理系统

phpstorm jetbrain 配置review code

React 中事件机制详细介绍：概念与执行流程如何更好的理解

软件测试 —— 自动化测试（Selenium）

element-ui dialog弹窗设置点击空白处不关闭

【Redis】初识Redis

机器学习赋能的智能光子学器件系统研究与应用

Spring Boot 项目启动后自动加载系统配置的多种实现方式

202305 青少年软件编程等级考试C/C++ 二级真题答案及解析（电子学会）

本地服务器Docker搭建个人云音乐平台Splayer并实现远程访问告别烦人广告

mapbox进阶，添加绘图控件

NHANES数据挖掘｜特征变量对死亡率预测的研究设计与分析

机器学习之自助法

初识算法和数据结构P1：保姆级图文详解

计算机网络八股文学习笔记