当前位置: 首页 > article >正文

【机器学习】聚类评价指标之福尔克斯–马洛斯指数(Fowlkes–Mallows Index, FMI)

福尔克斯–马洛斯指数Fowlkes–Mallows Index, FMI)是一种用于评估聚类结果与实际标签之间一致性的指标。FMI 值可以用于衡量聚类的准确性,特别是在有真值标签的监督评估场景中。

计算公式

FMI 的计算基于以下公式:

其中:

  • TP(True Positive):聚类中正确地将同一类别的样本分到同一簇的对数。
  • FP(False Positive):聚类中错误地将不同类别的样本分到同一簇的对数。
  • FN(False Negative):聚类中错误地将同一类别的样本分到不同簇的对数。

FMI 是基于样本对(pairwise)的评价方法,它考虑了聚类结果与实际标签在配对样本之间的一致性。


FMI 的取值范围

  • FMI∈[0,1]
  • 值越接近 1,表示聚类结果与实际标签越一致。
  • 值越接近 0,表示聚类结果与实际标签基本无关。

优点

  1. 平衡性:FMI 通过结合精确率(Precision)和召回率(Recall)的平方根,能够综合反映聚类的性能。
  2. 可解释性强:与常见的分类指标类似,易于理解和分析。
  3. 适用于有标签数据:特别适用于监督学习场景下的聚类结果评估。

缺点

  1. 对类别不平衡敏感:当数据的类别分布不均衡时,FMI 的结果可能会受到影响。
  2. 计算成本较高:在大规模数据集上,由于需要计算所有样本对之间的关系,计算开销可能较大。

应用场景

  • 聚类性能评估:用于评价聚类算法在有真值标签数据集上的性能。
  • 多模态数据对齐:在多模态单细胞分析中,FMI 可用于衡量不同模态数据对齐结果的优劣。
  • 模型比较:在聚类算法的对比实验中,FMI 常作为关键评估指标之一。

常见的有监督评价方式

以下是一些典型的有监督聚类评价指标及其特点:

  1. 调整兰德指数(ARI, Adjusted Rand Index): 衡量两个聚类(算法结果 vs. 真值标签)的一致性,调整了随机聚类带来的影响。

  2. 归一化互信息(NMI, Normalized Mutual Information): 测量聚类结果与真值标签之间的信息共享,值越大表明聚类质量越高。

  3. 聚类准确率(CA, Clustering Accuracy): 简单地计算聚类结果与真值标签匹配的准确率。

  4. 福尔克斯–马洛斯指数(FMI, Fowlkes-Mallows Index): 衡量聚类中同类点和异类点的正确划分比例,尤其对簇大小不平衡问题敏感。


聚类评价中的注意事项

  1. 真值标签的质量: 如果“真值”标签本身不可靠(如细胞类型标签的分类标准主观性较强),则评价结果可能存在偏差。

  2. 不依赖标签的无监督评价: 除了上述有监督指标,还可以采用无监督指标,如轮廓系数(Silhouette Coefficient)或聚类内的平方误差(SSE),来评价聚类效果。

  3. 真实应用场景: 在实际无标注场景中,我们无法依赖有监督指标,这时需要结合领域知识或其他方式验证聚类的意义。


http://www.kler.cn/a/504041.html

相关文章:

  • 软件设计模式的原则
  • Windows service运行Django项目
  • 浅谈云计算12 | KVM虚拟化技术
  • rtthread学习笔记系列(4/5/6/7/15/16)
  • 使用VSCode搭建Ruby on Rails集成开发环境
  • 当当网热销书籍数据采集与可视化分析
  • 说一说mongodb组合索引的匹配规则
  • 从github上,下载的android项目,从0-1进行编译运行-踩坑精力,如何进行部署
  • 65.在 Vue 3 中使用 OpenLayers 绘制带有箭头的线条
  • 伏羲1.0试用版(文生图)
  • 【软件工程】知识点总结(下)
  • 基于python的舆情监测管理系统
  • phpstorm jetbrain 配置review code
  • React 中事件机制详细介绍:概念与执行流程如何更好的理解
  • 软件测试 —— 自动化测试(Selenium)
  • element-ui dialog弹窗 设置点击空白处不关闭
  • 【Redis】初识Redis
  • 机器学习赋能的智能光子学器件系统研究与应用
  • Spring Boot 项目启动后自动加载系统配置的多种实现方式
  • 202305 青少年软件编程等级考试C/C++ 二级真题答案及解析(电子学会)
  • 本地服务器Docker搭建个人云音乐平台Splayer并实现远程访问告别烦人广告
  • mapbox进阶,添加绘图控件
  • NHANES数据挖掘|特征变量对死亡率预测的研究设计与分析
  • 机器学习之自助法
  • 初识算法和数据结构P1:保姆级图文详解
  • 计算机网络八股文学习笔记