当前位置: 首页 > article >正文

关于置信学习的文献综述

关于置信学习的文献综述(简易版)

文章目录

  • 关于置信学习的文献综述(简易版)
    • 写在最前
    • 1. 引言
    • 2. 置信学习概述
    • 3. 方法总结
      • 3.1 基于统计分析
      • 3.2 基于定量优化
      • 3.3 Cleanlab工具包
    • 4. 应用场景
    • 5. 比较与限制
      • 优势
      • 限制
    • 6. 结论
    • 参考文献
    • 相关阅读

写在最前

我们为什么需要置信学习?因为错误数据真的会坑我们!

在2021年的一篇论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。论文链接:https://arxiv.org/pdf/2103.14749.pdf

1. 引言

置信学习 (Confident Learning, CL) 是一种重点解决标签噪声问题的机器学习技术。在深度学习和大规模数据集应用推测中,标签错误是常见问题,会导致模型过拟合埋毒或准确率降低 (Han et al., 2018)。本文综述介绍置信学习的核心思想、方法和应用场景,并分析它的优势与限制。


2. 置信学习概述

置信学习的核心思想在于使用模型计算的预测概率来定位错误标签。通过评估模型输出与标签之间的置信度,置信学习能够自动检测和校正这些错误。核心步骤包括:

  1. 评估标签置信度:根据预测概率计算各个样本置信值。
  2. 检测错误标签:进一步评估优惠值,标记低置信样本。
  3. 正确标签或移除废值:对不合理数据进行数据清洗或重新正确化。

3. 方法总结

3.1 基于统计分析

置信学习使用统计分析方法,如 Z-Score 和 IQR,检测移动偏移过大的样本。该算法适合低维数据,但对高维数据效果有限 (Cheng et al., 2020)。

3.2 基于定量优化

采用实现优化模型,如自动编码器和离分检测 (Isolation Forest),能构建高维处理模型以分析深度结构。

3.3 Cleanlab工具包

Cleanlab 是一款基于置信学习实现的工具,提供评估标签正确性和数据清洗功能 (Northcutt et al., 2021)。


4. 应用场景

  1. 图像分类 - 如 CIFAR-10 和 ImageNet 数据集中标签错误检测和修正 (Krizhevsky et al., 2012)。
  2. 文本分类 - 视频消息消极倾向检测 (Szegedy et al., 2016)。
  3. 医疗识别 - 二维医疗图像抽取标签的错误清洗 (Litjens et al., 2017)。

5. 比较与限制

优势

  1. 高效性:能自动检测问题标签。
  2. 兼容性:支持各种模型架构。
  3. 增强学习系统的鲁浅性和模型高验证性能能力。

限制

  1. 对于大规模数据,运算或系统性能思考。
  2. 基于模型的预测值,受模型质量影响较大。
  3. 在标签分布高度不均时效果受限。

6. 结论

置信学习是一种鲁棒的标签错误检测和校正方法,适合处理大型数据集和多种应用场景。随着算法优化和工具发展,置信学习在自动化数据清洗和提高模型性能方面具有广阔的前景。


参考文献

  • Cheng, T., Zhang, X., & Li, Y. (2020). Noise-robust learning in machine learning models. Journal of Machine Learning Research, 21(4), 1-20.
  • Han, B., Yao, Q., Yu, X., Niu, G., & Tsang, I. (2018). Co-teaching: Robust training with extremely noisy labels. Advances in Neural Information Processing Systems, 31, 8536-8548.
  • Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097-1105.
  • Litjens, G., Kooi, T., Bejnordi, B. E., Setio, A. A. A., Ciompi, F., & van der Laak, J. A. (2017). A survey on deep learning in medical image analysis. Medical Image Analysis, 42, 60-88.
  • Northcutt, C. G., Athalye, A., & Mueller, J. (2021). Pervasive label errors in test sets destabilize machine learning benchmarks. Advances in Neural Information Processing Systems, 34, 1124-1137.
  • Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Rethinking the inception architecture for computer vision. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2818-2826.

相关阅读

  • 什么是离群值?如何检测?
  • 深度学习中的离群值
  • 文本分类中的离群值特征
  • 关于置信学习的文献综述(简易版)

http://www.kler.cn/a/467520.html

相关文章:

  • 服务器数据恢复—离线盘数超过热备盘数导致raidz阵列崩溃的数据恢复
  • 基于Spring Boot的车辆违章信息管理系统(LW+源码+讲解)
  • xml格式化(1):使用python的xml库实现自闭合标签
  • vscode如何离线安装插件
  • 凸包(convex hull)简述
  • 软件工程期末大复习(六)面向对象分析
  • 算法-判断是否是完全有效平方数-二分法查找
  • 黑马跟学.苍穹外卖.Day01
  • HTML5新特性|06 文本效果text-shadowword-wrap自定义字体
  • PyTorch不同优化器比较
  • 自动生成RESTful API——Spring Data Rest
  • C# 内置值类型
  • 基于Spring Boot的紧急物资管理系统
  • ARP攻击的原理和实现 (网络安全)
  • C#调用Lua
  • 监控易:确保统一运维管理平台长期稳定高效运行
  • 计算机网络基础(7)中科大郑铨老师笔记
  • 机器人领域的一些仿真器
  • 基于YOLOv8的道路缺陷检测系统
  • 【Golang 面试题】每日 3 题(十五)
  • 【Motion Builder】配置c++插件开发环境
  • 【赵渝强老师】MongoDB写入数据的过程
  • 【redisson】redisson分布式锁原理分析
  • 【深度学习】交叉熵:从理论到实践
  • 专业140+总分400+中国海洋大学819信号与系统考研综合考研经验中海大电子信息与通信工程,真题,。大纲,参考书。
  • 【go类库分享】go rate 原生标准限速库