关于置信学习的文献综述
关于置信学习的文献综述(简易版)
文章目录
- 关于置信学习的文献综述(简易版)
- 写在最前
- 1. 引言
- 2. 置信学习概述
- 3. 方法总结
- 3.1 基于统计分析
- 3.2 基于定量优化
- 3.3 Cleanlab工具包
- 4. 应用场景
- 5. 比较与限制
- 优势
- 限制
- 6. 结论
- 参考文献
- 相关阅读
写在最前
我们为什么需要置信学习?因为错误数据真的会坑我们!
在2021年的一篇论文中,麻省理工 CSAIL 和亚马逊的研究者对 10 个主流机器学习数据集的测试集展开了研究,发现它们的平均错误率竟高达 3.4%。其中,最有名的 ImageNet 数据集的验证集中至少存在 2916 个错误,错误率为 6%;QuickDraw 数据集中至少存在 500 万个错误,错误率为 10%。论文链接:https://arxiv.org/pdf/2103.14749.pdf
1. 引言
置信学习 (Confident Learning, CL) 是一种重点解决标签噪声问题的机器学习技术。在深度学习和大规模数据集应用推测中,标签错误是常见问题,会导致模型过拟合埋毒或准确率降低 (Han et al., 2018)。本文综述介绍置信学习的核心思想、方法和应用场景,并分析它的优势与限制。
2. 置信学习概述
置信学习的核心思想在于使用模型计算的预测概率来定位错误标签。通过评估模型输出与标签之间的置信度,置信学习能够自动检测和校正这些错误。核心步骤包括:
- 评估标签置信度:根据预测概率计算各个样本置信值。
- 检测错误标签:进一步评估优惠值,标记低置信样本。
- 正确标签或移除废值:对不合理数据进行数据清洗或重新正确化。
3. 方法总结
3.1 基于统计分析
置信学习使用统计分析方法,如 Z-Score 和 IQR,检测移动偏移过大的样本。该算法适合低维数据,但对高维数据效果有限 (Cheng et al., 2020)。
3.2 基于定量优化
采用实现优化模型,如自动编码器和离分检测 (Isolation Forest),能构建高维处理模型以分析深度结构。
3.3 Cleanlab工具包
Cleanlab 是一款基于置信学习实现的工具,提供评估标签正确性和数据清洗功能 (Northcutt et al., 2021)。
4. 应用场景
- 图像分类 - 如 CIFAR-10 和 ImageNet 数据集中标签错误检测和修正 (Krizhevsky et al., 2012)。
- 文本分类 - 视频消息消极倾向检测 (Szegedy et al., 2016)。
- 医疗识别 - 二维医疗图像抽取标签的错误清洗 (Litjens et al., 2017)。
5. 比较与限制
优势
- 高效性:能自动检测问题标签。
- 兼容性:支持各种模型架构。
- 增强学习系统的鲁浅性和模型高验证性能能力。
限制
- 对于大规模数据,运算或系统性能思考。
- 基于模型的预测值,受模型质量影响较大。
- 在标签分布高度不均时效果受限。
6. 结论
置信学习是一种鲁棒的标签错误检测和校正方法,适合处理大型数据集和多种应用场景。随着算法优化和工具发展,置信学习在自动化数据清洗和提高模型性能方面具有广阔的前景。
参考文献
- Cheng, T., Zhang, X., & Li, Y. (2020). Noise-robust learning in machine learning models. Journal of Machine Learning Research, 21(4), 1-20.
- Han, B., Yao, Q., Yu, X., Niu, G., & Tsang, I. (2018). Co-teaching: Robust training with extremely noisy labels. Advances in Neural Information Processing Systems, 31, 8536-8548.
- Krizhevsky, A., Sutskever, I., & Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. Advances in Neural Information Processing Systems, 25, 1097-1105.
- Litjens, G., Kooi, T., Bejnordi, B. E., Setio, A. A. A., Ciompi, F., & van der Laak, J. A. (2017). A survey on deep learning in medical image analysis. Medical Image Analysis, 42, 60-88.
- Northcutt, C. G., Athalye, A., & Mueller, J. (2021). Pervasive label errors in test sets destabilize machine learning benchmarks. Advances in Neural Information Processing Systems, 34, 1124-1137.
- Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., & Wojna, Z. (2016). Rethinking the inception architecture for computer vision. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2818-2826.
相关阅读
- 什么是离群值?如何检测?
- 深度学习中的离群值
- 文本分类中的离群值特征
- 关于置信学习的文献综述(简易版)