AWS AI学习笔记:机器学习的模式及选择
AI系列文章:
AWS AI认证考试中经常提及几个重要的工具介绍
简单理解机器学习中top_k、top_p、temperature三个参数的作用
用Deepseek + Kimi 快速生成高质量的ppt
机器学习(Machine Learning, ML)的模式可以根据学习方式、任务类型和应用场景进行分类。以下是主要的机器学习模式及其核心特点:
一、按学习方式分类
1. 监督学习(Supervised Learning)
- 特点:使用带标签的数据(输入-输出对)训练模型,模型学习从输入到输出的映射关系。
- 典型算法:
- 回归:线性回归、决策树回归。
- 分类:逻辑回归、支持向量机(SVM)、随机森林、神经网络。
- 应用场景:房价预测、垃圾邮件分类、图像识别。
2. 无监督学习(Unsupervised Learning)
- 特点:数据无标签,模型自行发现数据中的模式或结构。
- 典型算法:
- 聚类:K-Means、层次聚类、DBSCAN。
- 降维:PCA(主成分分析)、t-SNE。
- 关联规则:Apriori。
- 应用场景:客户分群、异常检测、推荐系统。
3. 半监督学习(Semi-Supervised Learning)
- 特点:结合少量带标签数据和大量无标签数据训练模型。
- 典型算法:标签传播(Label Propagation)、半监督SVM。
- 应用场景:医学图像分析(标注成本高)、网页分类。
4. 强化学习(Reinforcement Learning, RL)
- 特点:模型通过与环境交互获得奖励信号,学习最优策略。
- 核心要素:智能体(Agent)、环境(Environment)、奖励(Reward)。
- 典型算法:Q-Learning、深度强化学习(DQN)、策略梯度(PPO)。
- 应用场景:自动驾驶、游戏AI(如AlphaGo)、机器人控制。
5. 自监督学习(Self-Supervised Learning)
- 特点:从无标签数据中自动生成伪标签进行训练(属于无监督学习的子集)。
- 典型方法:对比学习(Contrastive Learning)、掩码语言模型(如BERT)。
- 应用场景:自然语言处理(NLP)、计算机视觉预训练。
二、按任务类型分类
1. 分类(Classification)
- 预测离散类别(如猫/狗、垃圾邮件/正常邮件)。
- 算法:逻辑回归、随机森林、神经网络。
2. 回归(Regression)
- 预测连续值(如房价、温度)。
- 算法:线性回归、决策树回归、高斯过程。
3. 聚类(Clustering)
- 将数据分组(如用户分群、社区发现)。
- 算法:K-Means、谱聚类。
4. 生成任务(Generation)
- 生成新数据(如图像、文本)。
- 算法:生成对抗网络(GAN)、变分自编码器(VAE)、扩散模型。
5. 异常检测(Anomaly Detection)
- 识别异常数据点(如欺诈交易)。
- 算法:孤立森林(Isolation Forest)、One-Class SVM。
三、按模型结构分类
1. 传统机器学习模型
- 基于统计或浅层结构(如SVM、决策树、贝叶斯网络)。
2. 深度学习模型
- 基于多层神经网络:
- 卷积神经网络(CNN):图像处理。
- 循环神经网络(RNN):时序数据(如文本、语音)。
- Transformer:NLP(如GPT、BERT)、多模态任务。
3. 集成学习(Ensemble Learning)
- 结合多个模型提升性能:
- Bagging:随机森林。
- Boosting:XGBoost、LightGBM。
- Stacking:多层模型融合。
四、其他高级模式
-
迁移学习(Transfer Learning)
- 将预训练模型迁移到新任务(如用ImageNet预训练的CNN做医学图像分类)。
-
联邦学习(Federated Learning)
- 分布式训练,保护数据隐私(如手机输入法词库更新)。
-
元学习(Meta-Learning)
- “学会学习”(Learning to Learn),快速适应新任务(如小样本学习)。
-
在线学习(Online Learning)
- 数据流式输入,模型实时更新(如广告点击率预测)。
五、选择模式的依据
- 数据量:小数据可用传统模型,大数据适合深度学习。
- 标签有无:有标签用监督学习,无标签用无监督/自监督。
- 任务需求:分类、生成或决策(强化学习)。
- 实时性:在线学习 vs 批量训练。
总结
机器学习的模式多样,实际应用中常需结合多种方法(如用无监督学习预处理数据,再用监督学习训练模型)。理解这些模式的差异是设计高效ML系统的关键!