当前位置：首页 > article >正文

机器学习--学习计划

article 2025/2/4 17:05:21

基于「28原则」，聚焦机器学习20%的核心概念，覆盖80%的常见应用场景。计划分为 理论学习 + 项目实战，每周学习后通过5个递进项目巩固知识。

学习目标：掌握数据预处理、线性模型与分类任务的基础流程。
核心概念（20%关键内容）：

学习资源：

房价预测（线性回归）
- 目标：使用波士顿房价数据集，预测房屋价格。
- 强化概念：数据清洗、特征缩放、线性回归实现。
- 数据集：sklearn.datasets.load_boston()
鸢尾花分类（逻辑回归）
- 目标：根据花瓣/花萼尺寸分类鸢尾花品种。
- 强化概念：分类任务、独热编码、混淆矩阵。
- 数据集：sklearn.datasets.load_iris()
糖尿病预测（特征工程）
- 目标：处理缺失值，预测患者是否患糖尿病。
- 强化概念：缺失值处理、特征相关性分析。
- 数据集：Pima Indians Diabetes Dataset（Kaggle）
手写数字识别（多分类）
- 目标：识别MNIST数据集中的手写数字（0-9）。
- 强化概念：多分类逻辑回归、One-vs-All策略。
- 数据集：sklearn.datasets.load_digits()
新闻分类（文本特征提取）
- 目标：将新闻文本分类为体育、科技等类别。
- 强化概念：TF-IDF向量化、稀疏矩阵处理。
- 数据集：sklearn.datasets.fetch_20newsgroups()

学习目标：掌握树模型、模型调参与交叉验证，避免过拟合。
核心概念：

学习资源：

泰坦尼克生存预测（决策树）
- 目标：预测乘客是否幸存，处理混合型特征（数值+分类）。
- 强化概念：决策树可视化、特征重要性分析。
- 数据集：Titanic Dataset（Kaggle）
信用卡欺诈检测（类别不平衡）
- 目标：检测欺诈交易，使用过采样（SMOTE）或欠采样。
- 强化概念：精确率/召回率权衡、ROC曲线。
- 数据集：Credit Card Fraud Detection（Kaggle）
房价预测优化（随机森林）
- 目标：对比线性回归与随机森林性能，优化超参数。
- 强化概念：网格搜索（GridSearchCV）、MSE对比。
用户流失预测（梯度提升树）
- 目标：预测用户是否会流失，使用XGBoost或LightGBM。
- 强化概念：Boosting原理、早停法（Early Stopping）。
- 数据集：Telco Customer Churn（Kaggle）
模型部署实战（Flask API）
- 目标：将训练好的模型封装为API，实现实时预测。
- 强化概念：模型序列化（Pickle）、RESTful API设计。

学习目标：理解聚类、降维与神经网络基础。
核心概念：

学习资源：

客户分群（K-Means）
- 目标：对电商用户进行分群，制定个性化营销策略。
- 强化概念：聚类评估（轮廓系数）、特征标准化。
- 数据集：Mall Customer Segmentation（Kaggle）
新闻主题挖掘（PCA降维）
- 目标：对新闻文本降维后可视化，发现潜在主题。
- 强化概念：PCA原理、二维/三维投影。
手写数字识别（全连接网络）
- 目标：用Keras构建神经网络，替代逻辑回归模型。
- 强化概念：损失函数（交叉熵）、优化器（Adam）。
猫狗分类（CNN入门）
- 目标：使用预训练的CNN模型（如VGG16）进行图像分类。
- 强化概念：迁移学习、数据增强（ImageDataGenerator）。
- 数据集：Dogs vs. Cats（Kaggle）
异常检测（自编码器）
- 目标：检测信用卡数据中的异常样本。
- 强化概念：自编码器原理、重构误差阈值。