机器学习重要知识点整理
一、数学与理论基础
1. 概率与统计
术语 | 作用 | 使用场景 |
---|
概率分布 | 描述随机变量的取值概率,如正态分布、二项分布。 | 数据建模(如高斯分布假设)、生成模型(如贝叶斯网络)。 |
贝叶斯定理 | 计算条件概率,更新先验知识以获得后验概率。 | 贝叶斯分类器、文本分类(如垃圾邮件检测)。 |
最大似然估计(MLE) | 通过数据最大化似然函数,估计模型参数。 | 线性回归、逻辑回归参数估计。 |
假设检验 | 判断假设是否成立(如t检验、卡方检验)。 | 特征重要性检验、模型效果显著性验证。 |
2. 线性代数
术语 | 作用 | 使用场景 |
---|
矩阵运算 | 线性变换、特征提取的基础。 | 神经网络权重计算、PCA降维。 |
特征值分解(EVD) | 分解矩阵,提取关键特征方向。 | PCA降维、图像压缩。 |
奇异值分解(SVD) | 将矩阵分解为正交基,用于降维和去噪。 | 推荐系统(如Netflix评分预测)、文本分析。 |
3. 优化理论
术语 | 作用 | 使用场景 |
---|
梯度下降 | 通过迭代调整参数,最小化损失函数。 | 神经网络训练、线性回归优化。 |
凸优化 | 寻找凸函数的全局最小值,保证收敛性。 | Lasso/Ridge回归、支持向量机(SVM)。 |
损失函数 | 量化模型预测与真实值的差异,指导参数优化。 | 均方误差(回归)、交叉熵(分类)、Hinge损失(SVM)。 |
二、监督学习算法
1. 回归算法
术语 | 作用 | 使用场景 |
---|
线性回归 | 建立输入特征与连续目标变量的线性关系。 | 房价预测、销售额预测。 |
岭回归(Lasso/Ridge) | 通过L1/L2正则化防止过拟合,选择关键特征。 | 高维数据(如基因表达分析)的特征选择。 |
2. 分类算法
术语 | 作用 | 使用场景 |
---|
逻辑回归 | 通过Sigmoid函数将线性输出映射到概率,用于二分类。 | 疾病诊断(如肿瘤良恶性)、用户点击预测。 |
决策树 | 通过树结构划分特征空间,生成规则。 | 用户流失预测、信用评分(如XGBoost集成)。 |
支持向量机(SVM) | 寻找最优超平面,最大化分类间隔,通过核技巧处理非线性问题。 | 文本分类、图像识别(小样本场景)。 |
3. 集成学习
术语 | 作用 | 使用场景 |
---|
随机森林 | 通过Bagging组合多棵决策树,降低过拟合风险。 | 高维数据分类(如客户分群)、特征重要性分析。 |
梯度提升树(GBDT) | 通过Boosting迭代优化残差,提升模型表现。 | Kaggle竞赛(如房价预测)、金融风控。 |
三、无监督学习算法
1. 聚类
术语 | 作用 | 使用场景 |
---|
K-means | 将数据划分为K个簇,最小化簇内距离。 | 客户分群、图像分割。 |
DBSCAN | 基于密度的聚类,发现任意形状的簇。 | 异常检测(如网络入侵)、地理数据聚类。 |
2. 降维
术语 | 作用 | 使用场景 |
---|
主成分分析(PCA) | 通过线性变换保留最大方差,降低维度。 | 可视化高维数据(如MNIST)、特征压缩。 |
t-SNE | 通过概率相似性保留局部结构,适合可视化。 | 高维数据(如文本、图像)的二维可视化。 |
3. 关联规则
术语 | 作用 | 使用场景 |
---|
Apriori算法 | 发现频繁项集,生成关联规则(如“啤酒与尿布”效应)。 | 购物篮分析、推荐系统(如电商商品搭配)。 |
四、深度学习
1. 网络结构
术语 | 作用 | 使用场景 |
---|
卷积神经网络(CNN) | 通过卷积层提取局部特征,适用于图像数据。 | 图像分类(如ResNet)、目标检测(YOLO)。 |
循环神经网络(RNN) | 处理序列数据,捕捉时间依赖关系。 | 文本生成、语音识别、股票预测。 |
Transformer | 通过自注意力机制处理长序列,提升并行计算效率。 | 机器翻译(如BERT)、自然语言理解。 |
2. 训练与优化
术语 | 作用 | 使用场景 |
---|
反向传播 | 通过链式求导计算梯度,更新网络参数。 | 神经网络训练(如全连接网络、CNN)。 |
Adam优化器 | 自适应学习率,加速收敛。 | 深度学习模型训练(如图像分类、NLP任务)。 |
五、评估与调优
1. 评估指标
术语 | 作用 | 使用场景 |
---|
准确率(Accuracy) | 正确预测占总样本的比例。 | 平衡类别分布的分类问题。 |
精确率(Precision) | 正确预测的正类占预测正类的比例。 | 高代价错误场景(如医疗诊断)。 |
召回率(Recall) | 正确预测的正类占实际正类的比例。 | 需要覆盖所有正类的场景(如欺诈检测)。 |
F1分数 | 精确率和召回率的调和平均,平衡两者。 | 类别不平衡问题(如垃圾邮件检测)。 |
AUC-ROC曲线 | 评估分类器在不同阈值下的性能,面积越大越好。 | 疾病诊断、信用评分。 |
2. 模型调优
术语 | 作用 | 使用场景 |
---|
交叉验证 | 通过分层数据划分,评估模型泛化能力。 | 模型选择(如选择K值)、超参数调优。 |
过拟合/欠拟合 | 模型对训练数据拟合过紧或过松,需通过正则化或数据增强解决。 | 模型诊断(如训练集准确率高但测试集低)。 |
六、数据预处理与特征工程
1. 数据处理
术语 | 作用 | 使用场景 |
---|
标准化/归一化 | 消除量纲差异,加速模型收敛。 | 神经网络、KNN、SVM输入。 |
缺失值填充 | 处理数据缺失,避免模型训练中断。 | 数据清洗(如医疗数据、用户行为日志)。 |
2. 特征工程
术语 | 作用 | 使用场景 |
---|
One-Hot编码 | 将分类特征转换为二进制向量,避免顺序影响。 | 处理类别特征(如颜色、地区)。 |
特征交叉 | 生成交互特征,捕捉非线性关系。 | 广告点击率预测(如用户年龄×广告类型)。 |
七、业务应用
1. 典型场景
术语 | 作用 | 使用场景 |
---|
推荐系统 | 基于用户行为或协同过滤推荐商品,提升转化率。 | 电商(如淘宝)、视频平台(如Netflix)。 |
计算机视觉 | 识别图像/视频中的物体、人脸或场景。 | 安防监控、自动驾驶(如目标检测)、医学影像分析。 |
自然语言处理(NLP) | 将文本转化为结构化信息,用于分类、生成或理解。 | 聊天机器人、舆情分析、机器翻译。 |
2. 业务挑战
术语 | 作用 | 使用场景 |
---|
数据不平衡 | 处理类别分布不均(如欺诈交易占0.1%),避免模型偏向多数类。 | 金融风控、医疗诊断。 |
可解释性 | 解释模型决策逻辑,符合业务逻辑和法规要求。 | 信贷审批、医疗诊断(需符合法规)。 |
八、理论与扩展
1. 核心理论
术语 | 作用 | 使用场景 |
---|
VC维 | 衡量模型复杂度,防止过拟合。 | 理论分析模型泛化能力。 |
信息论 | 通过熵、互信息量化信息,指导特征选择。 | 特征重要性评估(如决策树分裂准则)。 |
2. 扩展方向
术语 | 作用 | 使用场景 |
---|
强化学习 | 通过试错学习策略,最大化长期奖励。 | 游戏AI(如AlphaGo)、机器人控制。 |
联邦学习 | 在分布式数据上训练模型,保护隐私。 | 医疗数据合作、跨机构推荐系统。 |
总结
以上术语覆盖了机器学习的核心概念,从数学基础到算法实现、评估优化,再到业务应用。学习时需结合 数学原理(如概率论、优化理论)、算法实现(如代码实践)和 业务场景(如数据特征、业务目标),才能全面掌握机器学习的理论与实践。