当前位置：首页 > article >正文

机器学习面试题（9月3日笔记）

article 2025/1/19 11:14:56

1.介绍ROC曲线

横坐标为假阳性率（False Positive Rate，FPR）；纵坐标为真阳性率（True Positive Rate，TPR）
FPR = FP / N
TPR = TP / P
其中P是真实的正样本的数量，N是真实的负样本的数量，TP是P个正样本中被分类器预测为正样本的个数，FP是N个负样本中被预测为正样本的个数。

绘制ROC曲线：通过不断移动分类器的“截断点”来生成曲线上的一组关键点。在二分类问题中，模型输出一般是预测样本为正例的概率，在输出最终的正例负例之前，我们需要制定一个阈值。大于该阈值的样本判定为正例，小于该阈值的样本判定为负例。通过动态调整截断点，绘制每个截断点对应位置，再连接所有点得到最终的ROC曲线。

2. 误差分析是什么？如何进行误差分析？

误差分析：通过训练误差和测试误差来分析模型是否存在高方差、高偏差。

如果训练误差较高：说明模型的偏差较大，模型出现了欠拟合。
如果训练误差较低，而测试误差较高：说明模型的方差较大，出现了过拟合。
如果训练误差较低，测试误差也较低：说明模型的方差和偏差都适中，是一个比较理想的模型。
如果训练误差较高，且测试误差更高：说明模型的方差和偏差都较大。

3. 简单讲解SVM模型原理？

支持向量机是一种二类分类模型，它的基本模型是是定义在特征空间的间隔最大的线性分类器，间隔最大，间隔最大使它有别于感知机；支持向量机还包括核技巧，这使它成为实质上的非线性分类器。支持向量机的学习策略是间隔最大化，可形式化为求解凸二次规划的问题，也等价于正则化的合页损失函数最小化问题。

线性可分支持向量机：当训练数据线性可分，通过硬间隔最大化，学习一个线性的分类器
线性支持向量机：当训练数据近似线性可分，通过软间隔最大化，学习一个线性的分类器
非线性支持向量机：当训练数据线性不可分，通过使用核技巧及软间隔最大化，学习非线性分类器

4. 决策树的建树过程

自上而下，对样本数据进行树形分类的过程。每个内部节点表示一个特征，叶节点表示一个类别。从顶部根节点开始，所有的样本聚在一起。经过根节点的划分，样本被分到不同的子节点，再根据子节点的特征进一步划分，直至所有样本被归到某一个类别（叶节点）中。

5.如何评判模型是过拟合还是欠拟合？遇到过拟合或欠拟合时，如何解决？

过拟合是指学习时选择的模型所包含的参数过多，以至出现这一模型对已知数据预测得很好，但对未知数据预测得很差的现象
当训练集效果差，欠拟合（如accurarcy<0.8）；训练集效果好，测试集效果差，过拟合
欠拟合解决方法：
   增加特征
   提高模型复杂度：神经网络提高神经元数、增加层数；SVM使用核函数
   减小正则项的系数
过拟合解决方法：
   提高样本数量：神经网络——Data Augmentation（数据增强）
   简化模型：神经网络使用Dropout、Early Stopping；决策树剪枝、限制树的深度
   加入正则化项或提高惩罚系数
   使用集成学习
   标签平滑

6. 奥卡姆剃刀定律是什么？对机器学习模型优化有何启发？举例说明

奥卡姆剃刀定律：若有多个假设与观察一致，则选最简单的那个
奥卡姆剃刀原理应用于模型选择时变为以下想法：在所有可能选择的模型中，能够很好地解释已知数据并且十分简单才是最好的，也就是应该选择的模型。

从贝叶斯估计的角度来看，正则化项对应于模型的先验概率。可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

7. GDBT是否对异常值敏感，为什么？