当前位置：首页 > article >正文

3、部分图 Partial Plots

article 2025/3/22 15:54:54

每个特征如何影响您的预测？

文章目录

1、部分依赖图
2、工作原理
3、代码示例
4、2D 部分依赖图

1、部分依赖图

特征重要性显示哪些变量最影响预测，而部分依赖图显示一个特征如何影响预测。

这对回答以下问题非常有用：

在控制所有其他房屋特征的情况下，经度和纬度对房价有什么影响？换句话说，相似大小的房屋在不同区域的定价会有何不同？
两个群体之间的预测健康差异是由其饮食差异引起的，还是由其他因素引起的？

如果你对线性回归或逻辑回归比较熟悉的话，部分依赖图起到的效果跟这些模型里面的参数差不多。但是，与简单模型中的参数相比，复杂模型上的依赖图可以捕捉到更复杂的模式。我们将展示一些例子，解释这些图的解释，并回顾创建这些图的代码。

2、工作原理

与排列重要性类似，偏依赖图是在模型拟合后计算的。 模型是在真实数据上拟合的，这些数据在任何方面都没有被人为操纵过。

在我们的足球示例中，球队可能在许多方面有所不同。例如，他们传球的次数，射门的次数，进球的次数等。乍一看，似乎很难分离这些特征的影响。

为了了解偏依赖图如何将每个特征的效果分离出来，我们首先考虑单行数据。例如，该数据行可能表示一支球队在比赛中占据球权50％的时间，传球100次，射门10次，进球1次。

我们将使用拟合的模型来预测我们的结果（球员是否获得“本场最佳”），但是我们反复改变一个变量的值以进行一系列预测。我们可以预测球队只占据40％的比赛时间的结果。然后预测球队占据50％的比赛时间的结果。然后再预测占据60％的比赛时间的结果，依此类推。我们沿着小球权值到大球权值的方向描绘出预测结果（在纵轴上），从而观察其变化（在横轴上）。

在这个描述中，我们仅使用了单行数据。特征之间的相互作用可能导致单行的图表是非典型的。因此，我们用来自原始数据集的多个行进行多次实验，并在纵轴上绘制平均预测结果。

3、代码示例

在这里，重点不是建模过程，所以在下面的代码中，不会有过多数据探索和建模的内容。

In [1]:

import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier

data = pd