当前位置：首页 > article >正文

多参数训练Isolation Forest

article 2025/2/28 15:49:05

如果你要使用两个指标作为入参训练 Isolation Forest 模型，你需要将这两个指标合并成一个特征向量，然后将这个特征向量作为模型的输入。具体来说，你需要将每个数据点的两个指标组合成一个二元组，然后将这些二元组组成一个矩阵，作为模型的输入数据。

以下是一个示例代码，展示了如何将两个指标合并成一个特征向量，并使用 Isolation Forest 模型对数据进行训练和预测：

import pandas as pd
from sklearn.ensemble import IsolationForest

# 假设我们有一个数据集 data，包含了两个指标 'x' 和 'y'，以及一个标签 'label'
data = pd.DataFrame({
    'x': [1.0, 2.0, 3.0, 4.0, 5.0],
    'y': [10.0, 20.0, 30.0, 40.0, 50.0],
    'label': [1, 1, 1, -1, -1]
})

# 将 'x' 和 'y' 合并成一个特征向量 'xy'
data['xy'] = list(zip(data['x'], data['y']))

# 将标签 'label' 转换成 -1 和 1，以符合 Isolation Forest 模型的要求
data['label'] = data['label'].apply(lambda x: -1 if x == -1 else 1)

# 创建 Isolation Forest 模型，并使用数据进行训练
model = IsolationForest(n_estimators=100, max_samples='auto', contamination=0.1)
model.fit(data['xy'].tolist(), data['label'])

# 使用训练好的模型进行预测
new_data = pd.DataFrame({'x': [6.0], 'y': [60.0]})
new_data['xy'] = list(zip(new_data['x'], new_data['y']))
prediction = model.predict(new_data['xy'].tolist())
if prediction[0] == -1:
    print("新的观测值是异常值")
else:
    print("新的观测值是正常值")