当前位置：首页 > article >正文

【Gaussian Model】高斯分布模型

article 2025/3/9 20:27:45

高斯分布模型用于异常检测（Gaussian Model for Anomaly Detection）
1. 高斯分布简介
2. 高斯分布模型用于异常检测
- (1) 训练阶段：估计数据分布
- (2) 检测阶段：计算概率判断异常点
3. 示例代码
4. 高斯分布异常检测的优缺点
- 优点
- 缺点
5. 适用场景
6. 结论

高斯分布模型用于异常检测（Gaussian Model for Anomaly Detection）

在数据分析和机器学习任务中，异常检测（Anomaly Detection） 是一个重要的应用领域，例如欺诈检测、设备故障预测、网络安全等。高斯分布模型（Gaussian Model）是一种基于统计学的经典无监督学习方法，适用于异常检测任务。本文将介绍高斯分布模型的基本原理、如何用于异常检测，以及其优势和局限性。

1. 高斯分布简介

高斯分布（又称正态分布）是最常见的概率分布之一，具有对称性和钟形曲线的特点。对于一维数据 $x$ ，其概率密度函数（PDF）定义如下：

$\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(x - \mu)^2}{2\sigma^2} \right)$

其中：

$\mu$ 为均值，表示数据的中心位置。
$\sigma^2$ 为方差，表示数据的离散程度。

在多维情况下（特征维度为 $n$ ），数据服从多元正态分布，概率密度函数如下：

$\frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left(-\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) \right)$

其中：

$\in \mathbb{R}^n$ 是一个 $n$ 维特征向量。
$\mu \in \mathbb{R}^n$ 是均值向量。
$\Sigma$ 是 $\times n$ 维协方差矩阵，描述各特征之间的相关性。

2. 高斯分布模型用于异常检测

(1) 训练阶段：估计数据分布

我们假设正常数据服从高斯分布，并通过最大似然估计（MLE, Maximum Likelihood Estimation） 来估计均值 $\mu$ 和方差 $\sigma^2$ （或协方差矩阵 $\Sigma$ ）。

给定一个训练数据集 $\{x_1, x_2, \dots, x_m\}$ ，每个样本具有 $n$ 个特征，均值和方差的估计公式如下：

均值（对每个特征计算）：

$\mu_j = \frac{1}{m} \sum_{i=1}^{m} x_{i,j}$

方差（对每个特征计算）：

$\sigma_j^2 = \frac{1}{m} \sum_{i=1}^{m} (x_{i,j} - \mu_j)^2$

协方差矩阵（用于多元正态分布）：

$\Sigma = \frac{1}{m} \sum_{i=1}^{m} (x_i - \mu)(x_i - \mu)^T$

(2) 检测阶段：计算概率判断异常点

对于新样本 $x_{\text{new}}$ ，计算其在估计出的高斯分布下的概率 $p(x_{\text{new}})$ ，如果概率低于设定的阈值 $\epsilon$ ，则判断为异常点：

$p(x_{\text{new}}) < \epsilon \Rightarrow x_{\text{new}} \text{ 是异常点}$

通常， $\epsilon$ 可以通过 验证集（Validation Set） 或经验设定。

3. 示例代码

我们用 Python 实现一个简单的高斯分布异常检测模型：


import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import multivariate_normal

# 生成二维正态分布数据（正常样本）
np.random.seed(0)
X_train = np.random.multivariate_normal(mean=[5, 5], cov=[[1, 0.5], [0.5, 1]], size=200)

# 计算均值和协方差
mu = np.mean(X_train, axis=0)
sigma = np.cov(X_train.T)

# 计算新样本的概率
def anomaly_score(x, mu, sigma):
return multivariate_normal(mean=mu, cov=sigma).pdf(x)

# 生成新样本
X_test = np.array([[8, 8], [5, 5], [2, 2]])

# 计算概率并判断是否为异常
threshold = 0.01 # 设定阈值
for x in X_test:
p = anomaly_score(x, mu, sigma)
print(f"Sample {x} -> Probability: {p:.6f} {'(Anomaly)' if p < threshold else '(Normal)'}")

# 绘制数据分布
x, y = np.mgrid[2:8:.1, 2:8:.1]
pos = np.dstack((x, y))
rv = multivariate_normal(mu, sigma)
plt.contourf(x, y, rv.pdf(pos), levels=50, cmap='Blues')
plt.scatter(X_train[:, 0], X_train[:, 1], marker='o', label="Normal Data")
plt.scatter(X_test[:, 0], X_test[:, 1], marker='x', c='red', label="Test Samples")
plt.legend()
plt.title("Gaussian Model for Anomaly Detection")
plt.show()