【机器学习】基础知识:SSR-残差平方和(Sum of Squared Residuals)
1. 概念
残差平方和(SSR,Sum of Squared Residuals)是统计学和回归分析中的一个指标,用于评估模型拟合数据的效果。
它表示数据点与模型预测值之间的差异(即残差)的平方和,公式为:
- :实际值
- :模型预测值
- n:样本数量
2. 残差平方和的意义
- 衡量拟合质量:SSR 越小,说明模型预测值与实际值越接近,拟合效果越好。
- 模型优化目标:许多回归模型(如最小二乘法)通过最小化 SSR 来确定模型参数。
3. 相关指标
-
总平方和(SST, Total Sum of Squares):
反映数据点与平均值之间的总变异。
-
回归平方和(SSR, Sum of Squares for Regression):
反映模型解释的变异。
三者关系为:
- SST:总平方和
- SSR:回归平方和
- SSE:残差平方和
4. Python 示例
计算残差平方和(SSR)的代码:
import numpy as np
from sklearn.linear_model import LinearRegression
# 示例数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([1.1, 1.9, 3.0, 4.2, 5.1]) # 实际值
# 构建线性回归模型
model = LinearRegression()
model.fit(X, y)
y_pred = model.predict(X) # 模型预测值
# 计算残差平方和(SSR)
SSR = np.sum((y - y_pred)**2)
print(f"残差平方和(SSR):{SSR:.4f}")
输出示例:
残差平方和(SSR):0.0430
5. 应用场景
- 线性回归:用来评估模型的拟合程度。
- 模型选择:通过比较不同模型的 SSR,选择拟合效果更好的模型。
- 误差分析:分析残差分布,判断模型是否存在系统误差或其他问题。
6. 总结
残差平方和是衡量回归模型误差的核心指标之一,反映了预测值和实际值之间的差异。它在模型优化和评估中有广泛应用,是数据科学和统计建模的重要工具。