当前位置：首页 > article >正文

回归分析：预测和建模

article 2025/2/21 3:02:23

回归分析：预测和建模

写在开头
1. 回归分析的基本概念
2. 回归分析的方法
- 2.1 简单线性回归
- - 2.1.1 数学知识
  - 2.1.2 应用举例
- 2.2 多元线性回归
- - 2.2.1 数学公式和应用
  - 2.2.1 应用场景举例
- 2.3 多项式回归
- - 2.3.1 数学公式和应用
  - 2.3.2 应用场景举例
- 2.4 逻辑回归
- - 2.4.1 数学公式和应用
  - 2.4.2 应用场景举例
3.模型评估
- 3.1 均方误差（Mean Squared Error，MSE）：
- 3.2 均方根误差（RMSE）：
- 3.3 决定系数（Coefficient of Determination，R²）
- 3.4 平均绝对误差（Mean Absolute Error，MAE）
- 3.5 拟合优度（Goodness of Fit）
- 3.6 交叉验证
写在最后

写在开头

回归分析是数据科学中一项不可或缺的工具，为我们提供了洞察变量之间关系的能力，使我们能够更准确地预测未来趋势并进行有力的建模。在本篇博客中，我们将深入探讨回归分析的核心概念和方法，通过具体场景、实例代码以及深刻的统计学知识，助力读者在预测与建模的复杂领域中游刃有余。

1. 回归分析的基本概念

回归分析旨在探讨一个或多个自变量与因变量之间的关系。其中，自变量是影响因变量的因素，而因变量是我们希望预测或解释的变量。简而言之，回归分析可以帮助我们了解变量之间的相互作用，并用这些关系进行预测。

2. 回归分析的方法

下面是回归分析的一些对比和介绍，可以帮助你更好的理解回归分析。

回归类型	优点	缺点	适用范围	注意事项	应用场景举例
简单线性回归	- 易于理解和实现。	- 仅适用于线性关系。	- 适用于仅包含一个自变量和一个因变量的简单关系。	- 确保数据符合线性假设。	- 广告费用与销售额之间的关系。
多元线性回归	- 考虑多个自变量，能够更准确地建模真实世界复杂关系。	- 对多重共线性敏感。	- 适用于多个自变量与一个因变量之间的复杂关系。	- 检测和处理多重共线性。	- 房价与面积、卧室数量、浴室数量等因素的关系。
多项式回归	- 能够拟合非线性关系。	- 对高阶多项式的拟合可能过度复杂，容易过拟合。	- 适用于数据呈现非线性关系，但避免使用过高阶多项式。	- 谨慎选择多项式的阶数，避免过拟合。	- 温度与销售额之间可能存在非线性关系。
逻辑回归	- 用于二分类问题，输出结果可解释为概率。	- 对多类别问题不直接适用。	- 适用于二分类问题，如是/否、成功/失败等。	- 确保样本均衡，避免过拟合。	- 产品是否被购买的预测，疾病是否发病的概率预测。

在选择回归分析方法时，需要综合考虑数据的性质、问题的复杂程度以及模型的可解释性。不同类型的回归方法各有优劣，合适的方法应根据具体情况进行选择。注意事项的遵循可以提高建模的准确性和可靠性，确保模型的实际应用效果更好.

2.1 简单线性回归

简单线性回归是一种统计分析方法，用于研究两个变量之间的关系。它假设有一个自变量（输入变量）和一个因变量（输出变量）之间存在线性关系。简单线性回归的目标是建立一条直线，描述自变量和因变量之间的关系，使得通过该直线可以预测或解释因变量的值。

2.1.1 数学知识

简单线性回归模型的数学表示为： $\beta_0 + \beta_1x + \varepsilon$

其中， $y$ 是因变量， $x$ 是自变量， $\beta_0$ 和 $\beta_1$ 是回归方程的截距和斜率， $\varepsilon$ 是误差项，代表模型无法解释的随机误差。

在简单线性回归中，通过收集一组包含自变量和因变量值的数据，使用统计方法拟合直线，以找到最适合数据的回归线。这条拟合的直线可以帮助理解自变量和因变量之间的关系，并用于预测新的因变量值，基于给定的自变量值。简单线性回归是回归分析中的基础，它可以用于探索和量化两个变量之间的线性关系，但需要注意，它仅适用于具有线性关系的数据，并且在应用时需要满足一些假设前提。

2.1.2 应用举例

在python中来构建线性回归的模型非常多，比如scikit-learn,Statsmodels,TensorFlow,PyTorch,XGBoost,LightGBM,CatBoost等等，非常之多。在这里我们以 Python 中的 scikit-learn 库展示相应的代码。

假设我们有一组包含广告费用和销售额的数据，以此来建立简单的线性回归分析模型，代码如下：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LinearRegression

# 生成模拟数据
np.random.seed(1)
ad_costs = np.random.rand(100, 1) * 50  # 广告费用（假设范围在0到50之间）
sales = 15 + 0.5 * ad_costs + np.random.randn(100, 1) * 5  # 生成销售额数据（加入随机噪声）

# 绘制数据散点图
plt.scatter(ad_costs, sales, label='原始数据')
plt.title('广告费用与销售额关系')
plt.xlabel('广告费用')
plt.ylabel('销售额')

# 使用线性回归模型拟合数据
model = LinearRegression()
model.fit(ad_costs, sales)

# 打印R方，系数和截距
r_squared = model.score(ad_costs, sales)
print('R方值:', r_squared)
print('模型系数 (斜率):', model.coef_[0][0])
print('模型截距:', model.intercept_[0])

# 绘制回归线
plt.plot(ad_costs, model.predict(ad_costs), color='red', label='回归线')

plt.legend()
plt.show()

运行上述代码后，结果如下图：
1.1
从上面的运行结果来看，建立的数据模型的R方值为0.704，这说明上述的线性回归模型，能解释70.4%的销售额变化。这个构建好的关系表达式为 $y = 0.4685 * x + 16.1848$ 。从R方的值来看，这个构建的模型效果还算ok，如果我们追求更高的拟合程度，可以考虑引入更多的特征、构建多项式回归、进行特征工程或使用其他模型。