当前位置：首页 > article >正文

【人工智能-初级】第2章机器学习入门：从线性回归开始

article 2025/3/9 22:41:22

文章目录

- 一、什么是线性回归？
- 二、线性回归的基本概念
- - 2.1 一元线性回归
  - 2.2 多元线性回归
- 三、如何进行线性回归建模？
- 四、用Python实现线性回归
- - 4.1 导入必要的库
  - 4.2 创建虚拟数据集
  - 4.3 数据可视化
  - 4.4 拆分训练集和测试集
  - 4.5 训练线性回归模型
  - 4.6 查看模型的参数
  - 4.7 模型预测与评估
  - 4.8 可视化拟合效果
- 五、总结
- - 5.1 学习要点
  - 5.2 练习题

一、什么是线性回归？

线性回归（Linear Regression）是机器学习中最基础的算法之一，它主要用于解决回归问题。简单来说，线性回归就是找到一个合适的直线来描述数据之间的关系，并用这个直线进行预测。

在生活中，我们常常会遇到这样的场景：你想知道房子的面积和价格之间的关系，或者想了解广告投放和产品销售之间的联系。这些情况中，存在一种变量随着另一种变量而变化的趋势，这就是线性关系。而线性回归模型的目的就是找到这个趋势，用一个数学公式将这种线性关系表示出来。

二、线性回归的基本概念

线性回归的目标是找到一个函数，它能够尽可能准确地预测输入变量（通常叫做自变量）和输出变量（通常叫做因变量）之间的关系。这个函数通常是一个线性方程，其形式为：

$y = w x + b$

y：预测值或因变量。
x：输入特征或自变量。
w：模型的权重或斜率。
b：偏置项，也叫截距，它表示直线在y轴上的截距。

通过调整 w 和 b 的值，我们可以让这条直线尽可能“拟合”数据，使得我们的预测值与真实值之间的误差尽可能小。

2.1 一元线性回归

最简单的线性回归是一元线性回归，它只有一个自变量，即用一个特征预测一个输出值。例如，用房子的面积预测房子的价格。

$y = w x + b$

在这个公式中，w 是描述房价随面积变化的速率，b 是当面积为0时的房价（当然这种情况在现实中并没有实际意义，但它是数学上的一个假设）。

2.2 多元线性回归

当有多个自变量时，线性回归就变成了多元线性回归。例如，我们用房子的面积、房间数量和建筑年份来预测房价，这时公式变为：

$y = w_1 x_1 + w_2 x_2 + w_3 x_3 + ... + b$

其中，w1, w2, w3 分别表示每个特征的权重，x1, x2, x3 是各个特征值，b 依旧是截距。

三、如何进行线性回归建模？

线性回归的建模过程包括以下几个步骤：

数据收集和准备：收集数据，并对数据进行清洗和预处理。
数据可视化：使用图表等手段查看数据，以确定变量之间是否存在线性关系。
模型训练：使用线性回归算法拟合模型，找出最优的 w 和 b。
模型评估：通过评价指标来衡量模型的好坏，例如均方误差（MSE）。
模型预测：使用训练好的模型对新数据进行预测。

四、用Python实现线性回归

下面我们将通过Python来实现一个简单的一元线性回归模型，使用一个虚拟的数据集来说明整个过程。

4.1 导入必要的库

首先，我们需要导入一些库，这些库将帮助我们完成数据分析和建模工作。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

numpy：用于进行数值计算。
matplotlib：用于绘制数据可视化图表。
sklearn：一个流行的机器学习库，包含许多常用的机器学习算法和工具。

4.2 创建虚拟数据集

我们创建一个简单的数据集，其中包含自变量 x 和因变量 y，并且两者之间存在线性关系。

# 生成随机数据
np.random.seed(0)
x = 2 * np.random.rand(100, 1)
y = 4 + 3 * x + np.random.randn(100, 1)

np.random.seed(0)：设置随机数种子，使得每次生成的随机数相同，方便实验复现。
x：自变量，随机生成的100个数，每个数介于0到2之间。
y：因变量，根据线性方程生成，加上了一些噪声（np.random.randn），以模拟实际中的数据。

4.3 数据可视化

绘制数据散点图，以便观察自变量和因变量之间是否存在线性关系。

plt.scatter(x, y, color='blue')
plt.xlabel("x")
plt.ylabel("y")
plt.title("Scatter Plot of Dataset")
plt.show()

运行上述代码后，我们将看到一个散点图，这些点大致呈现线性分布，说明可以用线性回归模型来拟合。

4.4 拆分训练集和测试集

在进行建模之前，我们将数据集拆分为训练集和测试集，以便评估模型的表现。

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

train_test_split：将数据随机分为训练集和测试集，test_size=0.2 表示20%的数据用于测试，80%用于训练。

4.5 训练线性回归模型

使用 scikit-learn 提供的 LinearRegression 类来拟合模型。

model = LinearRegression()
model.fit(x_train, y_train)

model.fit(x_train, y_train)：使用训练集数据来训练线性回归模型。训练的过程就是找到最佳的 w 和 b。

4.6 查看模型的参数

训练完成后，我们可以查看模型学习到的权重和截距。

w = model.coef_[0][0]
b = model.intercept_[0]
print(f"模型的权重 w: {w}")
print(f"模型的截距 b: {b}")

这些参数就是拟合出来的直线的方程：

$y = w * x + b$

4.7 模型预测与评估

使用测试集对模型进行评估，并计算模型的均方误差（MSE）。

y_pred = model.predict(x_test)

# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 MSE: {mse}")

mean_squared_error：计算预测值和真实值之间的平均平方误差，误差越小，说明模型的拟合效果越好。

4.8 可视化拟合效果

最后，我们可以将拟合的直线绘制在散点图上，直观地看到模型的拟合效果。

plt.scatter(x, y, color='blue', label='Data')
plt.plot(x, model.predict(x), color='red', linewidth=2, label='Linear Fit')
plt.xlabel("x")
plt.ylabel("y")
plt.title("Linear Regression Fit")
plt.legend()
plt.show()