【人工智能-初级】第2章 机器学习入门:从线性回归开始
文章目录
- 一、什么是线性回归?
- 二、线性回归的基本概念
- 2.1 一元线性回归
- 2.2 多元线性回归
- 三、如何进行线性回归建模?
- 四、用Python实现线性回归
- 4.1 导入必要的库
- 4.2 创建虚拟数据集
- 4.3 数据可视化
- 4.4 拆分训练集和测试集
- 4.5 训练线性回归模型
- 4.6 查看模型的参数
- 4.7 模型预测与评估
- 4.8 可视化拟合效果
- 五、总结
- 5.1 学习要点
- 5.2 练习题
一、什么是线性回归?
线性回归(Linear Regression)是机器学习中最基础的算法之一,它主要用于解决回归问题。简单来说,线性回归就是找到一个合适的直线来描述数据之间的关系,并用这个直线进行预测。
在生活中,我们常常会遇到这样的场景:你想知道房子的面积和价格之间的关系,或者想了解广告投放和产品销售之间的联系。这些情况中,存在一种变量随着另一种变量而变化的趋势,这就是线性关系。而线性回归模型的目的就是找到这个趋势,用一个数学公式将这种线性关系表示出来。
二、线性回归的基本概念
线性回归的目标是找到一个函数,它能够尽可能准确地预测输入变量(通常叫做自变量)和输出变量(通常叫做因变量)之间的关系。这个函数通常是一个线性方程,其形式为:
y = w x + b y = w x + b y=wx+b
- y:预测值或因变量。
- x:输入特征或自变量。
- w:模型的权重或斜率。
- b:偏置项,也叫截距,它表示直线在y轴上的截距。
通过调整 w 和 b 的值,我们可以让这条直线尽可能“拟合”数据,使得我们的预测值与真实值之间的误差尽可能小。
2.1 一元线性回归
最简单的线性回归是一元线性回归,它只有一个自变量,即用一个特征预测一个输出值。例如,用房子的面积预测房子的价格。
y = w x + b y = w x + b y=wx+b
在这个公式中,w 是描述房价随面积变化的速率,b 是当面积为0时的房价(当然这种情况在现实中并没有实际意义,但它是数学上的一个假设)。
2.2 多元线性回归
当有多个自变量时,线性回归就变成了多元线性回归。例如,我们用房子的面积、房间数量和建筑年份来预测房价,这时公式变为:
y = w 1 x 1 + w 2 x 2 + w 3 x 3 + . . . + b y = w_1 x_1 + w_2 x_2 + w_3 x_3 + ... + b y=w1x1+w2x2+w3x3+...+b
其中,w1, w2, w3 分别表示每个特征的权重,x1, x2, x3 是各个特征值,b 依旧是截距。
三、如何进行线性回归建模?
线性回归的建模过程包括以下几个步骤:
- 数据收集和准备:收集数据,并对数据进行清洗和预处理。
- 数据可视化:使用图表等手段查看数据,以确定变量之间是否存在线性关系。
- 模型训练:使用线性回归算法拟合模型,找出最优的 w 和 b。
- 模型评估:通过评价指标来衡量模型的好坏,例如均方误差(MSE)。
- 模型预测:使用训练好的模型对新数据进行预测。
四、用Python实现线性回归
下面我们将通过Python来实现一个简单的一元线性回归模型,使用一个虚拟的数据集来说明整个过程。
4.1 导入必要的库
首先,我们需要导入一些库,这些库将帮助我们完成数据分析和建模工作。
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
- numpy:用于进行数值计算。
- matplotlib:用于绘制数据可视化图表。
- sklearn:一个流行的机器学习库,包含许多常用的机器学习算法和工具。
4.2 创建虚拟数据集
我们创建一个简单的数据集,其中包含自变量 x 和因变量 y,并且两者之间存在线性关系。
# 生成随机数据
np.random.seed(0)
x = 2 * np.random.rand(100, 1)
y = 4 + 3 * x + np.random.randn(100, 1)
- np.random.seed(0):设置随机数种子,使得每次生成的随机数相同,方便实验复现。
- x:自变量,随机生成的100个数,每个数介于0到2之间。
- y:因变量,根据线性方程生成,加上了一些噪声(np.random.randn),以模拟实际中的数据。
4.3 数据可视化
绘制数据散点图,以便观察自变量和因变量之间是否存在线性关系。
plt.scatter(x, y, color='blue')
plt.xlabel("x")
plt.ylabel("y")
plt.title("Scatter Plot of Dataset")
plt.show()
运行上述代码后,我们将看到一个散点图,这些点大致呈现线性分布,说明可以用线性回归模型来拟合。
4.4 拆分训练集和测试集
在进行建模之前,我们将数据集拆分为训练集和测试集,以便评估模型的表现。
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)
- train_test_split:将数据随机分为训练集和测试集,test_size=0.2 表示20%的数据用于测试,80%用于训练。
4.5 训练线性回归模型
使用 scikit-learn 提供的 LinearRegression 类来拟合模型。
model = LinearRegression()
model.fit(x_train, y_train)
- model.fit(x_train, y_train):使用训练集数据来训练线性回归模型。训练的过程就是找到最佳的 w 和 b。
4.6 查看模型的参数
训练完成后,我们可以查看模型学习到的权重和截距。
w = model.coef_[0][0]
b = model.intercept_[0]
print(f"模型的权重 w: {w}")
print(f"模型的截距 b: {b}")
这些参数就是拟合出来的直线的方程:
y = w ∗ x + b y = w * x + b y=w∗x+b
4.7 模型预测与评估
使用测试集对模型进行评估,并计算模型的均方误差(MSE)。
y_pred = model.predict(x_test)
# 计算均方误差
mse = mean_squared_error(y_test, y_pred)
print(f"均方误差 MSE: {mse}")
- mean_squared_error:计算预测值和真实值之间的平均平方误差,误差越小,说明模型的拟合效果越好。
4.8 可视化拟合效果
最后,我们可以将拟合的直线绘制在散点图上,直观地看到模型的拟合效果。
plt.scatter(x, y, color='blue', label='Data')
plt.plot(x, model.predict(x), color='red', linewidth=2, label='Linear Fit')
plt.xlabel("x")
plt.ylabel("y")
plt.title("Linear Regression Fit")
plt.legend()
plt.show()
在图中,蓝色的散点是我们的原始数据,红色的直线是模型拟合出来的直线。可以看到这条直线很好地描述了数据之间的关系。
五、总结
线性回归是机器学习中最基础的算法之一,适用于那些变量之间存在线性关系的问题。通过本文的介绍,我们了解了线性回归的基本概念、数学公式以及如何用Python进行建模。掌握线性回归对于理解更复杂的机器学习和深度学习算法有很大的帮助。
5.1 学习要点
- 线性回归的基本形式是 y = wx + b,其中 w 是权重,b 是截距。
- 一元线性回归用于一个特征的情况,而多元线性回归用于多个特征的情况。
- 使用Python库(如 scikit-learn)可以很方便地实现线性回归模型。
- 训练模型时需要将数据集拆分为训练集和测试集,以便评估模型的泛化能力。
5.2 练习题
- 在本例中的数据上,尝试增加更多的噪声,观察模型的拟合效果会发生怎样的变化?
- 使用多元线性回归,尝试预测一个虚拟的房价数据集。
- 使用 sklearn.datasets 模块中的 load_boston 数据集,构建一个线性回归模型,预测房屋价格。
这篇文章介绍的线性回归仅仅是机器学习的一个起点,希望大家通过动手实践能够对其有更加深刻的理解。如果有任何问题,欢迎在评论中讨论!
如果您觉得本文有帮助,欢迎继续学习本专栏的其他内容,下一篇文章将为您介绍K-最近邻(KNN)算法及其Python实现。