当前位置：首页 > article >正文

数据挖掘校招面经二

article 2025/3/6 17:30:31

得物数据挖掘

一、线性回归 y = ax 中参数 a 如何计算

1.1. a 是待学习参数

在线性回归中，a 是模型的权重（或斜率），需要通过数据来学习其最优值。学习的目标是找到 a 的值，使得模型的预测值 $\hat{y} = ax$ 尽可能接近真实值 y 。

1.2. 最小二乘法

在线性回归中，通常使用最小二乘法来学习 a 。最小二乘法的目标是最小化误差平方和（即真实值 y 和预测值 $\hat{y}$ 之间的差异）：
$\text{误差平方和} = \sum_{i=1}^{n} (y_i - a x_i)^2$
通过最小化这个目标函数，可以找到 $a$ 的最优值。

1.2.1. 数据准备

假设有 n 个数据点 $x_i, y_i)$ ，其中 $\dots, n$ 。

1.2.2. 最小二乘法

通过最小化误差平方和来求解 $a$ ，即：
$\text{误差平方和} = \sum_{i=1}^{n} (y_i - a x_i)^2$

1.2.3. 求导并令导数为零

对误差平方和关于 $a$ 求导，并令导数为零：
$\frac{d}{da} \left( \sum_{i=1}^{n} (y_i - a x_i)^2 \right) = 0$

展开并简化：
$\sum_{i=1}^{n} x_i (y_i - a x_i) = 0$
$\sum_{i=1}^{n} x_i y_i - a \sum_{i=1}^{n} x_i^2 = 0$

1.2.4. 解方程求 $a$

将方程整理为：
$\frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2}$

1.2.5. 最终公式

因此，系数 a 的计算公式为：
$\frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2}$

二、最大似然估计(Maximum Likelihood Estimation, MLE)

见【搜广推校招面经十六】：交叉熵可以通过MLE推导
最大似然估计是一种用于估计统计模型参数的方法，它通过寻找能使观察到的数据出现概率最大的参数值来确定模型的参数。在简单线性回归模型 $y = a x$ （无截距项）中，我们可以使用MLE来估计斜率 $a$ 的值。
通过最大化对数似然函数，我们可以获得与最小二乘法相同的参数估计结果。这不仅验证了最小二乘法的有效性，还展示了MLE作为一种【通用方法】的强大之处。

2.1. 基本概念

给定一组独立同分布(i.i.d.)的数据点 $x_1, y_1), (x_2, y_2), ..., (x_n, y_n)$ ，假设这些数据点符合某个特定的概率分布（例如正态分布），MLE的目标是找到最有可能生成这些观测数据的参数值。
对于线性回归模型 $y = a x$ ，我们通常假设误差项服从正态分布 $\sigma^2)$ 。这意味着每个观测值 $y_i$ 可以被看作是从正态分布 $N(ax_i, \sigma^2)$ 中抽取的样本。

2. 计算斜率 $a$

步骤

定义似然函数: 对于给定的参数 $a$ 和 $\sigma^2$ ，似然函数 $\sigma^2)$ 是所有观测值同时发生的联合概率密度。

如果假设误差项服从正态分布，则似然函数可以写为：
$\sigma^2) = \prod_{i=1}^{n} \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - ax_i)^2}{2\sigma^2}\right)$
取对数似然函数: 为了简化计算，通常取似然函数的自然对数，得到对数似然函数 $\ln L(a, \sigma^2)$ ：
$\ln L(a, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^{n}(y_i - ax_i)^2$
最大化对数似然函数: 要找到使得对数似然函数最大的 $a$ 值，可以通过对 $a$ 求导并令导数等于零来求解。注意到对 $\sigma^2$ 的优化不影响 $a$ 的估计（因为 $\sigma^2$ 在对 $a$ 求导时会被消去），所以我们主要关注与 $a$ 相关的部分：
$\frac{\partial \ln L}{\partial a} = \frac{1}{\sigma^2} \sum_{i=1}^{n} x_i(y_i - ax_i) = 0$

解这个方程可得：
$\sum_{i=1}^{n} x_i y_i = a \sum_{i=1}^{n} x_i^2$

因此，斜率 $a$ 的最大似然估计为：
$\frac{\sum_{i=1}^{n} x_i y_i}{\sum_{i=1}^{n} x_i^2}$