三次权重函数
三次权重函数通常指的是一种权重函数,其形式类似于三次多项式,通常用于数据拟合、插值或加权回归中。这种函数可能在一些特定场景下有效,尤其是在进行插值或拟合时,但 LOESS(局部加权回归平滑)中通常使用 高斯核权重函数,原因与 LOESS 的目标和使用的数学原理密切相关。
1. LOESS 和权重函数
在 LOESS 中,权重函数的核心作用是确定每个邻域点的相对重要性。通过加权回归,我们让距离目标点较近的数据点在回归拟合中贡献更多,而远离目标点的数据点贡献较小。
LOESS 中常用的权重函数有以下几种:
-
高斯核函数:
w ( x i ) = e − ( x i − x 0 ) 2 2 τ 2 w(x_i) = e^{-\frac{(x_i - x_0)^2}{2 \tau^2}} w(xi)=e−2τ2(xi−x0)2
其中 τ \tau τ 是带宽参数(控制权重分布的宽度), x 0 x_0 x0 是当前的预测点, x i x_i xi 是当前点的邻居。高斯核的优点是平滑,并且随着距离的增大,权重以平滑的方式迅速减小。 -
三角函数或线性权重:
w ( x i ) = ( 1 − ∣ x i − x 0 ∣ τ ) for ∣ x i − x 0 ∣ ≤ τ w(x_i) = \left(1 - \frac{|x_i - x_0|}{\tau}\right) \quad \text{for} \quad |x_i - x_0| \leq \tau w(xi)=(1−τ∣xi−x0∣)for∣xi−x0∣≤τ
这是一种线性衰减的权重函数,也有时被称为三角权重。它的缺点是,远离目标点的数据点的权重下降得较快,且不够平滑,特别是在距离较远时,权重下降过于急剧。 -
三次权重函数(Cubic Weighting):
三次权重函数通常是指 三次多项式,它在某些情况下用于加权回归。它的形式类似:
w ( x i ) = ( 1 − ( x i − x 0 τ ) 3 ) for ∣ x i − x 0 ∣ ≤ τ w(x_i) = \left(1 - \left(\frac{x_i - x_0}{\tau}\right)^3\right) \quad \text{for} \quad |x_i - x_0| \leq \tau w(xi)=(1−(τxi−x0)3)for∣xi−x0∣≤τ
三次权重的优点在于能够提供更细腻的变化,避免了在靠近目标点时的权重过度衰减。然而,这样的函数也可能在远离目标点时仍然保持较高的权重,造成对远点的过度依赖,尤其在数据噪声较多时,这种函数可能会使得局部拟合过于受到远端点的影响。
2. 为什么 LOESS 通常使用高斯核函数?
a. 平滑性
高斯函数是一种 平滑的权重函数,它的衰减速度适中,距离目标点较远时,权重迅速减小,但不会突变。相比之下,三角或三次权重函数的衰减可能过于急剧,导致远离目标点的数据点对拟合产生影响不理想。高斯核的这种平滑性特别适用于数据中具有不规则波动或噪声的情况,可以更自然地从局部数据中提取趋势。
b. 避免过度拟合
高斯权重函数确保了远离目标点的点对拟合的影响较小。这样,LOESS 在拟合过程中不会过度依赖远离目标点的点,避免了对数据噪声的过度敏感。这对于数据存在噪声的场景尤其重要。
c. 数学和统计学背景
高斯分布是许多统计学模型和概率论中的基础,特别是在处理 最小二乘法(OLS) 和 加权最小二乘法(WLS) 时,使用高斯核函数有更为广泛的理论支持。它保证了局部加权回归的性质,同时保证了数值上的稳定性。
d. 高效性
高斯权重函数计算简单,并且在数值上表现良好,尤其是在处理大量数据点时,计算效率较高。对于每个点,计算权重时不需要额外的条件判断(如在三角权重中需要判断是否超过某个阈值)。
e. 稳健性
对于具有轻微噪声的数据,三角权重函数等可能会对噪声产生过敏反应,因为它们对远点的惩罚过于急剧,导致过拟合。而高斯函数更为温和,能够提供更好的平滑效果,避免在噪声较多的数据中产生过度拟合。
3. 三次权重函数的特点
虽然 LOESS 中常用的是高斯核函数,但在某些情况下,三次权重函数 也可以作为一个选择,特别是在数据中有明显的局部变化,并且不担心远端点对局部拟合的影响时。三次权重函数的特点:
- 对邻域内的点赋予较大的权重,但不像高斯核函数那样逐渐减少。其权重的变化速度较快。
- 可能会导致在拟合时对远离点的数据产生较大的权重,从而影响局部拟合效果。
三次权重函数的一个例子是:
w
(
x
i
)
=
1
−
(
∣
x
i
−
x
0
∣
τ
)
3
w(x_i) = 1 - \left(\frac{|x_i - x_0|}{\tau}\right)^3
w(xi)=1−(τ∣xi−x0∣)3
当
∣
x
i
−
x
0
∣
≤
τ
|x_i - x_0| \leq \tau
∣xi−x0∣≤τ 时,权重为正值。与高斯核不同,这个函数会较快地降低远离目标点的权重,但相对较陡的衰减可能对噪声敏感。
4. 总结
- 高斯核函数是 LOESS 中常用的权重函数,原因在于它的 平滑性、数值稳定性、避免过度拟合、以及广泛的统计支持。它在大多数情况下可以很好地处理噪声和局部波动。
- 三次权重函数虽然能提供较强的局部加权,但可能会导致远离目标点的数据点对拟合结果的影响过大,从而影响拟合的鲁棒性。
因此,LOESS 通常选择 高斯核函数 作为默认的权重函数,以实现更平滑且稳定的局部回归拟合,尤其适合处理噪声较大的数据。